Материалы по тегу: cpu

24.02.2021 [11:42], Владимир Мироненко

SiPearl и Open-Silicon Research будут совместно разрабатывать 6-нм ARM-чип для HPC

Компания SiPearl, разрабатывающая высокопроизводительный и энергоэффективный микропроцессор для европейского суперкомпьютера, и Open-Silicon Research, индийское подразделение OpenFive, ведущего поставщика кастомных кремниевых решений с различными IP, объявили о заключении многолетнего соглашения о сотрудничестве с целью разработки 6-нм ARM-чипа для высокопроизводительных вычислений (HPC) с использованием 2.5D-упаковки.

6-нм система на кристалле (SoC) SiPearl Rhea будет производиться компанией TSMC. OpenFive является давним партнёром TSMC в рамках программы Value Chain Aggregator (VCA). SoC нацелена на запуск приложений HPC, использующих искусственный интеллект (ИИ), таких как автономное вождение, распознавание лиц и геномика, которые генерируют огромные объёмы данных.

Чип Rhea представляет собой мощное, хорошо масштабируемое решение. Чип будет основан на 64 ядрах ARM с более чем 30 млрд транзисторов и построен по 6-нм техпроцессу TSMC. SiPearl уже имеет лицензию ARM на использование ядра Neoverse V1 под кодовым названием Zeus и будет применять его в Rhea.

В конструкции чипа также будут использоваться некоторые элементы RISC-V вместе с IP-блоками OSR High Bandwidth Memory (HBM2E), интерфейсом D2D и HBM-памятью в единой упаковке 2.5D. Как ожидается, новый чип поступит в продажу в четвёртом квартале 2022 года, так что ещё предстоит пройти долгий путь по его разработке и интеграции.

Следует отметить, что SiPearl активно участвует в европейских проектах по разработке микросхем для высокопроизводительных вычислений, таких как проект European Processor Initiative (EPI). Она также является членом консорциума Mont-Blanc 2020 по оснащению Европы специализированным модульным и энергоэффективным высокопроизводительным вычислительным микропроцессором и участником команды PlayFrance.Digital.

Постоянный URL: http://servernews.ru/1033362
17.02.2021 [00:43], Игорь Осколков

Российские процессоры Эльбрус-16С, Эльбрус-12С и Эльбрус-2С3 получат ядра шестого поколения архитектуры E2K

На мероприятии Elbrus Tech Day компания МСЦТ рассказала о текущих достижениях и планах развития серии российских процессоров Эльбрус. Сейчас наиболее современным CPU этой линейки является Эльбрус-8СВ на базе архитектуры E2K (Эльбрус 2000) пятого поколения, но в ближайшие годы появятся сразу три SoC шестого поколения: Эльбрус-16С, Эльбрус-2С3 и Эльбрус-12С.

Эльбрус-8СВ является эволюционным развитием Эльбрус-8. Оба чипа используют 28-нм техпроцесс, но за счёт оптимизаций у 8СВ удалось поднять частоту, что вкупе с поддержкой широких векторных инструкций и более современного стандарта памяти дало двукратный рост теоретической пиковой производительности. Впрочем, для программ, не использующих SIMD, прирост пропорционален увеличению тактовой частоты + они всё равно выигрывают от увеличения скорости работы памяти.

На базе этих и других процессоров компания МЦСТ разрабатывает референсные дизайны материнских плат различных форм-факторов, которые можно лицензировать для дальнейшей кастомизации. Часть партнёров компании разрабатывает собственные материнские платы и изделия на их основе. В скором времени на TSMC будет размещён заказ на изготовление очередной партии Эльбрус-8СВ объёмом 10 тыс. штук. В целом, вокруг уже имеющихся CPU сложилась достаточно заметная экосистема как аппаратных, так и программных продуктов и решений.

Следующее поколение процессоров будет разнообразнее. Помимо 16-ядерного Эльбрус-16С, ориентированного на высокопроизводительные серверные системы, будет и модель попроще, которая появится позже остальных — Эльбрус-12С. Этот 12-ядерный CPU рассчитан на серверы начального уровня, а также рабочие станции. А главное отличие от 16С будет в цене. Наконец, ещё один чип, двухъядерный Эльбрус-2С3, ориентирован на мобильные системы, в том числе планшетные компьютеры.

Эльбрус-16С

Эльбрус-16С

Все чипы будут изготавливаться на TSMC по 16-нм техпроцессу FinFET и будут основаны на шестом поколении архитектуры E2K. Строго говоря, это уже не процессоры, а полноценные SoC с интегрированными контроллерами для различной периферии, и для работы им не требуется внешний чип южного моста, как было ранее. В случае Эльбрус-16С площадь кристалла составляет 618 мм2 (25,3 × 24,4 мм), упакован он в корпус HFCBGA4804 с габаритами 63 × 78 мм. Кристалл содержит 12 млрд транзисторов, а его мощность не превышает 130 Вт.

Значительная часть изменений в архитектуре коснулась подсистемы памяти. В частности, были увеличены размеры кешей, суммарный объём которых достиг 51 Мбайт: общий для всех L3-кеш 32 Мбайт, увеличенный до 1 Мбайт L2-кеш, L1-кеш для инструкций на 128 Кбайт + L1-кеш данных на 64 Кбайт. Контроллер памяти стал восьмиканальным, получил поддержку модулей DDR4-3200 и 2DPC, что даёт до 4 Тбайт RAM на сокет с суммарной пропускной способностью до 200 Гбайт/с.

Первые инженерные образцы Эльбрус-16С, полученные в конце прошлого года, уже выдают в бенчмарке stream скорость порядка 70-80% от максимально возможной. Контроллеры попарно подключены к четырём агентам (HMU), «прикреплённым» к внутренней mesh-шине с пропускной способностью 2 Тбайт/с, объединяющей память и ядра. Чип можно разделить на два или четыре NUMA-домена, что полезно для ряда задач.

Одной из таких задач является виртуализация, и в Эльбрус-16С она, наконец, стала полноценной — новые процессоры поддерживают аппаратную виртуализацию практически всех важных ресурсов, в том числе и для режима x86-трансляции, который тоже никуда не делся. Для CPU прошлых поколений всё ещё можно использовать контейнеризацию, но МЦСТ занимается и подготовкой паравиртуализированного ядра и сопутствующих компонентов, включая KVM, QEMU, libvirt и virt-manager.

Для самих ядер был произведён редизайн микроархитектуры, что дало повышение скорости работы и новые возможности. В частности, появились новые SIMD-инструкции в дополнение к имеющимся, поддержка FMA по стандарту IEEE 754-2008 (требуется в современных стандартах C), динамическая оптимизация (касается планирования, что важно для VLIW), новый контроллер прерываний (необходим для виртуализации) и так далее.

Пиковая теоретическая производительность ядра составляет 96 Гфлопс для вычислений одинарной точности и 48 Гфлопс — для двойной. Для всего CPU это 1,5 Тфлопс и 768 Гфлопс соответственно. Предварительные тесты показывают прирост производительности в 2-2,5 раза в сравнении с Эльбрус-8СВ, но надо помнить, что очень много зависит от оптимизаций со стороны компилятора. Само ядро хоть и стало сложнее, но оно всё равно проще, чем ядра современных x86-64 процессоров.

Слабым местом новых чипов, на наш взгляд, является IO-блок. В состав SoC входят четыре root-комплекса PCIe 3.0, которые в сумме дают 32 линии. Из них 8 или 16 линий можно выделить на подключение внешнего южного моста, если не хватает того, что встроен в сам чип. Он предоставляет 2 порта SATA 3.0, 4 порта USB 3.0/2.0 и два мульти-порта, дающих или пару SATA, или пару Ethernet с максимальной конфигурацией 10GbE + 2.5GbE.

Ещё 8 линий PCIe можно отдать на канал для межпроцессорной связи (IPL) в дополнение к двумя каналам, которые есть всегда. В двухсокетной системе, таким образом, можно объединить CPU двумя или тремя IPL. Правда, скорость одного такого канала составляет всего 12 Гбит/с (на инженерных образцах пока достигли 10 Гбит/с), что значительно меньше, чему у UPI или Infinity Fabric. Всего в одной системе может быть объединение до четырёх процессоров.

Помимо прочего, в чипах реализованы различные RAS-функции для повышения надёжности работы. Также улучшен мониторинг процессора и управление его питанием и охлаждением. Вероятно, теперь уже все системы на базе новых CPU будут комплектоваться BMC-контроллером — ASPEED AST2500 и в перспективе AST2600 — с собственной прошивкой на базе OpenBMC и с встроенной микро-ОС, упрощающей инициализацию и работу с оборудованием. Референсный дизайн двухсокетной платы 2Э16С-SPRC появится в середине этого года, а однопроцессорной Micro-ATX — к концу.

В 2022 году появятся и другие варианты двух- и четырёхсокетных систем с Эльбрус-16С, а также одно- и двухсокетные платы для Эльбрус-12С. Партнёры МЦСТ, надо полагать, тоже не будут сидеть без дела. Напомним, что формально окончание разработки Эльбрус-16С намечено на конец этого года. Для Эльбрус-2С3 и Эльбрус-12С точные сроки озвучены не были. И если 12-ядерная модель, скорее всего, очень похожа на 16-ядерную, то младший чип серии заметно от них отличается.

Эльбрус-2С3 имеет всего два ядра шестого поколения с тактовой частотой 2 ГГц, два канала памяти DDR4-3200 и производительность до 192/96 Гфлопс FP32/FP64. У него есть 16 линий PCIe 3.0. В его состав входит 3D-ядро Imagination PowerVR GX6650 (300 Гфлопс), ряд (де)кодеров видео, а также 2D-ядро собственной разработки. Есть четыре видеовыхода (из них 2 HDMI) и поддержка 4K-вывода. Для этой SoC компанией в течение 2021 года будут подготовлены первые платы Micro-ATX и Mini-ITX.

Характеристики будущих процессоров Эльбрус-32С пока до конца не определены, но примерные очертания будущего продукта уже есть. CPU должен иметь производительность не ниже 1,5/3/6 Тфлопс для вычислений FP64/FP32/FP16 и содержать от 32 ядер с частотой более 2 ГГц. Возможно, будет и 64 ядра седьмого поколения E2K. Объём L3-кеша должен как минимум удвоиться, а контроллер памяти, возможно, получит поддержку DDR5 объёмом не менее 4 Тбайт/сокет. Предполагается возможность работы как минимум двухсокетных конфигураций.

Дальнейшее развитие могут получить виртуализация и фирменная технология безопасных вычислений с попутным добавлением новых инструкций. Уже сейчас разработчики хотят предоставить 64 линии PCIe 5.0, что открывает путь к использованию CXL 2.0. К встроенным контроллерам, помимо NVMe, без которого уже точно не обойтись, могут добавиться 100GbE и USB 3.1 или более новые. Будущие кристаллы перейдут на техпроцесс не толще 7 нм, а их площадь вырастет до 600 мм2.

Постоянный URL: http://servernews.ru/1032777
01.02.2021 [22:16], Алексей Степин

Cделка IBM и Inspur, похоже, спасает архитектуру POWER от вымирания

Когда говорят о противостоянии серверных процессоров, как правило, называют AMD и Intel, а с недавних пор ещё и ARM. Некогда крупный игрок, IBM со своими процессорами серии POWER, упоминается существенно реже, и на то есть причины — за прошедшее десятилетие дела у компании шли не слишком хорошо. Но, если верить аналитикам IT Jungle, ситуация с POWER не так проста и не так плоха.

Если верить отчётам самой IBM, доходы снизились на рекордную величину за последние пять лет, упали даже продажи мейнфреймов. Доходы в сегменте аппаратного обеспечения за прошедший год у IBM упали на 18% относительно 2019 года, а у подразделения Power Systems называют даже цифру 43,3%. Однако как считают некоторые аналитики, дела в секторе серверов на базе процессоров POWER могут обстоять не так плохо, как это может показаться на первый взгляд.

Платформа IBM POWER самобытна и весьма интересна сама по себе: так, уже не новые процессоры POWER9 поддерживают четыре потока на ядро против традиционных двух у x86, а в некоторых вариантах способны работать даже в режиме SMT8. Более новые POWER10 также поддерживают восьмипоточный режим; кроме того, они работают с прогрессивным форматом оперативной памяти OMI и имеют контроллер PCI Express 5.0.

Планы развития архитектуры POWER

Планы развития архитектуры POWER

Здесь следует немного углубиться в историю. Китайская компания Inspur, один из крупнейших среднеазиатских производителей серверного оборудования, всегда мечтала о «большом железе». В 2014 году ей удалось добиться договорённости с IBM о праве запускать фирменное ПО последней (в частности, базы данных DB2 и сервер приложений WebSphere) на 32-процессорных Itanium-системах. А месяцем позднее Inspur присоединилась к консорциуму OpenPower с целью создания серверов уже на базе архитектуры POWER.

В 2017 начинается «война санкций», при этом приличного самостоятельного открытого клона POWER-процессора консорциум так и не создал. Известно, что китайская Suzhou PowerCore Technology, входящая в OpenPower, занималась адаптацией POWER под более «толстые» техпроцессы. Сейчас компания активно нанимает сотрудников и открывает новое подразделение в США. Однако чем именно она занимается и связан ли этот рост с полным открытием POWER ISA, не до конца ясно.

Структура продаж POWER-систем по мнению ресурса IT Jungle

Структура продаж POWER-систем по мнению ресурса IT Jungle

До ввода санкций IBM и Inspur успевают создать совместное предприятие (51% Inspur + 49% IBM), которое, что интересно, тоже называется IBM — Inspur Business Machines. Цель новой компании, в которую вложили порядка 1 млрд юаней ($150 млн) — создание мощных серверных систем на базе архитектуры POWER для крупного бизнеса. Поставками же POWER-процессоров для Inspur занималась, в частности, всё та же Suzhou.

Судя по косвенным данным, сделка для Inspur оказалась весьма успешна. Кроме того, компания вообще чувствует себя отлично, поставляя также x86-серверы как малому и среднему бизнесу, так и китайским гигинтам Alibaba, Baidu и Tencent. К сентябрю 2020 года продажи Inspur составят $7,71 млрд, что на 43% больше, нежели у IBM с её $5,4 млрд.

С учётом поставок Inspur общий объём продаж POWER-серверов может выглядеть так

С учётом поставок Inspur общий объём продаж POWER-серверов может выглядеть так по мнению IT Jungle

К настоящему моменту IBM публикует только свои цифры продаж систем на базе POWER, и графики выглядят достаточно удручающе. Из-за санкций IBM не может продавать POWER-системы в КНР напрямую, а Inspur Business Machines — может. Из $8 млрд продаж Inspur примерно 10-12% может приходиться на системы с процессорами POWER, а это от $800 до $960 млн, и эти цифры сопоставимы с продажами серверов самой IBM.

Иными словами, платформа POWER, скорее всего, отнюдь не находится в процессе вымирания. Более того, после неудачных 2016 и 2017 годов объёмы продаж таких серверов могли, как минимум, вернуться к показателям 2015 года. Также вполне вероятно, что и Google производит для себя серверы на базе POWER — соответствующие предложения появились в Google Cloud уже достаточно давно. Похожее решение есть и в Microsoft Azure.

Постоянный URL: http://servernews.ru/1031600
27.01.2021 [13:01], Сергей Карасёв

Выход серверов нового поколения спровоцирует рост цен на системы охлаждения

Начало поставок серверов на процессорах Intel и AMD нового поколения породит потребность в более производительных системах охлаждения. А это, как сообщает ресурс DigiTimes, спровоцирует рост средней стоимости охлаждающих компонентов, от чего выиграют их производители.

В конце текущего квартала, как ожидается, Intel организует массовые отгрузки серверных чипов Ice Lake-SP Xeon, производящихся по 10-нанометровой технологии. Их максимальное значение рассеиваемой тепловой энергии (показатель TDP) составит от 250 до 300 Вт, что больше по сравнению с изделиями Cascade Lake и Cooper Lake. Соответственно, потребуются более эффективные системы охлаждения с более высокой стоимостью.

Процессоры AMD EPYC третьего поколения с кодовым именем Milan обеспечат прирост быстродействия на 15–20 % по сравнению с предшественниками, но при этом вырастет и величина TDP: флагманский EPYC 7763 будет иметь тепловыделение до 280 Вт.

Изображения SilverStone

Изображения SilverStone

Отмечается, что некоторые операторы центров обработки данных уже изучают возможность модернизации своих площадок с целью внедрения передовых систем жидкостного охлаждения. Однако для этого потребуется комплексное переоборудование зданий, что обернётся огромными затратами.

Digitimes Research отмечает, что глобальные поставки серверов увеличились почти на 7% в годовом исчислении и составили 16 млн единиц в 2020 году. В первой половине 2021 года ожидается небольшая волна замены старых систем на новые, которая поможет увеличить мировые поставки почти на 6% в 2021 году. В настоящее время Intel по-прежнему доминирует на рынке серверных CPU: по данным Mercury Research, 93,4% серверов, поставленных в третьем квартале 2020 года, были оснащены процессорами Intel.

Постоянный URL: http://servernews.ru/1031146
13.01.2021 [23:29], Андрей Галадей

Разработчики ядра Linux обсуждают отказ от ряда старых процессоров

Ядро Linux 5.10 стало очередным релизом с долгосрочной поддержкой (LTS), который будет поддерживаться как минимум в течение следующих пяти лет. И потому в сообществе началось обсуждение отказа от поддержки ряда устаревших процессоров и архитектур. В числе аргументов сторонники удаления отмечали, что многие платформы не получали обновлений и коммитов уже много лет.

Разработчик Арнд Бергманн (Arnd Bergmann) предложил список из 30 с лишним платформ Arm, которые можно было бы безболезненно убрать. Большая часть из них, попав в основную ветку ядра, получала обновления в течение 1-3 лет, после чего была заброшена. Другая часть относится к «доисторическим», то есть к таким, которые уже давным-давно не производятся.

hackster.io

hackster.io

Наконец, есть перечень платформ, которые давно «мертвы» и не поддерживаются разработчиками порядка 10 лет:

  • H8300
  • C6X
  • SPARC/Sun4M
  • PowerPC: CELL (не считая PS3), CHRP, AmigaOne, Maple
  • M68K: Apollo, HP300, Sun3, Q40
  • MIPS JAZZ и Cobalt

Кроме того, есть и архитектуры, которые тоже можно рассмотреть в качестве кандидатов на исключения из ядра Linux:

  • 80486SX/DX — поддержка 80386 прекратилась в 2012 году, нет смысла поддерживать и 80486.
  • Alpha 2106x — системами на базе любых Alpha вряд ли кто-то пользуется.
  • IA64 Merced — первое поколение Itanium, на смену которым через год пришли Itanium II.
  • MIPS R3000/TX39xx: 32-бит чипы MIPS-II (не путать с более современной MIPS32), которые с 1991 года вытеснены 64-бит MIPS-III.
  • SuperH SH-2 — популярная в середине 90-х архитектура для встраиваемых систем.
  • 68328 (DragonBall) — поддержка похожих микроконтроллеров 68360 удалена в 2016 году. Поддержка более новых 68020+ и Coldfire MCF5xxx сохранится.

Вопрос об удалении старых архитектур возник не на пустом месте. Арнд Бергманн изучал текущее состояние 32-бит платформ и потенциальную возможность отказа от них, так как полный переход на поддержку только 64-бит архитектур значительно облегчил бы жизнь разработчиков во многих аспектах. Ранее он предположил, что через десять лет среди массовых архитектур останутся только x86-64, ARM и RISC-V.

Постоянный URL: http://servernews.ru/1029884
13.01.2021 [19:03], Игорь Осколков

Qualcomm поглощает Nuvia, разработчика серверных Arm-процессоров

Qualcomm Incorporated объявила, что её дочерняя компания Qualcomm Technologies, Inc. заключила окончательное соглашение о приобретении NUVIA примерно за $1,4 млрд. Решения компании должны дополнить экосистему Snapdragon, включающую GPU, ИИ-движки, DSP и мультимедийные ускорители. Сделка ждёт одобрения со стороны регуляторов.

Любопытно, что Qualcomm говорит об использовании решений NUVIA во флагманских смартфонах, ноутбуках следующего поколения, системах автопилотирования и приборных панелях авто, а также для сетевой инфраструктуры и подключённых устройств. Однако NUVIA разрабатывала SoC Orion c Arm-процессором Phoenix собственного дизайна, которая ориентирована на совершенно другой сегмент — на облачных провайдеров и гиперскейлеров. Компания обещала, что её чипы будут быстрее и энергоэффективнее AMD EPYC и Intel Xeon. Осенью она получила дополнительные $240 млн для производства первых чипов.

У двух крупных игроков, Qualcomm и Broadcom, с серверными Arm-процессорами не заладилось. Первая забросила Centriq, а наследие проекта Vulcan второй в результате череды слияний и поглощений оказалось в руках Marvell, которая этими же руками проект, судя по всему, и похоронила. Так что на этом рынке к концу 2020 года осталось только два заметных игрока: Ampere, уже представившая свои чипы (очень неплохие, надо сказать), и подающие надежды NUVIA. Из альтернатив остаются Amazon Graviton2, который доступен только в облаке AWS, и Kunpeng от Huawei, которая находится под санкциями США и будущее её несколько туманно.

Qualcomm, судя по сегодняшнему релизу, пока не очень заинтересована в развитии серверных Arm-процессоров. Вероятно, она надеется, что NUVIA поможет ей догнать Apple — Qualcomm традиционно отставала от последней в выводе на рынок SoC на базе новых архитектур Arm. Среди основателей NUVIA числится Джерард Уильямс III (Gerard Williams III), который почти десять лет руководил разработкой Arm-чипов в Apple, был научным сотрудником Arm и ведущим дизайнером Texas Instruments. В конце 2019 года Apple подала к нему иск.

Двое других основателей NUVIA имеют не менее солидный послужной список: Ману Гулати (Manu Gulati) и Джон Бруно (John Bruno) в разное время работали в AMD, Apple и Google, в том числе в должности архитектора. К компании также присоединились бывший вице-президент Intel по маркетингу Джон Карвилл (Jon Carvill), работавший в Facebook, Qualcomm, Globalfoundries, AMD и ATI, а также Энтони Скарпино (Anthony Scarpino), проработавший 24 года в ATI и AMD.

Постоянный URL: http://servernews.ru/1029994
12.01.2021 [22:44], Алексей Степин

Битва за королевство ARM: Ampere Altra против AWS Graviton2

Вторжение архитектуры ARM в мир современных высокоплотных центров обработки и хранения данных оказалось успешным: в настоящее время AWS активно использует процессоры Graviton2, а Ampere начала поставки чипов Altra, показавших себя не хуже AMD EPYC второго поколения. Обе реализации серверных ARM-процессоров показывают в среднем лучшую в сравнении с x86-64 энергоэффективность, но как они проявят себя в прямом столкновении между собой?

Вкратце напомним: платформа Ampere Altra является открытой: процессоры имеют свой разъём LGA 4926, тогда как AWS Graviton2 хотя и базируются на той же архитектуре ARM Neoverse N1, но сторонним заказчикам не поставляются — воспользоваться можно лишь облачными инстансами, запускаемыми на системах с этими ЦП.

Ядер больше у Altra (80 против 64), но оба процессора не имеют поддержки SMT. В тактовых частотах преимущество также у Altra: 64-ядерный инстанс AWS m6g.metal имеет фиксированную частоту 2,5 ГГц, а у процессоров Altra Quicksilver Q80-33 она может достигать 3,3 ГГц. Кроме того, доступны конфигурации с двумя процессорными разъёмами, обеспечивающими суммарно 160 ядер. Тем не менее, результаты тестов представляют существенный интерес: столь серьёзные реализации архитектуры ARM столкнулись друг с другом впервые.

Полностью с обзором можно ознакомиться на сайте Phoronix, мы же рискнём выделить отдельные, на наш взгляд, наиболее интересные результаты. Так, в тесте HPCG победу одержала реализация Ampere, но при равном активном количестве ядер превосходство над Graviton2 составило лишь около 5%, и это с учётом возможности ядер Quicksilver разгоняться до 3,3 ГГц. Зато эта же возможность очень помогла процессорам Ampere одержать убедительную победу в тестах на сжатие данных.

Тест Stream показал чуть более высокий результат на платформе Graviton2, но разница столь незначительна, что её можно не принимать во внимание. А вот в Coremark 1.0, наборе тестов, созданном специально для оценки вычислительных способностей процессоров, Altra Quicksilver одерживает безоговорочную победу. Даже при равном с Graviton2 количестве активных ядер разница довольно серьёзна, а в 80-ядерном режиме Altra Q80-33 не оставляет процессору AWS ни шанса. И это же можно сказать про тесты с трассировкой лучей.

Ampere Altra Quicksilver: лучшая серверная платформа с архитектурой ARM

Ampere Altra Quicksilver: лучшая серверная платформа с архитектурой ARM

В остальных тестах картина схожая, либо не столь зависящая от количества активных ядер у Altra. Но Graviton2 не удалось выиграть нигде. Впрочем, это не значит, что решение AWS хуже: оба процессора базируются на дизайне ядер ARM Neoverse N1, но Graviton2 работает на существенно более низкой частоте и, по всей видимости, его проигрыш на 9/10 объясняется этой причиной. В целом же, ARM-платформа Ampere выглядит интереснее: она доступна и в виде классических серверов, а не только как облачная услуга, кроме того, в двухпроцессорной конфигурации со 160 ядрами платформа Mount Jade обеспечивает великолепную производительность.

Постоянный URL: http://servernews.ru/1029866
25.12.2020 [22:21], Алексей Степин

Первые тесты 80-ядерных Arm-процессоров Ampere Altra: не хуже x86-64

Процессоры Ampere Altra были анонсированы весной 2020 года. На OCP Virtual Summit 2020 GIGABYTE представила системную плату MP32-AR0 с разъёмом для процессоров Ampere, а осенью она опубликовала сведения о новой серии серверов R272-P30 (Mount Snow). Теперь же Ampere разослала зарубежным обозревателям двухсокетные платформы Mount Jade, и первые результаты тестирования новых CPU внушают оптимизм.

Чипы Ampere Altra имеют до 80 ядер с архитектурой ARM v8.2+ (с некоторыми улучшениями из наборов v8.3 и 8.4), связанных между собой mesh-шиной Arm CoreLink CMN-600. Поддерживает эти ядра развитая система кешей: 64+64 Кбайт L2, 1 Мбайт L2 и до 32 Мбайт общего L3. Подсистема памяти имеет 8 каналов DDR4-3200 (72-бит, 2DPC, до 4 Тбайт суммарно).

Для подключения периферии есть контроллер PCIe 4.0 на 128 линий, но в двухсокетном варианте по 32 линии с каждой стороны отводится на связь между CPU, что в сумме даёт 192 линии. Причём для связи применяется CCIX. Отдельно стоит отметить, что Ampere идёт по пути AMD — стоимость CPU зависит только от числа ядер и их частоты, а в остальном функциональность более дешёвых моделей не отличается от таковой в старших версиях CPU.

В отличие от традиционных Intel Xeon, AMD EPYC и уж тем более IBM POWER9/10, многопоточности в Altra нет. Однако разработчики называют это преимуществом: отказ от SMT позволил им снизить уровень энергопотребления — показатель, чрезвычайно важный для рынка высокоплотных серверных систем. Кроме того, одной из причин была названа повышенная безопасность.

Рекомендованные цены на процессоры Ampere Altra Quicksilver. Данные AnandTech

Рекомендованные цены на процессоры Ampere Altra Quicksilver. Данные AnandTech

Образцы Mount Jade, разосланные зарубежным обозревателям, получили по два топовых 80-ядерных процессора Altra Q80-33, работающих на частоте 3,3 ГГц и имеющих теплопакет 250 Ватт, а также 512 Гбайт DDR4-3200. В отличие от однопроцессорного варианта, двухпроцессорный был разработан в сотрудничестве с Wiwynn, известным разработчиком и поставщиком OCP-платформ.

Процессорный разъём Ampere своего имени пока не имеет; по аналогии с решениями Intel его можно назвать LGA 4926. Это больше, чем у Xeon Scalable второго поколения, и даже больше, чем у Cooper Lake с его 4189 контактами. Механизм установки радиаторов, однако, больше напоминает AMD SP3: имеется привычная откидная рамка, она фиксируется пятью винтами. Сам процессор имеет внушительные габариты: 77 × 66,8 мм.

Сравнительные габариты серверных процессоров: Altra крупнее всех. Фото ServeTheHome

Сравнительные габариты серверных процессоров. Фото ServeTheHome

Любопытно, что эталонный дизайн Mount Jade использует радиаторы с довольно маленькой площадью контакта, порядка ¼ от площади крышки теплораспределителя на самом процессоре. Это позволяет примерно судить о реальной площади кристалла Altra Quicksilver. Он, напомним, монолитный и производится с использованием 7-нм норм. Впрочем, радиаторы снабжены испарительной камерой, так что должны работать достаточно эффективно и справляться с TDP 250 Ватт.

Соперниками для Ampere Altra Q80-33 естественным образом выступают AMD EPYC 7742 (64 ядра, SMT2, 225 Ватт, $6950) и Intel Xeon Platinum 8280 (28 ядер, SMT2, 205 Ватт, $10009). Решение Ampere, однако, заметно дешевле — оно оценено в $4050. Естественно, для крупных заказчиков цены варьируются, но всё-таки предложение Ampere выглядит весьма привлекательно с учётом характеристик.

Турборежим в понимании Ampere (слева) и в мире x86

Турборежим в понимании Ampere (слева) и в мире x86

Помимо этого, Ampere исповедует иной подход к «турборежиму»: если в мире x86 принята некая «минимальная базовая частота», которую процессор может превышать, то Altra Qicksilver практически всегда работает на максимальной заявленной для модели частоте, лишь изредка снижая её. А вот теплопакет новые процессоры пытаются поддерживать на как можно более низком уровне.

Нельзя сказать, что новые процессоры во всём выступили лидерами: в частности, AnandTech отметили довольно высокие задержки, как в пределах одного разъёма, так и межпроцессорные. Возможно, последнее вызвано необходимостью двойного преобразования между протоколами AMBA CHI и CCIX. Вообще межпроцессорная связь выглядит довольно слабым звеном Altra: у AMD ширина Infinity Fabric вдвое шире (64 линии PCIe 4.0 против 32), у Intel три интерфейса UPI хотя и обеспечивают меньшую пропускную способность, но не имеют «наценки» к латентности.

NAMD пока не имеет поддержки компиляторов, но даже так Ampere Altra проявляют себя неплохо

Популярный HPC-тест NAMD пока не имеет поддержки компиляторов, но даже так Ampere Altra проявляют себя неплохо

А вот в тестах на пропускную способность памяти Altra Q80-33 выступил явным лидером и явно показал преимущества своей более гибкой модели использования ресурсов DRAM. Аутсайдером здесь оказался Xeon, имеющий лишь шесть каналов против восьми более высокочастотных у AMD и Ampere.

Уже в однопоточных тестах SPECint2017 и SPECfp2017 новинка показала себя, как минимум, не хуже Xeon Platinum 8280, а в ряде случаев опередила и AMD EPYC 7742. В отдельных тестах 80 ядер ARM показали себя хуже 28 ядер Intel, особенно заметно это отставание в тестах на вычисления с плавающей запятой.

Однопоточная производительность: лидер всё ещё Xeon Scalable

Однопоточная производительность: лидер всё ещё Xeon Scalable

Возможным виновником называют сравнительно слабую подсистему предвыборки (prefetch), тем более что в аналогичном тесте (507.cactuBSSN) другой процессор на базе ARM, AWS Graviton2, показал себя лучше. Кроме того, Xeon способен разгоняться до 4 ГГц при двух активных ядрах, что не могло не повлиять на результаты.

Многопоточная производительность в SPEC2017: первое место

Многопоточная производительность в SPEC2017: первое место

В многопоточных тестах Xeon по понятной причине выступил аутсайдером, а вот Altra Q80-33 вышел в лидеры практически во всех тестах, за исключением вышеупомянутого 507.cactuBSSN. Это великолепный результат, ведь соперник в лице AMD EPYC 7742 может выполнять 128 потоков. По сути, в SPECint мы имеем нового абсолютного лидера в классе двухпроцессорных систем, да и в SPECfp новинка практически не уступает «красному» сопернику. Также стоит отметить, что один Altra Q80-33 явно быстрее Graviton2 (64 ядра).

В тестах Java повторить триумф не удалось. Сказалась незрелость программного обеспечения, а также отсутствие SMT. Возможно также, что тестовые сценарии привели к насыщению межъядерной mesh-сети и подсистем памяти Altra, однако в критических сценариях всё же главным недостатком нового процессора стало отсутствие мультитрединга.

JVM: ARM пока не лучший выбор

JVM: ARM пока не лучший выбор

Недаром IBM, остающаяся одним из главных поставщиков java-решений, активно использует SMT4 и даже SMT8: в таких условиях ПО на базе JVM чувствует себя великолепно. В эту же сферу, вероятно, метила и Marvell со своими ThunderX3, судьба которых так и не определена. В целом, однако, платформа Altra всё же смогла занять промежуточное положение между «красными» и «синими».

Компиляция LLVM: версия Phoronix

Компиляция LLVM: версия Phoronix

В тестах на компиляцию новинка показала себя хорошо: у ряда обозревателей компиляция LLVM Suite оказалась примерно столь же быстрой, как и на системе с двумя EPYC 7742; впрочем, у Phoronix отмечена аномалия — Altra уступила платформе Xeon. Но даже в этом случае платформа ARM продемонстрировала лучшую энергоэффективность. В тестах на сжатие, в основном, наблюдается паритет между Altra и AMD, в тестах MariaDB, nginx, а также файл-серверных сценариях картина аналогичная.

Но энергопотребление при компиляции у Ampere Altra всё равно самое низкое

Но энергопотребление при компиляции у Ampere Altra всё равно самое низкое

В целом, дебют платформы Ampere Altra можно считать многообещающим. Новые процессоры проявили себя великолепно: при более низком уровне энергопотребления они смогли продемонстрировать производительность примерно на уровне AMD EPYC 7742 или несколько ниже, и это в подавляющем большинстве тестов и при более низкой рекомендуемой цене. У новой платформы есть некоторые недостатки, в частности, не очень эффективная схема межпроцессорной связи и отсутствие поддержки SMT, но, к счастью, это не оказало фатального влияния на итоговую производительность.

Новые процессоры неплохо показывают себя в трассировке лучей

Новые процессоры неплохо показывают себя в трассировке лучей

Референсный вариант сервера Wiwynn Mount Jade выглядит очень привлекательно. Платформа проявила себя достаточно зрело: она обладает лучшим в своём классе уровнем энергопотребления и способна предоставить в распоряжение пользователей 160 эффективных процессорных ядер, а также пул оперативной памяти объёмом вплоть до 8 Тбайт. Основной проблемой пока, как и в случае нашего теста ARM-платформы TaiShan, отсутствие оптимизаций ПО и развитой экосистемы, но это лишь вопрос времени.

Полностью новые обзоры процессора Ampere Altra и платформы Mount Jade можно прочесть на AnandTech, ServeTheHome и Phoronix. Напоследок отметим, что NVIDIA, находящаяся в процессе поглощения Arm, только выиграет от подобных платформ и уже портирует своё ПО на Arm. В частности, та же Mount Jade в связке с NVIDIA T4 и DPU NVIDIA Mellanox BlueField-2 используется для облачного гейминга. Кроме того, заявлено о партнёрстве с GIGABYTE, Inspur и Wiwynn.

Постоянный URL: http://servernews.ru/1028799
21.12.2020 [18:41], Алексей Степин

128-ядерные супепроцессоры Tachyum Prodigy стали на шаг ближе к реальности

Летом уходящего года компания Tachyum объявила о том, что собирается отправить Xeon «на свалку истории». Сделать это должен 128-ядерный процессор нового поколения Prodigy. Хотя массово он пока не производится, компания продолжает активно работать над проектом и совсем недавно объявила начало предзаказов на эмуляторы нового процессора, как программные, так и базирующиеся на ПЛИС. Также она продемонстрировала рабочий UEFI для будущих CPU.

Молодая словацкая компания замахнулась на многое. Её процессор должен получить до 128 ядер, работающих на частоте до 4 ГГц. Чтобы «накормить» его данными, предусмотрен 12-канальный контроллер памяти DDR5. С периферией Prodigy будет общаться посредством 48 линий PCIe 5.0, но также получит и два контроллера Ethernet класса 400G. Характеристики весьма впечатляют.

Разработчики заявляют, что Prodigy найдёт своё место в системах класса Big Data и мощных системах машинного обучения. Если верить Tachyum, производительность разрабатываемого процессора должна достигнуть 16 и 8 Тфлопс на классичесих вычислениях FP32/FP64. В режиме машинного обучения и инференса возможности новой архитектуры выглядят ещё внушительнее, поскольку речь идёт о цифре 262 Тфлопс.

Столь громкие анонсы в истории вычислительной техники часто заканчивались «на бумаге», но Tachyum действительно работает над реализацией Prodigy. Как это обычно бывает, новая процессорная архитектура отрабатывается разработчиками с помощью эмуляции — как чисто программной, так и базирующейся на мощных ПЛИС. Это позволяет понять возможности и особенности поведения архитектуры, пусть и работающей с меньшей производительностью.

В начале декабря Tachyum объявила об открытии предзаказов на ПЛИС-эмулятор Prodigy, позволяющий начать разработку программного обеспечения для будущих систем на базе нового процессора уже сейчас. Поставки должны начаться в первом квартале 2021 года. В середине месяца Tachyum анонсировала и возможность заказа программного эмулятора Prodigy. Главная ценность такого эмулятора — более низкая стоимость в сравнении с вариантом на базе ПЛИС.

Любой процессор неработоспособен без сопутствующего системного программного обеспечения — BIOS или, что сейчас встречается намного чаще, UEFI. В начале месяца Tachyum объявила о том, что передаст OEM и ODM-партнёрам UEFI, разработанное для новой архитектуры. При этом ПО будет поставляться не только в бинарном виде, разработчики получат и исходные коды.

К настоящему времени, таким образом, компания предлагает программные и ПЛИС-эмуляторы нового процессора, и сопутствующее программное обеспечение. К чести Tachym, разработан не только UEFI — имеется и ядро Linux с поддержкой новой архитектуры, набор средств разработки, включая компиляторы (в том числе, для ИИ-задач) и отладчики кода. Успешно продемонстрирована возможность работы на Prodigy бинарного кода, созданного для архитектур x86, ARM и RISC-V.

Первые чипы Prodigy должны появиться уже в следующем году. Если запуск будет успешным, Tachym может сильно изменить привычную картину мира в сфере HPC и ИИ, ведь новая архитектура обещает быть производительнее классических Xeon и EPYC при на порядок более низком энергопотреблении, втрое более низкой стоимостью в пересчёте на MIPS, и вчетверо более низкой стоимостью владения.

Более того, Prodigy угрожает даже ускорителям, обеспечивая сравнимый или более высокий уровень производительности в задачах, где последние традиционно сильны, например, в системах машинного обучения. Остаётся лишь пожелать Tachyum удачи в столь смелом начинании.

Постоянный URL: http://servernews.ru/1028370
16.12.2020 [23:00], Илья Коваль

Из-за ошибки в чипах выход серверных процессоров Intel Xeon Ice Lake-SP будет отложен как минимум до середины II квартала 2021 года

Часть тезисов, изложенных индустриальными аналитиками в ходе доклада для частной трейдинговой фирмы Susquehanna International Group, стала доступна широкой публике. Из них следует, что у Intel есть проблемы с серверным CPU поколения Ice Lake-SP, которые должны составить конкуренцию AMD EPYC Milan.

В частности, релиз Ice Lake-SP снова перенесён на более поздний срок из-за ошибки в чипах, о чём сообщают сразу несколько источников. Сейчас говорится о выпуске новинок в середине-конце второго или начале третьего квартала. Также сообщается, что производительность существенным образом не выросла. Кроме того, в релизных версиях максимальное число ядер в чипе сокращено с 38 до 36. Конкурент в лице EPYC Milan на базе Zen 3, анонс которого теперь уже наверняка состоится до выхода Ice Lake-SP, предложит как минимум те же 64 ядра в максимальной конфигурации, что и в поколении Rome.

Более того, предполагается, что Milan сможет составить конкуренцию и Sapphire Rapids, следующему поколению серверных процессоров Intel, релиз которых был перенесён со второго квартала 2021 года на второй квартал 2022-го. К этому моменту, если всё пойдёт по плану, AMD успеет подготовить следующее поколение CPU, EPYC Genoa. На него Intel сможет ответить в 2023 году процессорами Granite Rapids. В целом, если у обеих компаний не будет каких-то существенных изменений в реализации их планов, Intel сможет догнать AMD только в 2024-2025 годах, утверждают аналитики.

Постоянный URL: http://servernews.ru/1028038
Система Orphus