Работа над ошибками: подробности об Intel Xeon Emerald Rapids

 

В декабре корпорация Intel анонсировала новые решения под брендом Xeon. Главной «звездой» анонса стали процессоры Emerald Rapids — Xeon Scalable пятого поколения, которые идут на смену четвёртому поколению Sapphire Rapids. Это во многом существенный апгрейд, хотя Emerald Rapids являются скорее «разминкой» перед выходом Granite Rapids. При этом платформа у Sapphire Rapids и Emerald Rapids одна и та же — Eagle Stream.

Кроме того, Emerald'ы станут последними процессорами в рамках текущего подхода компании, поскольку на смену им идут сразу две серии CPU с E- и P-ядрами: Sierra Forest и Granite Rapids. Есть и другие нюансы. Так, например, пятое поколение Xeon включает несколько CPU, фактически относящихся к серии Sapphire Rapids. При этом в некоторых аспектах Emerald Rapids не дотягивают до Sapphire Rapids, поскольку среди них нет Max-процессоров и нет поддержки 4- и 8-сокетных систем.

Компоновка

Intel в своей презентации сделала упор на развитие ИИ-технологий и специфических ускорителей. С одной стороны, такой подход нельзя назвать новым — уже очень давно отставая от AMD по количеству ядер в сегменте серверных решений, Intel вынуждена отвечать асимметрично, упирая на дальнейшее расширение существующих наборов инструкций, таких как AVX-512, и на внедрение новых, таких как AMX, а также отдельных блоков для узких задач.

 Источник: Intel via Tom's Hardware

Источник: Intel via Tom's Hardware

В пятом поколении Xeon Scalable ситуацию с количеством ядер Intel удалось подтянуть — в серии Emerald Rapids есть и 64-ядерные модели. Но AMD-то опять успела уйти вперёд в количественном отношении с 96-ядерными процессорами EPYC Genoa, представленными более года назад. При этом AMD даже дала некоторую фору Intel, но последней это не особо-то и помогло.

 Источник: Intel

Источник: Intel

Количественные показатели новых Xeon Scalable компания подтянула заметно: общий прирост производительности в сравнении с Sapphire Rapids по данным Intel составляет 21 %, а в инференс-сценариях — аж на 42 %. Для достижения столь серьёзного прироста Emerald Rapids, в числе прочего, получили поддержку памяти DDR5-5600 и увеличенный до 320 Мбайт кеш последнего уровня (LLC). Для обеспечения гибкости в конфигурации серверных подсистем памяти заявлена поддержка устройств CXL 1.1 Type 1/2/3.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

Компания по-прежнему использует несколько разных типов компоновки, в отличие от AMD, жонглирующей одинаковыми «кубиками». Во флагманских моделях Emerald Rapids с числом ядер до 64 применяется компоновка XCC с двумя тайлами, в то время как в моделях с числом ядер до 32 применена более простая монолитная компоновка (MCC). Имеется также малоядерная, но энергоэффективная компоновка EE LCC, где количество ядер не превышает 20. Все ядра — Raptor Cove P-класса. Фактически это чуть подтянутые Golden Cove с переработанной архитектурой кешей и небольшим приростом IPC.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

Это довольно серьёзный шаг вперёд в сравнении с Sapphire Rapids, где для старших моделей Intel была вынуждена использовать компоновку с четырьмя тайлами. Переработана и геометрия интерконнекта: ранее четыре тайла соединялись друг с другом посредством четырёх же мостиков EMIB, а теперь на два тайла приходится три мостика, что в теории должно положительно сказываться на производительности в случае активной пересылки данных между кластерами ядер в разных тайлах.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

Также на четверть возросла производительность межпроцессорного интерфейса UPI, с 16 ГТ/с до 20 ГТ/с. Вкупе с более скоростной подсистемой памяти и возросшим LLC это даёт соответствующий эффект при полном сохранении платформенной совместимости: Emerald Rapids может работать в существующих платформах, рассчитанных на Sapphire Rapids. Потребуется только обновление BIOS и замена направляющей пластиковой рамки.

 Источник: Intel via Tom's Hardware

Источник: Intel via Tom's Hardware

Следует также отметить, что интерконнект был серьёзно оптимизирован именно с точки зрения энергопотребления, что позволило достичь 1,34-кратного превосходства в удельной производительности. Обновлённый комплекс более тонко оперирует частотами и имеет несколько новых режимов энергосбережения, таких как active idle mode и optimized power mode. Эффект от этого наиболее ярко выражен в режимах с низкой нагрузкой (порядка 30–40 % разницы) и позволяет снизить энергопотребление на величину до 110 Вт на процессор.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

Повышенния экономичности и производительности не удалось бы добиться без переработки управления тактовыми частотами в турборежимах, которых теперь пять вместо четырёх. Новые процессоры могут более гибко регулировать частоты при активном использовании AVX-512 или AMX. По сути, Intel исправила ошибку, за которую критиковали первые поколения Xeon Scalable — серьёзную просадку частоты при использовании AVX-512, способную съедать заметную часть прироста производительности.

Модельный ряд

Всего Intel в пятом поколении представила 32 модели процессоров Xeon Scalable, однако только 27 из них являются «истинными» Emerald Rapids. Ещё пять процессоров — Xeon Gold 6554S, Xeon Bronze 3508U, Xeon Silver 4509Y, Xeon Silver 4510 и Xeon Silver 4510T — технически относятся к поколению Sapphire Rapids. Впрочем, относительно первого CPU в этом списке офсайт Intel ясности не даёт. Все процессоры производятся с использованием одного того же техпроцесса Intel 7 (10 нм ESF).

 Источник: Intel via Tom's Hardware

Источник: Intel via Tom's Hardware

Ценовые рамки здесь скромнее, нежели в предыдущем поколении, но не стоит забывать, что речь идёт только о чипах для двухсокетных систем, в то время как в серии Sapphire Rapids были представлены и варианты для четырёх- и восьмисокетных систем. При взгляде на модельный ряд Emerald Rapids бросается в глаза серьёзная дифференциация моделей по объёму кеша: в списке имеются модели как с большим объёмом LLC, от 160 до 320 Мбайт, так и версии, оснащённые лишь 22,5–60 Мбайт кеша, что более характерно для Xeon Scalable предыдущих поколений.

Серьёзно варьируются и доступные блоки ускорителей. Сама Intel называет такую стратегию гибкой и дающей потребителям возможность выбора, но некоторые рамки, установленные компанией, выглядят неочевидно. В первую очередь это касается «игр» с поддержкой быстрой памяти. Да, EPYC Genoa ограничены DDR5-4800, но, во-первых, у решений AMD 12-канальный контроллер против 8-канального у Emerald Rapids, а во-вторых, эти параметры одинаковы для всего модельного ряда EPYC 9004. У Intel же мы видим прямо противоположный подход.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

Хотя для Emerald Rapids и заявлена поддержка DDR5-5600, фактически менее четверти анонсированных CPU поддерживают соответствующую память, причём такая поддержка есть даже не у всех моделей Platinum. Особенно странно это смотрится в сегментах 5G/Networked Optimized и Cloud. Модели Xeon Gold вообще ограничены поддержкой DDR5-5200. Кроме того, ни одна из флагманских моделей Emerald Rapids, поддерживающих DDR5-5600, не имеет полного набора акселераторов.

Есть небольшие изменения в схеме наименования CPU — Emerald Rapids получила достаточно стройную систему суффиксов, описывающих основную сферу применения того или иного процессора. Что касается теплопакета, то его рамки, в основном, ограничены цифрой 350 Вт. Лишь одна модель, Xeon Platinum 8593Q, то есть 64-ядерный вариант с турбо-частотой 3,0 ГГц для всех ядер, ориентированный на работу в связке с СЖО, имеет базовый TDP на уровне 385 Вт.

Производительность

Intel приводит официальные данные о производительности и энергоэффективности Emerald Rapids, однако делает это в несколько странной манере. От лица пятого поколения выступает флагманский 64-ядерный Xeon Platinum 8592+, однако сравнивается он почему-то с разными моделями четвёртого поколения, что вносит серьёзную путаницу.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

В тестах Web, Data Services и AI выступает 56-ядерный Xeon Platinum 8480+, в сегменте HPC выбран 60-ядерный Xeon Platinum 8490H, изначально разработанный для 4S и 8S-систем и несравнимый с двухсокетными Emerald Rapids по цене. В сетевых тестах (Network) и вовсе участвует 52-ядерный Xeon Platinum 8592+.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

Конечно, в таком свете 64-ядерный флагман пятого поколения будет смотреться выгодно, с учётом его более быстрой памяти и объёмного кеша LLC, но почему-то Intel не рискнула сравнить его с Xeon Max с набортной памятью HBM2e. Известно, что в поколении Emerald Rapids таких процессоров не будет, но и вариант на базе Sapphire Rapids мог бы оказаться опасным соперником, особенно в задачах класса HPC и при работе с объёмными LLM.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

А вот пристальное внимание к вопросам латентности выглядит совершенно оправданно: благодаря новой компоновке, использующей два тайла с тремя EMIB-каналами против четырёх тайлов у Sapphire Rapids, где диагональные относительно друг друга тайлы должны были связываться друг с другом через лишнюю «остановку», задержки удалось существенно снизить. NUMA-режимы SNC4 и Quad теперь по понятной причине не поддерживаются даже для XCC-компоновки, где по умолчанию включён режим SNC2.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

Одним из достаточно важных нововведений в Emerald Rapids является аппаратная поддержка расширений TDX (Trust Domain Extensions). Фактически это новый режим работы процессора, т.н. SEAM (Secure Arbitration Mode), в котором виртуальная машина может быть полностью изолирована от всего, что происходит вне доверенного домена. Шифрование содержимого памяти такого домена выполняется аппаратно, поэтому штраф производительности минимален, а итоговая производительность ВМ оказывается всё равно выше, нежели на процессорах без поддержки TDX.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

Intel также очень активно рекламирует наличие специфических акселераторов, поскольку их использование при должной поддержке со стороны ПО позволяет порой достичь 10-кратного выигрыша в производительности и особенно в энергоэффективности.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

Отдельное внимание уделено тестам в различных ИИ-сценариях. Превосходство Xeon Platinum 8592+ над Xeon Platinum 8480+ полностью закономерно: новинка имеет больше ядер, более чем в три раза объёмный кеш LLC, более тонко управляет турбо-частотами и работает с более быстрой памятью. Вряд ли Emerald Rapids будет активно использоваться при обучении нейросетей, поскольку это удел ускорителей. А вот в инференс-системах прирост скорости может оказаться весьма к месту.

 Источник: Intel via ServeTheHome

Источник: Intel via ServeTheHome

Причины говорить о более низком энергопотреблении Emerald Rapids в режимах простоя и малой нагрузки у Intel есть. Это в основном заслуга новой двухтайловой компоновки, которая должна решить проблему с крайне высоким потреблением в таких режимах, характерную для Sapphire Rapids. Для двухпроцессорного сервера разница может достигать 200–220 Вт, но на практике новые решения демонстрируют выигрыш в 160–180 Вт, что, впрочем, тоже неплохо.

 Источник: Phoronix

Источник: Phoronix

Тесты Phoronix показали, что платформа с двумя 64-ядерными Intel Xeon Platinum 8592+ почти на четверть опередила пару 60-ядерных Platinum 8490H и оказалась близкой к двум 64-ядерным AMD EPYC 9554. А вот влияние памяти DDR5-5600 на производительность оказалось не слишком большим и в среднем составило менее 2 %. Разумеется, в определённых типах нагрузок преимущество очевидно, но и стоит более продвинутая DDR5-5600 пока что заметно больше, чем DDR5-4800.

Выигрыш в экономичности также зафиксирован, хотя и не столь существенный, как обещает Intel. Проверка нового режима Optimized Power Mode в BIOS показала, что по умолчанию данный режим не используется, а его активация действительно позволяет серьёзно снизить энергопотребление Emerald Rapids в режимах средней и малой загрузки. При этом обеспечивается общая производительность на уровне 93 % от той, которая была получена с отключенным режимом оптимизации питания, хотя результаты сильно варьируются в зависимости от характера конкретной нагрузки.

Заключение

Emerald Rapids — несомненно заметный шаг вперёд для Intel. Наконец-то преодолён своего рода «психологическиий барьер» в количестве ядер, и, хотя AMD по этому параметру вновь успела уйти вперед, появление 64-ядерных Xeon важно для Intel. Особенно с учётом серьёзной работы над ошибками: Emerald Rapids получили более эффективную двухтайловую компоновку с меньшей латентностью и большей межтайловой пропускной способностью.

 Источник: Intel

Источник: Intel

По сути, в этом поколении количественно подтянуты все основные подсистемы: UPI, DDR5, LLC. Это позволяет Emerald Rapids конкурировать с соответствующими моделями AMD EPYC. Сохранена и платформенная совместимость с Sapphire Rapids, хотя далеко не факт, что все платформы успели пройти валидацию на работу с более быстрой памятью. Однако в поколении Emerald Rapids Intel вовсе не собирается соревноваться с AMD в количестве процессорных ядер.

 Источник: Intel

Источник: Intel

Одна из главных целей Emerald Rapids — легкий апгрейд имеющихся систем на базе Sapphire Rapids, позволяющий получить серьёзный прирост производительности относительно малой ценой, а также снижение TCO при модернизации инфраструктур третьего и более ранних поколений Xeon Scalable. Intel активно продвигает концепцию акселераторов, приводя цифры, позволяющие сравнить стоимость владения инфраструктур на базе Xeon Scalable первого, третьего и пятого поколений, как при развёртывании, так и при модернизации.

 Источник: Intel

Источник: Intel

Денежная экономия получается внушительная, однако в процессе планирования такой модернизации или закупки новых серверов для ЦОД следует учитывать, что оснащённость акселераторами у разных моделей Emerald Rapids очень разная. Потребуется тщательный анализ с учётом планируемых сценариев и нагрузок, поскольку иначе уникальные возможности Emerald Rapids могут пропасть даром.

 Источник: Intel

Источник: Intel

В то же время, решения AMD такого тщательного планирования не требуют, поскольку обладают идентичным набором возможностей по всему модельному ряду, а заодно могут предложить повышенную вычислительную плотность ввиду большего максимального числа ядер на процессорный разъём.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источники:

Постоянный URL: https://servernews.ru/1098188
Система Orphus