Материалы по тегу: intel max

05.05.2023 [13:16], Сергей Карасёв

Supermicro представила первые коммерческие серверы на базе ускорителей Intel Max

Компания Supermicro анонсировала стоечные системы SYS-421GE-TNRT и SYS-821PV-TNR — первые в отрасли коммерческие серверы, оборудованные ускорителями Intel Max (Ponte Vecchio). Аппаратной основой представленных решений служат процессоры Intel Xeon Sapphire Rapids.

Обе новинки рассчитаны на установку двух чипов в исполнении Socket E (LGA-4677). Поддерживается до 8 Тбайт оперативной памяти DDR5-4800 в виде 32 модулей ёмкостью 256 Гбайт каждый. Есть 24 отсека во фронтальной части для SFF-накопителей U.2/SATA/SAS.

Модель SYS-421GE-TNRT допускает установку восьми ускорителей Data Center GPU Max 1100 с 48 Гбайт памяти HBM2 каждый. Кроме того, предусмотрены два коннектора для M.2 NVMe SSD. Система оборудована двумя сетевыми портами 10GbE (Intel X710-AT2), выделенным сетевым портом управления, разъёмом D-Sub и последовательным портом.

 Источник изображений: Supermicro

Источник изображений: Supermicro

Для CPU может применяться воздушное или жидкостное охлаждение. Сервер наделён восемью вентиляторами повышенной надёжности. Устройство выполнено в форм-факторе 4U. Питание обеспечивают четыре блока мощностью 2700 Вт стандарта 80 PLUS Titanium. Диапазон рабочих температур — от +10 до +35 °C.

Сервер SYS-821PV-TNR, в свою очередь, может нести на борту до восьми ускорителей Data Center GPU Max 1550 OAM со 128 Гбайт памяти HBM2 каждый. Для CPU и GPU может быть задействовано воздушное или жидкостное охлаждение. Заявленная производительность достигает 6,7 Пфлопс FP16/BF16. Другие характеристики будут раскрыты позднее.

Постоянный URL: http://www.servernews.ru/1086228
25.04.2023 [20:01], Алексей Степин

Как Aurora, но поменьше: запущен тренировочный суперкомпьютер Sunspot на чипах Intel Max

Один из самых масштабных проектов в области высокопроизводительных вычислений (HPC), 2-Эфлопс суперкомпьютер Aurora, который планирует вскоре ввести в строй Аргоннская национальная лаборатория (ANL), получил ещё одну тестовую платформу. Новый мини-кластер Sunspot, включающий в себя две стойки будущей машины, является прекрасным полигоном для отладки ПО.

Aurora будет состоять из более чем 10 тыс. вычислительных узлов, а Sunspot включает в себя 128 узлов, каждый из которых, впрочем, имеет весьма серьёзную конфигурацию. На борту такой узел несёт пару процессоров Intel Xeon Max (Sapphire Rapids + 64 Гбайт HBM2e), а также шесть ускорителей Intel Max Series (Ponte Vecchio). Sunspot использует в качестве интерконнекта фирменную сеть HPE/Cray Slingshot последнего поколения.

 Источник: Argonne Leadership Computing Facility

Источник: Argonne Leadership Computing Facility

Как считает глава Argonne Leadership Computing Facility (ALCF), полная идентичность архитектур позволит разработчикам оптимизировать код для максимального использования всех возможностей Sapphire Rapids и Ponte Vecchio. Ранее тестовыми платформами служили кластеры Iris, Arcticus, Florentia самой Аргоннской лаборатории, а также Borealis, принадлежащий Intel. Система Sunspot была запущена ещё в декабре, с тех пор к ней получили доступ более 180 исследователей из 20 команд разработчиков в рамках программ Aurora Early Science Program (ESP) и Exascale Computing Project (ECP).

 Процесс сборки Aurora идёт полным ходом

Процесс сборки Aurora идёт полным ходом

Отмечается, что достигнутые на «железе» Intel Max результаты внушают оптимизм. В ряде научно-технических задач прирост производительности от перехода на ускорители Intel составил от 20 до 70 %, а в разрабатываемом аргоннцами Hardware/Hybrid Accelerated Cosmology Code выигрыш достиг 2,6 раз. Ожидается, что дальнейшая более тонкая оптимизация позволит улучшить результаты. Интересно, что даже после запуска Aurora система Sunspot демонтирована не будет, а станет, как и все предыдущие тестовые платформы ALCF, общедоступным «полигоном для новичков».

Постоянный URL: http://www.servernews.ru/1085617
12.04.2023 [16:24], Сергей Карасёв

Внезапный пересмотр модельного ряда ускорителей Intel Max объясним желанием не потерять рынок Китая

Корпорация Intel, по сообщению ресурса Tom's Hardware, отменила выпуск ускорителей Data Center GPU Max 1350 (Ponte Vecchio), предназначенных для использования в НРС-системах и оборудовании для ЦОД. Данное решение, как сообщается, связано с реструктуризацией на фоне ухудшившегося финансового положения и снижения продаж. Однако истинная причина может оказаться гораздо прозаичнее.

Как отмечается на сайте самой Intel, решения Data Center GPU Max 1350 были официально анонсированы в I квартале 2023 года. Планировалось, что они будут производиться до января 2026-го. Конфигурация включает 112 ядер Xe, 112 блоков трассировки лучей и 96 Гбайт памяти HBM2e. Показатель TDP был заявлен на отметке 450 Вт. Intel также предложит более мощный ускоритель Data Center GPU Max 1550 с опцией воздушного охлаждения, хотя изначально он планировался только для систем с СЖО.

 Источник: Intel

Источник: Intel

А вот вместо Data Center GPU Max 1350 Intel готовит решение Data Center GPU Max 1450, выход которого на рынок запланирован в конце 2023 года. Предположительно, это будет урезанная версия изделия Data Center GPU Max 1550, которая получит 128 ядер Xe, 128 Гбайт HBM2e, TDP на уровне 450 Вт. Компания прямо говорит о сниженной I/O-производительности. Ранее Intel уже отказалась от ускорителей Rialto Bridge, а выпуск Falcon Shores — перенесла.

Как сообщает The Register, отказ Intel от выпуска Data Center GPU Max 1350 может быть связан с желанием корпорации укрепить позиции на «других рынках». И речь, судя по всему, идёт в первую очередь о Китае. Благодаря пониженной по сравнению с Data Center GPU Max 1550 производительности Intel сможет поставлять новинку в КНР. Санкции, объявленные прошлой осенью, запрещают экспорт в Китай изделий со скоростью обмена данными 600 Гбайт/с и выше, и Data Center GPU Max 1450 должен укладываться в допустимые нормы.

На Китай приходится значительная часть доходов Intel, а учитывая рост востребованности ИИ-приложений и НРС-услуг, появление Data Center GPU Max 1450 может укрепить положение корпорации на рынке Поднебесной. Ранее NVIDIA, для которой китайский рынок тоже очень важен, уже пошла на аналогичный шаг, сначала представив ускоритель A800 (урезанный вариант A100), а затем и H800 (аналог H100).

Постоянный URL: http://www.servernews.ru/1084909
11.01.2023 [03:00], Игорь Осколков

Асимметричный ответ: Intel официально представила процессоры Xeon Sapphire Rapids

Intel официально представила серверные процессоры Xeon семейства Sapphire Rapids (SPR), выход которых изрядно задержался, а также ускорители ранее известные как Ponte Vecchio и теперь объединённые вместе с HBM-версиями SPR в отдельную HPC-серию Max. В этом поколении Intel не смогла догнать AMD EPYC Genoa по числу ядер, числу каналов памяти и линий PCIe, но заготовила ассиметричный, хотя и очень странно реализованный ответ.

Всего представлено 52 модели с числом P-ядер от 8 до 60 и с TDP от 125 до 350 Вт. По числу ядер это существенный апгрейд по сравнению с Ice Lake-SP (до 40 ядер), да и IPC вырос у Golden Cove на 15 % в сравнении с Sunny Cove. Но это существенный проигрыш в сравнении с Genoa (до 96 ядер), особенно если учитывать их максимальный TDP в 360 Вт (cTDP до 400 Вт). Правда, у Sapphire Rapids есть ещё и экономичный режим работы, в котором энергопотребление снижается на 20 %, а производительность для некоторых нагрузок — всего на 5 %.

 Изображения: Intel

Изображения: Intel

Sapphire Rapids предлагают 8 каналов памяти DDR5-4800 (1DPC) и DDR5-4400 (2DPC). 2DPC у Genoa пока что нет. Кроме того, контроллеры поддерживают и модули Optane PMem 300 (Crow Pass), но с учётом того, что производство 3D XPoint прекращено, достаться они могут не всем (впрочем, не всем они и нужны). Ну а маленькая серия Max также включает 64 Гбайт набортной HBM2e-памяти (1,2 Тбайт/с). Остались и отличия в максимальном объёме SGX-анклавов в зависимости от модели CPU.

Однако по числу ядер на узел всё равно лидирует Intel. Если AMD поддерживает только 2S-конфигурации, то Intel снова предлагает и 4S, и 8S (а с момента выхода Cooper Lake-SP прошло немало времени) — на процессор доступно до 4 линий UPI 2.0 (16 ГТ/с в сравнении с 11,2 ГТ/с у Ice Lake-SP). В 2S-платформах Sapphire Rapids также формально обгоняет Genoa по числу линий PCIe 5.0, которых тут по 80 шт. на сокет. Формально потому, что в случае Genoa при желании всё же можно получить 160 линий, пожертвовав скоростью шины между CPU, но в односокетном варианте EPYC в любом случае интереснее Xeon.

Без нюансов тут не обошлось. Так, при бифуркации до 8 x2 скорость падает до PCIe 4.0. Зато каждый root-комплекс поддерживает CXL 1.1, тогда как у Genoa CXL есть только у половины! Впрочем, поддержка всё равно ограничена 4x CXL-устройствами на CPU. Что ещё более странно, официально заявлена поддержка только устройств Type 1 и Type 2, но не Type 3, хотя последние весьма пригодились бы в ряде конфигураций, где требуется больше относительно недорогой, пусть и несколько более медленной, RAM.

Сохранилось традиционное разделение на серии Platinum (8000), Gold (6000/5000), Silver (4000) и Bronze (3000), к которым теперь добавилась серия Max (9400). Список суффиксов, означающих оптимизацию под те или иные задачи и наличие каких-то особенностей, стал чуть шире: Y (SST-PP 2.0), Q (рассчитаны на работу с СЖО), U (односокетные общего назначения), T (увеличенный жизненный цикл), H (in-memory СУБД, аналитика, виртуализация), N (сетевые решения, в том числе для 5G), облачные P/V/M (IaaS/Paa/медиа), S (СХД и HCI).

Но некоторые модели также имеют в названии «+». И вот тут начинается самое интересное! Все процессоры получили «традиционную» (в сравнении с Genoa) реализацию AVX-512, включая DL Boost, а также целый новый набор ИИ-инструкций AMX (до 10 раз быстрее обучение и инференс в сравнении с Ice Lake-SP). Есть и всяческие Speed Select, DDIO, TDX, CET и т.д. Но Sapphire Rapids также получили четыре отдельных ускорителя:

  • Quick Assist Technology (QAT) для задач криптографии и компрессии;
  • Data Streaming Accelerator (DSA) для ускорения перемещения данных между ядрами, кешами, накопителями и сетью;
  • Dynamic Load Balancer (DLB) — аппаратный планировщик для ускорения обработки сетевого трафика;
  • In-Memory Analytics Accelerator (IAA) для ускорения in-memory СУБД, аналитики, обработки Big Data.

Intel заявляет, что средний прирост производительности Sapphire Rapids в сравнении с Ice Lake-SP составил 1,53 раза. А вот для ряда нагрузок, которые могут задействовать новые ускорители прирост производительности на Вт составляет уже до 2,9 раз! То есть Intel продолжает придерживаться стратегии создания максимально универсальных CPU для различных нагрузок. И действительно, спорить с гибкостью Sapphire Rapids трудно. Но какой ценой это достигается? Т.е. буквально: во сколько это обойдётся заказчику? Ответа пока нет.

Дело в том, что в зависимости от модели отличается число доступных и число активированных ускорителей. Фактически в новом поколении используется два вида кристаллов: XCC, «сшитые» из четырёх отдельных тайлов, и монолитные MCC (до 32 ядер, причём 32-ядерных моделей в серии большинство). У каждого тайла в XCC есть по одному блоку QAT, DSA, DLB и IAA, т.е. суммарно на CPU приходится до четырёх ускорителей каждого типа. В случае MCC может быть по два QAT и DLB и по одному DSA и IAA на процессор. Например, у тех моделей, что помечены «+», активно по одному блоку каждого типа, а минимум один DSA активен есть вообще у всех CPU.

За не активированные по умолчанию ускорители придётся заплатить в рамках программы Intel On Demand (SDSi), причём есть опции как с единовременным платежом за постоянную активацию, так и с оплатой по факту использования (это удобно в случае облаков и платформ по типу HPE Greenlake). Исключением являются H-модели, куда входит и самый дорогой ($17000) 60-ядерный процессор 8490H с полностью разблокированными ускорителями и поддержкой 8S-конфигураций, а также процессоры Max, которым доступно только четыре DSA-блока и 2S-платформы, например, 56-ядерный 9480 ($12980).

С одной стороны, желание Intel предоставить больше гибкости заказчикам, а заодно чуть увеличить выход годных к продаже процессоров, понятно. С другой — не очень-то и похоже, что CPU без «лишних» ускорителей отдаются с какой-то существенной скидкой. При этом транзисторный бюджет на них всё равно расходуется. Кроме того, есть ещё момент востребованности этих ускорителей и готовности ПО. У Intel есть и опыт ресурсы для помощи разработчикам, но процесс адаптации в любом случае не мгновенен.

Впрочем, у Intel по сравнению с AMD есть и ещё одно важное преимущество — в среднем более высокая доступность процессоров для большинства заказчиков. Так что с Sapphire Rapids может повториться та же история, что с Ice Lake-SP, когда вендоры здесь и сейчас готовы были предложить Intel-платформы.

В целом же, в новом семействе наиболее любопытны Xeon Max, которые, по словам Intel, по сравнению с прошлым поколением в 3,7 раз производительнее в задачах, завязанных на пропускную способность памяти (а это целый пласт HPC-нагрузок), и которые не так уж дороги. Правда, и здесь без приключений не обошлось — несчастный суперкомпьютер Aurora ожидает утомительный апгрейд его 10 тыс. узлов c простых Xeon Sapphire Rapids на Xeon Max — по полчаса на каждый узел.

Постоянный URL: http://www.servernews.ru/1080081
16.12.2022 [15:26], Сергей Карасёв

В Аргентине появится 15,7-Пфлопс суперкомпьютер на платформе Intel Max

Министр науки, технологий и инноваций Аргентины Даниэль Фильмус (Daniel Filmus) и министр обороны страны Хорхе Тайана (Jorge Taiana) рассказали о новом комплексе высокопроизводительных вычислений, который планируется ввести в эксплуатацию весной 2023 года. Безымянный пока суперкомпьютер расположится в вычислительном центре Национальной метеорологической службы Аргентины. Созданием системы занимаются специалисты Lenovo. Отличительной особенностью системы станет то, что они будет использовать исключительно процессоры и ускорители Intel Max.

Комплекс объединит 5120 ядер процессоров Intel Max (HBM-версии чипов Xeon Sapphire Rapids) суммарной производительностью около 440 Тфлопс. Кроме того, будут задействованы 296 ускорителей Intel Max (Ponte Vecchio) с общим быстродействием 15,3 Пфлопс. Таким образом, пиковая производительность суперкомпьютера в целом составит примерно 15,7 Пфлопс. С таким показателем он мог бы претендовать на 82-е место в нынешнем рейтинге TOP500. Система получит 1,66 Пбайт памяти, 400G-сеть и систему прямого жидкостного охлаждения. Потребляемая мощность составит приблизительно 233 кВт.

 Источник изображения: Intel

Источник изображения: Intel

Суперкомпьютер планируется применять для широкого спектра научных задач, таких как разработка лекарственных препаратов, биоинформатика, наука о данных, искусственный интеллект и моделирование атмосферы. Нужно отметить, что сейчас Национальная метеорологическая служба Аргентины использует HPC-систему Huayra Muyu с пиковым быстродействием 370 Тфлопс.

Постоянный URL: http://www.servernews.ru/1078979
10.11.2022 [01:55], Игорь Осколков

Intel объединила HBM-версии процессоров Xeon Sapphire Rapids и ускорители Xe HPC Ponte Vecchio под брендом Max

В преддверии SC22 и за день до официального анонса AMD EPYC Genoa компания Intel поделилась некоторыми подробностями об HBM-версии процессоров Xeon Sapphire Rapids и ускорителях Ponte Vecchio, которые теперь входят в серию Intel Max.

 Изображения: Intel

Изображения: Intel

Intel Xeon Max предложат до 56 P-ядер, 112,5 Мбайт L3-кеша, 64 Гбайт HBM2e-памяти (четыре стека) с пропускной способностью порядка 1 Тбайт/с, 8 каналов памяти (DDR5-4800 в случае 1DPC, суммарно до 6 Тбайт), а также интерфейсы PCIe 5.0, CXL 1.1, UPI 2.0 и целый ряд различных технологий ускорения для задач HPC и ИИ: AVX-512, DL Boost, AMX, DSA, QAT и т.д. Заявленный уровень TDP составляет 350 Вт.

Первым процессором с набортной HBM-памятью был Arm-чип Fujitsu A64FX (48 ядер, 32 Гбайт HBM2), лёгший в основу суперкомпьютера Fugaku. Intel поднимает планку, давая более 1 Гбайт быстрой памяти на каждое ядро. А поскольку процессор состоит из четырёх отдельных чиплетов, возможно создание четырёх NUMA-доменов с выделенными HBM- и DDR-контроллерами. Но и монолитный режим тоже имеется. А поддержка CXL даёт возможность задействовать RAM-экспандеры.

Intel Xeon Max поддерживают 2S-платформы, что суммарно даёт уже 128 Гбайт HBM-памяти, которых вполне хватит для целого ряда задач. Новые процессоры действительно могут обходиться без DIMM. Но есть и два других режима. В первом HBM-память работает в качестве кеша для обычной памяти, и для системы это происходит прозрачно, так что никаких модификаций для ПО (как в случае отсутствия DIMM вообще) не требуется. Во втором режиме HBM и DDR представлены как отдельные пространства, так что тут дорабатывать ПО придётся, зато можно добиться более эффективного использования обоих типов памяти.

В презентации Intel сравнивает новые Xeon Max с AMD EPYC Milan-X – в зависимости от задачи прирост составляет от +20 % до 4,8 раз. Но, во-первых, уже сегодня эти тесты потеряют всякий смысл в связи с презентацией EPYC Genoa (которые, к слову, должны получить AVX-512), а во-вторых, в следующем году AMD обещает представить Genoa-X с 3D V-Cache. Intel же явно не оставляет попытки создать как можно более универсальный процессор.

Что касается Ponte Vecchio, которые теперь называются Max GPU, то практически ничего нового относительно строения и особенностей данных ускорителей Intel не сказала: до 128 ядер Xe (только теперь стало известно об аппаратном ускорении трассировки лучей, что важно для визуализации), 64 Мбайт L1-кеша и аж 408 Мбайт L2-кеша (из них 120 Мбайт приходится на Rambo-кеш в двух стеках), 16 линий Xe Link, 8 HBM2e-контроллеров на 128 Гбайт памяти и пиковая FP64-производительность на уровне 52 Тфлопс. Все эти характеристики относятся к старшей модели Max Series 1550 в OAM-исполнении с TDP в 600 Вт.

Max Series 1350 предложит 112 ядер Xe и 96 Гбайт HBM2e, но и TDP у этой модели составит всего 450 Вт. Для обеих OAM-версий также будут доступны готовые блоки из четырёх ускорителей (по примеру NVIDIA RedStone), объединённых по схеме «каждый с каждым», так что в сумме можно получить 512 Гбайт HBM2e с ПСП в 12,8 Тбайт/с. Ну а самый простой ускоритель в серии называется Max Series 1100. Это 300-Вт PCIe-плата с 56 Xe-ядрами, 48 Гбайт HBM2e и мостиками Xe Link.

Intel утверждает, что ускорители Max до двух раз быстрее NVIDIA A100 в некоторых задачах, но и здесь история повторяется — нет сравнения с более современными H100. Хотя предварительный доступ к этим ускорителям у Intel есть, поскольку именно Sapphire Rapids являются составной частью платформы DGX H100. В целом, Intel прямо говорит, что наибольшей эффективности вычислений позволяет добиться связка CPU и GPU серии Max в сочетании с oneAPI. Всего на базе решений данной серии готовится более 40 продуктов.

Пока что приоритетным для Intel проектом является 2-Эфлопс суперкомпьютер Aurora, для которого пока что создан тестовый кластер Sunspot со 128 узлами, содержащими ускорители Max. Следующим ускорителем Intel станет Rialto Bridge, который появится в 2024 году. Также компания готовит гибридные (XPU) чипы Falcon Shores, сочетающие CPU, ускорители и быструю память. Аналогичный подход применяют AMD и NVIDIA.

Постоянный URL: http://www.servernews.ru/1077128
Система Orphus