Материалы по тегу: h100

08.06.2022 [15:20], Алексей Степин

NVIDIA выбрала процессоры Intel Xeon Sapphire Rapids для своих топовых систем DGX H100

В популярных ныне HPC-системах ведущую роль в обеспечении производительности зачастую играют ускорители, располагающие огромными массивами универсальных вычислительных ядер. Однако все их надо вовремя «кормить» данными, и здесь на первый план выходит пропускная способность интерконнекта. В своё время NVIDIA для DGX A100 выбрала AMD EPYC, единственные массовые на тот момент CPU с поддержкой PCI Express 4.0.

Однако Intel удалось, наконец, справиться с технологическим отставанием по этой части, так что процессоры Xeon поколения Sapphire Rapids получили не только новые расширения, но и поддержку PCI Express 5.0/CXL. И это, возможно, одна из основных причин, по которой корпорация NVIDIA на конференции BofA Securities 2022 объявила о том, что новая система DGX H100 будет использовать именно Sapphire Rapids, а не AMD EPYC Genoa, хотя дизайн системных плат прорабатывался и для этого процессора.

 DGX H100. Источник: NVIDIA

DGX H100. Источник: NVIDIA

Новинка должна увидеть свет в конце этого года, она получит два процессора Xeon Sapphire Rapids, 2 Тбайт системной памяти и 8 ускорителей NVIDIA H100 на базе архитектуры Hopper, объединённых четвёртым поколением интерконнекта NVLink. Общий объём пула HBM3-памяти ускорителей составит 640 Гбайт, чего достаточно для достаточно серьёзных моделей машинного обучения; производительность же в типичном для этого режиме FP8 составит 32 Пфлопс.

Для загрузки машина получит пару NVMe-накопителей объёмом 1,9 Тбайт каждый, встроенное хранилище данных будет состоять из 8 дисков NVMe U.2 объёмом по 3,84 Тбайт. Сетевая часть также достаточно любопытна: только для управления DGX H100 имеет порт 10GbE (50GbE опционально), основная же сетевая часть представлена 400G-адаптерами ConnectX-7 и DPU BlueField-3.

 Источник: Intel

Источник: Intel

Глава корпорации, Дженсен Хуанг (Jensen Huang) также отметил, что NVIDIA продолжит поддержку процессоров с архитектурой x86, в том числе, и для новых суперкомпьютеров, несмотря на разработку собственной серии Arm-процессоров Grace (Hopper). Эти чипы также используют NVLink 4.0 с пропускной способностью 900 Гбайт/с и используются в платформе HGX.

Однако Intel Sapphire Rapids заслужил отдельной похвалы за «великолепную производительность в однопоточном режиме». В настоящее время, отметил Хуанг, новый процессор Intel проходит квалификационное тестирование гиперскейлерами по всему миру, а также тестируется в качестве основного CPU для будущих суперкомпьютеров NVIDIA.

Постоянный URL: http://servernews.ru/1067551
05.05.2022 [20:17], Илья Коваль

Фото дня: ускоритель NVIDIA Hopper H100 в SXM-формате

Ресурс ServeTheHome опубликовал первые живые фотографии грядущего ускорителя NVIDIA H100 на базе новой архитектуры Hopper, который был анонсирован в марте и станет доступен в III квартале этого года. Отмечается, что компоновка платы стала намного более плотной в сравнении с предыдущими SXM-модулями и, в целом, совпадает с тем, что было показано ранее на официальных иллюстрациях.

Так, например, чип GPU (80 млрд транзисторов, техпроцесс TSMC N4) окружён шестью модулями, пять из которых являются HBM3-банками суммарной ёмкостью 80 Гбайт (5 × 16 Гбайт), а шестой нужен только для поддержки и выравнивания высоты. Объём памяти по сравнению с прошлым поколением ускорителей A100 не вырос, но вот пропускная способность поднялась до впечатляющих 3 Тбайт/с, то есть выросла в полтора раза.

 NVIDIA H100 (Фото: ServerTheHome)

NVIDIA H100 (Фото: ServeTheHome)

Также обращает на себя внимание иная компоновка коннекторов с обратной стороны платы. H100 получат не только поддержку PCIe 5.0, но и новый интерконнект NVLink 4.0, у которого, как и у памяти, пропускная способность тоже выросла в полтора раза быстрее, до 900 Гбайт/с. С остальными фотографиями новинки можно ознакомиться на сайте ServeTheHome.

Постоянный URL: http://servernews.ru/1065383
23.03.2022 [13:07], Сергей Карасёв

Supermicro объявила о полной поддержке новейших акселераторов NVIDIA

Компания Supermicro сообщила о поддержке новейших версий программного обеспечения и оборудования NVIDIA. Речь идёт о платформе Omniverse Enterprise, а также об акселераторах NVIDIA RTX A5500, платформе NVIDIA HGX A100 и ускорителях нового поколения NVIDIA H100 Tensor Core. Говорится также, что эталонная архитектура NVIDIA OVX доступна на серверах Supermicro SYS-420GP-TNR с GPU NVIDIA A40.

«Предлагаемый компанией Supermicro ассортимент серверов и рабочих станций разработан с учётом преимуществ пакета программного обеспечения NVIDIA AI Enterprise и платформы Omniverse Enterprise и позволяет специалистам беспрепятственно и более эффективно выполнять совместную работу», — отмечает Supermicro.

 Источник изображения: Supermicro

Источник изображения: Supermicro

Для осуществления реалистичного моделирования на базе Omniverse Enterprise могут применяться такие аппаратные решения Supermicro, как SuperWorkstation 5014A-TT A+, SYS-540A-TR и SuperServer SYS-420GP-TNR. Серверы и рабочие станции Supermicro, сертифицированные компанией NVIDIA, проходят проверку на соответствие требованиям к инфраструктуре с ускорением на базе графических процессоров, способной справляться с разнообразным набором задач.

Постоянный URL: http://servernews.ru/1062566
22.03.2022 [18:40], Игорь Осколков

NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100

На GTC 2022 компания NVIDIA анонсировала ускорители H100 на базе новой архитектуры Hopper. Однако NVIDIA уже давно говорит о себе как создателе платформ, а не отдельных устройств, так что вместе с H100 были представлены серверные Arm-процессоры Grace, в том числе гибридные, а также сетевые решения и обновления наборов ПО.

 NVIDIA H100 (Изображения: NVIDIA)

NVIDIA H100 (Изображения: NVIDIA)

NVIDIA H100 использует мультичиповую 2.5D-компоновку CoWoS и содержит порядка 80 млрд транзисторов. Но нет, это не самый крупный чип компании на сегодняшний день. Кристаллы новинки изготавливаются по техпроцессу TSMC N4, а сопровождают их — впервые в мире, по словам NVIDIA — сборки памяти HBM3 суммарным объёмом 80 Гбайт. Объём памяти по сравнению с A100 не вырос, зато в полтора раза увеличилась её скорость — до рекордных 3 Тбайт/с.

 NVIDIA H100 (SXM)

NVIDIA H100 (SXM)

Подробности об архитектуре Hopper будут представлены чуть позже. Пока что NVIDIA поделилась некоторыми сведениями об особенностях новых чипов. Помимо прироста производительности от трёх (для FP64/FP16/TF32) до шести (FP8) раз в сравнении с A100 в Hopper появилась поддержка формата FP8 и движок Transformer Engine. Именно они важны для достижения высокой производительности, поскольку само по себе четвёртое поколение ядер Tensor Core стало втрое быстрее предыдущего (на всех форматах).

 NVIDIA H100 CNX (PCIe)

NVIDIA H100 CNX (PCIe)

TF32 останется форматом по умолчанию при работе с TensorFlow и PyTorch, но для ускорения тренировки ИИ-моделей NVIDIA предлагает использовать смешанные FP8/FP16-вычисления, с которыми Tensor-ядра справляются эффективно. Хитрость в том, что Transformer Engine на основе эвристик позволяет динамически переключаться между ними при работе, например, с каждым отдельным слоем сети, позволяя таким образом добиться повышения скорости обучения без ущерба для итогового качества модели.

На больших моделях, а именно для таких H100 и создавалась, сочетание Transformer Engine с другими особенностями ускорителей (память и интерконнект) позволяет получить девятикратный прирост в скорости обучения по сравнению с A100. Но Transformer Engine может быть полезен и для инференса — готовые FP8-модели не придётся самостоятельно конвертировать в INT8, движок это сделает на лету, что позволяет повысить пропускную способность от 16 до 30 раз (в зависимости от желаемого уровня задержки).

Другое любопытное нововведение — специальные DPX-инструкции для динамического программирования, которые позволят ускорить выполнение некоторых алгоритмов до 40 раз в задачах, связанных с поиском пути, геномикой, квантовыми системами и при работе с большими объёмами данных. Кроме того, H100 получили дальнейшее развитие виртуализации. В новых ускорителях всё так же поддерживается MIG на 7 инстансов, но уже второго поколения, которое привнесло больший уровень изоляции благодаря IO-виртуализации, выделенным видеоблокам и т.д.

Так что MIG становится ещё более предпочтительным вариантом для облачных развёртываний. Непосредственно к MIG примыкает и технология конфиденциальных вычислений, которая по словам компании впервые стала доступна не только на CPU. Программно-аппаратное решение позволяет создавать изолированные ВМ, к которым нет доступа у ОС, гипервизора и других ВМ. Поддерживается сквозное шифрование при передаче данных от CPU к ускорителю и обратно, а также между ускорителями.

Память внутри GPU также может быть изолирована, а сам ускоритель оснащается неким аппаратным брандмауэром, который отслеживает трафик на шинах и блокирует несанкционированный доступ даже при наличии у злоумышленника физического доступа к машине. Это опять-таки позволит без опаски использовать H100 в облаке или в рамках колокейшн-размещения для обработки чувствительных данных, в том числе для задач федеративного обучения.


NVIDIA HGX H100

Но главная инновация — это существенное развитие интерконнекта по всем фронтам. Суммарная пропускная способность внешних интерфейсов чипа H100 составляет 4,9 Тбайт/с. Да, у H100 появилась поддержка PCIe 5.0, тоже впервые в мире, как утверждает NVIDIA. Однако ускорители получили не только новую шину NVLink 4.0, которая стала в полтора раза быстрее (900 Гбайт/с), но и совершенно новый коммутатор NVSwitch, который позволяет напрямую объединить между собой до 256 ускорителей! Пропускная способность «умной» фабрики составляет до 70,4 Тбайт/с.

Сама NVIDIA предлагает как новые системы DGX H100 (8 × H100, 2 × BlueField-3, 8 × ConnectX-7), так и SuperPOD-сборку из 32-х DGX, как раз с использованием NVLink и NVSwitch. Партнёры предложат HGX-платформы на 4 или 8 ускорителей. Для дальнейшего масштабирования SuperPOD и связи с внешним миром используются 400G-коммутаторы Quantum-2 (InfiniBand NDR). Сейчас NVIDIA занимается созданием своего следующего суперкомпьютера EOS, который будет состоять из 576 DGX H100 и получит FP64-производительность на уровне 275 Пфлопс, а FP16 — 9 Эфлопс.

Компания надеется, что EOS станет самой быстрой ИИ-машиной в мире. Появится она чуть позже, как и сами ускорители, выход которых запланирован на III квартал 2022 года. NVIDIA представит сразу три версии. Две из них стандартные, в форм-факторах SXM4 (700 Вт) и PCIe-карты (350 Вт). А вот третья — это конвергентный ускоритель H100 CNX со встроенными DPU Connect-X7 класса 400G (подключение PCIe 5.0 к самому ускорителю) и интерфейсом PCIe 4.0 для хоста. Компанию ей составят 400G/800G-коммутаторы Spectrum-4.

Постоянный URL: http://servernews.ru/1062434
Система Orphus