Материалы по тегу: nvlink
29.05.2023 [07:30], Сергей Карасёв
NVIDIA представила 1-Эфлопс ИИ-суперкомпьютер DGX GH200: 256 суперчипов Grace Hopper и 144 Тбайт памятиКомпания NVIDIA анонсировала вычислительную платформу нового типа DGX GH200 AI Supercomputer для генеративного ИИ, обработки огромных массивов данных и рекомендательных систем. HPC-платформа станет доступна корпоративным заказчикам и организациям в конце 2023 года. Платформа представляет собой готовый ПАК и включает, в частности, наборы ПО NVIDIA AI Enterprise и Base Command. Для платформы предусмотрено использование 256 суперчипов NVIDIA GH200 Grace Hopper, объединённых при помощи NVLink Switch System. Каждый суперчип содержит в одном модуле Arm-процессор NVIDIA Grace и ускоритель NVIDIA H100. Задействован интерконнект NVLink-C2C (Chip-to-Chip), который, как заявляет NVIDIA, значительно быстрее и энергоэффективнее, нежели PCIe 5.0. В результате, скорость обмена данными между CPU и GPU возрастает семикратно, а затраты энергии сокращаются примерно в пять раз. Пропускная способность достигает 900 Гбайт/с. Технология NVLink Switch позволяет всем ускорителям в составе системы функционировать в качестве единого целого. Таким образом обеспечивается производительность на уровне 1 Эфлопс (~ 9 Пфлопс FP64), а суммарный объём памяти достигает 144 Тбайт — это почти в 500 раз больше, чем в одной системе NVIDIA DGX A100. Архитектура DGX GH200 AI Supercomputer позволяет добиться 10-кратного увеличения общей пропускной способности по сравнению с HPC-платформой предыдущего поколения. Ожидается, что Google Cloud, Meta* и Microsoft одними из первых получат доступ к суперкомпьютеру DGX GH200, чтобы оценить его возможности для генеративных рабочих нагрузок ИИ. В перспективе собственные проекты на базе DGX GH200 смогут реализовывать крупнейшие провайдеры облачных услуг и гиперскейлеры. Для собственных нужд NVIDIA до конца 2023 года построит суперкомпьютер Helios, который посредством Quantum-2 InfiniBand объединит сразу четыре DGX GH200. * Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».
26.08.2022 [12:45], Алексей Степин
Интерконнект NVIDIA NVLink 4 открывает новые горизонты для ИИ и HPCПотребность в действительно быстром интерконнекте для ускорителей возникла давно, поскольку имеющиеся шины зачастую становились узким местом, не позволяя «прокормить» данными вычислительные блоки. Ответом NVIDIA на эту проблему стало создание шины NVLink — и компания продолжает активно развивать данную технологию. На конференции Hot Chips 34 было продемонстрировано уже четвёртое поколение, наряду с новым поколением коммутаторов NVSwitch. ![]() Изображения: NVIDIA Возможность использования коммутаторов для NVLink появилась не сразу, изначально использовалось соединение блоков ускорителей по схеме «точка-точка». Но дальнейшее наращивание числа ускорителей по этой схеме стало невозможным, и тогда NVIDIA разработала коммутаторы NVSwitch. Они появились вместе с V100 и предлагали до 50 Гбайт/с на порт. Нынешнее же, третье поколение NVSwitch и четвёртое поколение NVLink сделали важный шаг вперёд — теперь они позволяют вынести NVLink-подключения за пределы узла. Так, совокупная пропускная способность одного чипа NVSwitch теперь составляет 3,2 Тбайт/с в обе стороны в 64 портах NVLink 4 (x2). Это, конечно, отразилось и на сложности самого «кремния»: 25,1 млрд транзисторов (больше чем у V100), техпроцесс TSMC 4N и площадь 294мм2. Скорость одной линии NVLink 4 осталась равной 50 Гбайт/с, но новые ускорители H100 имеют по 18 линий NVLink, что даёт впечатляющие 900 Гбайт/с. В DGX H100 есть сразу четыре NVSwitch-коммутатора, которые объединяют восемь ускорителей по схеме каждый-с-каждым и дополнительно отдают ещё 72 NVLink-линии (3,6 Тбайт/с). При этом у DGX H100 сохраняются прежние 400G-адаптеры Ethernet/InfiniBand (ConnectX-7), по одному на каждый ускоритель, и пара DPU BlueField-3, тоже класса 400G. Несколько упрощает физическую инфраструктуру то, что для внешних NVLink-подключений используются OSFP-модули, каждый из которых обслуживает 4 линии NVLink. Любопытно, что электрически интерфейсы совместимы с имеющейся 400G-экосистемой (оптической и медной), но вот прошивки для модулей нужны будут кастомные. Подключаются узлы DGX H100 к 1U-коммутатору NVLink Switch, включающему два чипа NVSwitch третьего поколения: 32 OSFP-корзины, 128 портов NVLink 4 и агрегированная пропускная способность 6,4 Тбайт/с. В составе DGX SuperPOD есть 18 коммутаторов NVLink Switch и 256 ускорителей H100 (32 узла DGX). Таким образом, можно связать ускорители и узлы 900-Гбайт/с каналом. Как конкретно, остаётся на усмотрение пользователя, но сама NVLink-сеть поддерживает динамическую реконфигурацию на лету. Ещё одна особенность нового поколения NVLink — продвинутые аппаратные SHARP-движки, которые избавляют CPU/GPU от части работ по подготовке и предобработки данных и избавляющие саму сеть от ненужных передач. Кроме того, в NVLink-сети реализованы разделение и изоляция, брандмауэр, шифрование, глубокая телеметрия и т.д. В целом, новое поколение NVLink получило полуторакратный прирост в скорости обмена данными, а в отношении дополнительных сетевых функций он стал трёхкратным. Всё это позволит освоить новые класса HPC- и ИИ-нагрузок, однако надо полагать, что удовольствие это будет недешёвым.
20.08.2022 [22:30], Алексей Степин
NVIDIA поделилась некоторыми деталями о строении Arm-процессоров Grace и гибридных чипов Grace HopperНа GTC 2022 весной этого года NVIDIA впервые заявила о себе, как о производителе мощных серверных процессоров. Речь идёт о чипах Grace и гибридных сборках Grace Hopper, сочетающих в себе ядра Arm v9 и ускорители на базе архитектуры Hopper, поставки которых должны начаться в первой половине следующего года. Многие разработчики суперкомпьютеров уже заинтересовались новинками. В преддверии конференции Hot Chips 34 компания раскрыла ряд подробностей о чипах. Grace производятся с использованием техпроцесса TSMC 4N — это специально оптимизированный для решений NVIDIA вариант N4, входящий в серию 5-нм процессов тайваньского производителя. Каждый кристалл процессорной части Grace содержит 72 ядра Arm v9 с поддержкой масштабируемых векторных расширений SVE2 и расширений виртуализации с поддержкой S-EL2. Как сообщалось ранее, NVIDIA выбрала для новой платформы ядра Arm Neoverse. Процессор Grace также соответствует ряду других спецификаций Arm, в частности, имеет отвечающий стандарту RAS v1.1 контроллер прерываний (Generic Interrupt Controller, GIC) версии v4.1, блок System Memory Management Unit (SMMU) версии v3.1 и средства Memory Partitioning and Monitoring (MPAM). Базовых кристаллов у Grace два, что в сумме даёт 144 ядра — рекордное количество как в мире Arm, так и x86. Внутренние блоки Grace соединяются посредством фабрики Scalable Coherency Fabric (SCF), вариации NVIDIA на тему сети CMN-700, применяемой в дизайнах Arm Neoverse. Производительность данного интерконнекта составляет 3,2 Тбайт/с. В случае Grace он предполагает наличие 117 Мбайт кеша L3 и поддерживает когерентность в пределах четырёх сокетов (посредством новой версии NVLink). Но SCF поддерживает масштабирование. Пока что в «железе» она ограничена двумя блоками Grace, а это уже 144 ядра и 234 Мбайт L3-кеша. Ядра и кеш-разделы (SCC) рапределены по внутренней mesh-фабрике SCF. Коммутаторы (CSN) служат интерфейсами для ядер, кеш-разделов и остальными частями системы. Блоки CSN общаются непосредственно друг с другом, а также с контроллерами LPDDR5X и PCIe 5.0/cNVLink/NVLink C2C. В чипе реализована поддержка PCI Express 5.0. Всего контроллер поддерживает 68 линий, 12 из которых могут также работать в режиме cNVLink (NVLink с когерентностью). x16-интерфейс посредством бифуркации может быть превращен в два x8. Также на приведённой NVIDIA диаграмме можно видеть целых 16 двухканальных контроллеров LPDDR5x. Заявлена ПСП на уровне свыше 1 Тбайт/с для сборки (до 546 Гбайт/с на кристалл CPU). Основной же межчиповой связи NVIDIA видит новую версию NVLink — NVLink-C2C, которая в семь раз быстрее PCIe 5.0 и способна обеспечить двунаправленную скорость передачи данных на уровне до 900 Гбайт/с, будучи при этом в пять раз экономичнее. Удельное потребление у новинки составляет 1,3 пДж/бит, что меньше, нежели у AMD Infinity Fabric с 1,5 пДж/бит. Впрочем, существуют и более экономичные решения, например, UCIe (~0,5 пДж/бит). ![]() Новый вариант NVLink обеспечит кластер на базе Grace Hopper единым пространством памяти. Источник: NVIDIA NVLink-C2C позволяет реализовать унифицированный «плоский» пул памяти с общим адресным пространством для Grace Hopper. В рамках одного узла возможно свободное обращение к памяти соседей. А вот для объединения нескольких узлов понадобится уже внешний коммутатор NVSwitch. Он будет занимать 1U в высоту, и предоставлять 128 портов NVLink 4 с агрегированной пропускной способностью до 6,4 Тбайт/с в дуплексе. ![]() Источник: NVIDIA Производительность Grace также обещает быть рекордно высокой благодаря оптимизированной архитектуре и быстрому интерконнекту. Даже по предварительным цифрам, опубликованным NVIDIA, речь идёт о 370 очках SPECrate2017_int_base для одного кристалла Grace и 740 очках для 144-ядерной сборки из двух кристаллов — и это с использованием обычного компилятора GCC без тонких платформенных оптимизаций. Последняя цифра существенно выше результатов, показанных 128-ядерными Alibaba T-Head Yitian 710, также использующим архитектуру Arm v9, и 64-ядерными AMD EPYC 7773X.
22.03.2022 [18:40], Игорь Осколков
NVIDIA анонсировала 4-нм ускорители Hopper H100 и самый быстрый в мире ИИ-суперкомпьютер EOS на базе DGX H100На GTC 2022 компания NVIDIA анонсировала ускорители H100 на базе новой архитектуры Hopper. Однако NVIDIA уже давно говорит о себе как создателе платформ, а не отдельных устройств, так что вместе с H100 были представлены серверные Arm-процессоры Grace, в том числе гибридные, а также сетевые решения и обновления наборов ПО. ![]() NVIDIA H100 (Изображения: NVIDIA) NVIDIA H100 использует мультичиповую 2.5D-компоновку CoWoS и содержит порядка 80 млрд транзисторов. Но нет, это не самый крупный чип компании на сегодняшний день. Кристаллы новинки изготавливаются по техпроцессу TSMC N4, а сопровождают их — впервые в мире, по словам NVIDIA — сборки памяти HBM3 суммарным объёмом 80 Гбайт. Объём памяти по сравнению с A100 не вырос, зато в полтора раза увеличилась её скорость — до рекордных 3 Тбайт/с. Подробности об архитектуре Hopper будут представлены чуть позже. Пока что NVIDIA поделилась некоторыми сведениями об особенностях новых чипов. Помимо прироста производительности от трёх (для FP64/FP16/TF32) до шести (FP8) раз в сравнении с A100 в Hopper появилась поддержка формата FP8 и движок Transformer Engine. Именно они важны для достижения высокой производительности, поскольку само по себе четвёртое поколение ядер Tensor Core стало втрое быстрее предыдущего (на всех форматах). TF32 останется форматом по умолчанию при работе с TensorFlow и PyTorch, но для ускорения тренировки ИИ-моделей NVIDIA предлагает использовать смешанные FP8/FP16-вычисления, с которыми Tensor-ядра справляются эффективно. Хитрость в том, что Transformer Engine на основе эвристик позволяет динамически переключаться между ними при работе, например, с каждым отдельным слоем сети, позволяя таким образом добиться повышения скорости обучения без ущерба для итогового качества модели. На больших моделях, а именно для таких H100 и создавалась, сочетание Transformer Engine с другими особенностями ускорителей (память и интерконнект) позволяет получить девятикратный прирост в скорости обучения по сравнению с A100. Но Transformer Engine может быть полезен и для инференса — готовые FP8-модели не придётся самостоятельно конвертировать в INT8, движок это сделает на лету, что позволяет повысить пропускную способность от 16 до 30 раз (в зависимости от желаемого уровня задержки). Другое любопытное нововведение — специальные DPX-инструкции для динамического программирования, которые позволят ускорить выполнение некоторых алгоритмов до 40 раз в задачах, связанных с поиском пути, геномикой, квантовыми системами и при работе с большими объёмами данных. Кроме того, H100 получили дальнейшее развитие виртуализации. В новых ускорителях всё так же поддерживается MIG на 7 инстансов, но уже второго поколения, которое привнесло больший уровень изоляции благодаря IO-виртуализации, выделенным видеоблокам и т.д. Так что MIG становится ещё более предпочтительным вариантом для облачных развёртываний. Непосредственно к MIG примыкает и технология конфиденциальных вычислений, которая по словам компании впервые стала доступна не только на CPU. Программно-аппаратное решение позволяет создавать изолированные ВМ, к которым нет доступа у ОС, гипервизора и других ВМ. Поддерживается сквозное шифрование при передаче данных от CPU к ускорителю и обратно, а также между ускорителями. Память внутри GPU также может быть изолирована, а сам ускоритель оснащается неким аппаратным брандмауэром, который отслеживает трафик на шинах и блокирует несанкционированный доступ даже при наличии у злоумышленника физического доступа к машине. Это опять-таки позволит без опаски использовать H100 в облаке или в рамках колокейшн-размещения для обработки чувствительных данных, в том числе для задач федеративного обучения. Но главная инновация — это существенное развитие интерконнекта по всем фронтам. Суммарная пропускная способность внешних интерфейсов чипа H100 составляет 4,9 Тбайт/с. Да, у H100 появилась поддержка PCIe 5.0, тоже впервые в мире, как утверждает NVIDIA. Однако ускорители получили не только новую шину NVLink 4.0, которая стала в полтора раза быстрее (900 Гбайт/с), но и совершенно новый коммутатор NVSwitch, который позволяет напрямую объединить между собой до 256 ускорителей! Пропускная способность «умной» фабрики составляет до 70,4 Тбайт/с. Сама NVIDIA предлагает как новые системы DGX H100 (8 × H100, 2 × BlueField-3, 8 × ConnectX-7), так и SuperPOD-сборку из 32-х DGX, как раз с использованием NVLink и NVSwitch. Партнёры предложат HGX-платформы на 4 или 8 ускорителей. Для дальнейшего масштабирования SuperPOD и связи с внешним миром используются 400G-коммутаторы Quantum-2 (InfiniBand NDR). Сейчас NVIDIA занимается созданием своего следующего суперкомпьютера EOS, который будет состоять из 576 DGX H100 и получит FP64-производительность на уровне 275 Пфлопс, а FP16 — 9 Эфлопс. Компания надеется, что EOS станет самой быстрой ИИ-машиной в мире. Появится она чуть позже, как и сами ускорители, выход которых запланирован на III квартал 2022 года. NVIDIA представит сразу три версии. Две из них стандартные, в форм-факторах SXM4 (700 Вт) и PCIe-карты (350 Вт). А вот третья — это конвергентный ускоритель H100 CNX со встроенными DPU Connect-X7 класса 400G (подключение PCIe 5.0 к самому ускорителю) и интерфейсом PCIe 4.0 для хоста. Компанию ей составят 400G/800G-коммутаторы Spectrum-4.
19.12.2020 [00:29], Игорь Осколков
Интегрированная фотоника NVIDIA объединит сотни ускорителей в единый кластерВ рамках NVIDIA GTC 2020 China компания поведала о своих достижениях и планах. Одной из тем ключевого доклада конференции стал рассказ о наработках исследовательского подразделения NVIDIA Research в области становящейся всё более и более актуальной интегрированной кремниевой фотоники, без которой вычислительные системы будущего вряд ли обойдутся. Сейчас скорость передачи данных для электрических соединений, говорит NVIDIA, достигает 50 Гбит/с на пару, в перспективе её можно увеличить до 100-200 Гбит/с, но прыгнуть выше этой планки будет уже очень трудно. Практически единственный путь в этом случае — переход на оптические линии связи. Это предполагает — по крайней мере сейчас, на стадии концепта — смену компоновки. В нынешних системах DGX/HGX на базе A100 максимальная конфигурация платы включает восемь ускорителей, расположенных горизонтально и объединённых NVSwitch. Суммарная пропускная способность канала NVLink между двумя ускорителями составляет 600 Гбайт/с, а NVSwitch — 4,8 Тбайт/с. Но этим всё и ограничивается — длина NVLink-подключений составляет порядка 0,3 м. За пределы шасси они не выходят, так что сейчас всё в итоге упирается в намного более медленную шину PCIe 4.0 и подключенные к ней адаптеры, которые дают суммарную скорость всего в 500 Гбайт/с. Такое несоответствие в скорости обмена данными внутри и между шасси ограничивает возможность эффективного масштабирования. Переход, к примеру, на InfiniBand NDR не решит проблему, так как даст лишь удвоение скорости. Поэтому-то NVIDIA видит будущее в интегрированных в ускорители оптических трансиверах на базе кремниевой фотоники. Они позволят не только увеличить длину подключений до 20-100 м, что позволит объединить ускорители в пределах нескольких стоек, а не только одного шасси, но и вдвое повысить энергоэффективность — с 8 пДж/бит для «меди» до 4 пДж/бит для «оптики». Как обычно, предполагается использование несколько длин волн (DWDM) в одном волокне, каждая из которых будет нести 25-50 Гбит/с, что даст суммарно от 400 Гбит/с до нескольких Тбайт/с. Для работы с несколькими длинами будут использоваться кольцевые модуляторы. И всё это будет упаковано вместе с другим «кремнием». То есть это, в целом, та же схема, что мы видели ранее у Intel, да и у других вендоров тоже. Правда, NVIDIA пока не приводит ряд других технических характеристик, но уже говорит о возможности объединить до 18 ускорителей в одном шасси благодаря вертикальной ориентации карт и до 9 шасси в стойке, что даст пул из 171 карт. Для связи пулов ускорителей будут использоваться оптические коммутаторы NVSwitch, объединённые в сеть Клоза.
10.04.2018 [01:20], Алексей Степин
Тайны коммутатора NVIDIA NVSwitchНа прошедшей недавно конференции GTC (GPU Technology Conference) корпорация NVIDIA представила новый внутренний интерконнект NVSwitch, целью которой является эффективное объединение в сеть множества вычислительных процессоров Volta. Именно NVSwitch является сердцем демонстрационной системы DGX-2, аналоги которой планируется использовать в дальнейшем для постройки суперкомпьютера нового поколения Saturn V. С момента официального анонса новой технологии о ней стали известны новые детали, включая данные о внутренней архитектуре самого коммутатора NVSwitch. Как известно, вычислительные ускорители имеют три фундаментальных ограничения, влияющих на эффективность их работы в составе кластерной системы: производительность подсистемы ввода-вывода, пропускная способность памяти и объём этой самой памяти. ![]() Кристалл NVSwitch Последние два, впрочем, обходятся достаточно малой кровью: ускорители Volta могут нести на борту до 32 Гбайт памяти типа HBM2, которая, к тому же, может прокачивать до 900 Гбайт/с. Но по мере масштабирования системы проблема I/O встаёт всё острее, поскольку скорости, приведённые выше, сетям и сетевым средам пока недоступны, а значит, на задачах с большой степенью параллелизации главным фактором, ограничивающим производительность, может стать именно сеть. Это подтверждают и результаты тестирования суперкомпьютеров с помощью новой методики, о чём мы недавно рассказывали нашим читателям. ![]() Его функциональные блоки Решить эту проблему и призвана технология NVIDIA NVSwitch. Само сердце технологии, чип-коммутатор может работать в разных топологиях. Как уже было сказано, впервые он найдёт применение в системе DGX-2, поставки которой должны начаться в третьем квартале. NVIDIA пока не предполагает использование этого коммутатора для сетевого соединения нескольких «корпусов», то есть, в качестве, «внешнего интерконнекта», но это не значит, что разработчики суперкомпьютеров не решат попробовать новинку и в качестве такого решения. Выглядит снимок кристалла NVSwitch довольно впечатляюще, что неудивительно, поскольку состоит этот кристалл из 2 миллиардов транзисторов. Предположительно, в его производстве задействован 12-нм техпроцесс класса FinFET, разработанный TSMC, но компания-разработчик хранит по этому поводу молчание, по крайней мере, пока. Архитектурно в составе NVSwitch можно выделить два блока по 8 портов NVLink плюс два дополнительных порта этой шины. Система соединений (кроссбар) работает в неблокирующем режиме, так что любой из портов NVLink в правом или левом модуле может напрямую работать с одним из двух портов в верхнем модуле. Это существенно отличает реальный чип от опубликованных в момент анонса данных о технологии NVSwitch. ![]() Один из слайдов NVIDIA На предыдущих слайдах изображено 16 чипов в 8 парах, соединённых друг с другом на скорости 300 Гбайт/с (150 Гбайт/с в каждую сторону) с тотальной пропускной способностью, достигающей 2,4 Тбайт/с. Но NVSwitch имеет 18 портов, поэтому при подключении 16 процессоров Volta остаётся место для дальнейшего расширения конфигурации. Если блок-схема DGX-2, продемонстрированная на презентации, верна, то в ней имеется 12 коммутаторов NVSwitch, но тогда не все порты остаются задействованными. Это позволяет предположить, что 16-процессорая версия DGX-2 является пилотной, а дизайн NVSwitch создан с заделом на будущее и позволяет создавать, к примеру, 32-процессорные системы в одном корпусе-узле. Пока этому мешает текущая версия модуля backplane, которой оснащается DGX-2, но архитектурного запрета на создание системы с теми же 32 вычислительными GPU нет. Точных данных о топологии DGX-2 пока нет, на имеющемся слайде видны по шесть «толстых» шин на каждую «половину» кластера. С учётом свободных портов, скорость «общения половин» между собой может достигать 6 Гбайт/с (3 Гбайт/с в каждую сторону). ![]() Из этого слайда топология DGX-2 не ясна Были различные предположения о топологии, включая схему «двойное кольцо», но в худшем сценарии такая схема соединяет два ГП через шесть «скачков» (hops), а это не лучший вариант с точки зрения латентности. NVIDIA употребляет термин «fully connected crossbar internally» по отношению к NVSwitch, но не говорит этого про систему в целом и про соединение между двумя половинами DGX-2. Если предположить, что для соединения используется пара «верхних» портов коммутатора, то ГП могут быть соединены попарно, но тогда для полноценного соединения всей системы в единое целое потребуются иные механизмы, например, дополнительные соединения PCI Express, что выглядит не слишком осмысленным, если сравнить скорости PCIe и декларируемые NVIDIA цифры, относящиеся к NVLink. Как оказалось впоследствии и было подтверждено официально, 12 «лишних» портов NVLink в NVSwitch не задействованы в DGX-2. Топология внутренней сети в новой системе проще, и каждый из шести портов в Volta соединён с одним из NVSwitch «сверху». Аналогичным образом подключается восьмёрка ГП «снизу». Такая схема позволяет добиться латентности в два «хопа» между двумя любыми ГП на одной «половине» системы, а если требуется коммуникация между разными половинами, то количество «хопов» увеличивается до трёх. ![]() А так она выглядит на самом деле Разумеется, это не единственный сценарий: в данном варианте использовано всего 6 чипов NVLink для каждой половины, но ничто не мешает увеличить их число до, скажем, двенадцати. Новая система весьма эффективна: для демонстрации NVIDIA использовала пару серверов DGX-1 с 8 ГП Volta V100 в каждом. Они были соединены между собой четырьмя каналами InfiniBand с совокупной пропускной способностью 400 Гбит/с. Сравнительные тесты показали более чем двукратное (от 2,4 до 2,7x) превосходство системы DGX-2, использующей новые технологии с NVSwitch во главе. ![]() DGX-2 ставит новые рекорды Выглядит новая технология очень многообещающе, но интересно будет взглянуть, как она поведёт себя при увеличении количества вычислительных узлов, ведь модули DGX-2 придётся как-то соединять между собой, и не поглотит ли это все преимущества в случае постройки достаточно крупного кластера? Есть вариант NUMA, но практический предел, достигнутый на сегодня, составляет 128 процессоров; более того, после 32 процессоров в такой схеме критическую роль начинают играть очереди запросов и задержки. Как только DGX-2 начнёт поставляться массово, мы, скорее всего, узнаем ответ.
10.09.2016 [02:00], Алексей Степин
IBM анонсировала новые процессоры Power8 с поддержкой NVLinkНесмотря на серьезную заявку архитектуры х86 на полное доминирование в компьютерном мире, остаются сферы и области, где используются иные, более эффективные в ряде задач архитектуры. Одной из таких областей является сфера супервычислений, где довольно прочно укрепилась компания IBM со своими процессорами Power. Текущее поколение этих процессоров носит общее название Power8, впервые оно было представлено ещё в 2013 году в версиях с количеством ядер от 4 до 12. Поколение Power9 должно увидеть свет в следующем году, ну а пока на днях корпорация анонсировала выпуск новых, усовершенствованных процессоров поколения Power8, получивших название Power8+. ![]() IBM Power8 (без NVLink) Отличий у новинок немного. Самым главным является поддержка высокоскоростной шины обмена данными NVLink, разработанной и продвигаемой NVIDIA. Это позволяет создавать гетерогенные системы на базе Power8+ и ускорителей NVIDIA Pascal GP100 с невиданной ранее производительностью и отсутствием узких мест, ведь даже базовая версия NVLink обеспечивает пропускную способность 80 Гбайт/с. Каждый процессор Power8+ поддерживает прямое подключение до четырёх устройств NVLink, то есть, четырёхпроцессорная система с четырьмя 12-ядерными чипами может оснащаться шестнадцатью ускорителями GP100. Пока Power8+ имеет только один чип в семействе — десятиядерную модель с частотой до 3,26 ГГц. Интегрированный контроллер памяти DDR4 обладает пропускной способностью 115 Гбайт/с на процессор. Максимальный поддерживаемый объём составляет 512 Гбайт на чип. ![]() Новое семейство серверов на базе Power8 Помимо обновлённых процессоров, компания также продемонстрировала новые серверные системы, но только одна из новинок, Power S822LC, предназначенная для рынка HPC, базируется на Power8+ и поддерживает NVLink. По словам производителя, скорость передачи данных у нее в пять раз превышает аналогичный параметр у сопоставимой по характеристикам системы на базе х86, а использование единого пространства памяти существенно облегчает разработку программного обеспечения, использующего ресурсы графических процессоров. Эта система может нести на борту два 10-ядерных чипа Power8+ и до четырёх модулей NVIDIA GP100. Максимальная ёмкость оперативной памяти составляет 1 Тбайт в 32 модулях DIMM, общая пропускная способность подсистемы составляет 230 Гбайт/с. Имеются дополнительные слоты расширения PCIe, поддерживается как жидкостное, так и воздушное охлаждение. ![]() NVLink позволяет ЦП и ГП общаться гораздо более эффективно Аналогичная модель выпущена для рынка Big Data, но она не использует ускорители GP100, а вместо этого поддерживает обычные ускорители NVIDIA в формате PCI Express. Зато количество дисковых отсеков в этой модели увеличено с двух до двенадцати, что позволяет разместить до 96 Тбайт дискового пространства в одном корпусе. Базовая модель S821LC выполнена в корпусе 1U (старшие имеют конструктив 2U) и по конфигурации напоминает S822LC for Big Data, но у неё всего четыре дисковых отсека и четыре слота PCIe. Возможна установка одного ускорителя NVIDIA K80 в форм-факторе PCI Express. В моделях S822LC for Big Data и 821LC максимальный объём оперативной памяти уменьшен до 512 Гбайт в 16 слотах DIMM. Напомним, что контроллеры памяти у Power8 внешние, выполненные в виде чипов Centaur, служащих также в качестве кеша L4. ![]() IBM S822LC for High Performance Computing: два процессора и четыре ускорителя GP100 Согласно данным, опубликованным IBM, ранние тесты, проделанные одним из крупнейших интернет-провайдеров, компанией Tencent, показали, что кластер на базе S822LC for BigData под нагрузкой показал результаты в три раза превосходящие результаты кластера на базе х86, причём, общее количество серверов в первом случае было на 2/3 меньше. На новые системы IBM ожидается существенный спрос: многие организации уже провели собственные тесты и разместили соответствующие заказы. В числе первых заказчиков значится лаборатория департамента энергетики США Oak Ridge National Laboratory (ORNL), а также ряд крупных межнациональных корпораций. ORNL планирует использовать новинки в качестве тестовой платформы для подготовки к выпуску следующего поколения процессоров IBM — Power9, которые также будут поддерживать NVLink, но уже новой, второй версии.
25.08.2016 [00:13], Иван Грудцын
Интерфейс NVLink 2.0 соединит GPU Volta и процессоры IBM Power9В этом году NVIDIA порадовала любителей нерядовых новинок в сегменте дискретной графики картами на 16-нм чипах GP100 и GP102. Различия между старшим GPU для HPC-систем (GP100) и его производным — адаптером для широкого круга задач (GP102) оказались весьма существенными. В частности, проприетарный интерфейс NVLink, отличающий серверный графический процессор от собрата, способен обеспечивать пропускную способность в 40 Гбайт/с на один порт. Для сравнения, аналогичное значение для разъёма PCI Express 3.0 x16 составляет 16 ГТ/с (15,75 Гбайт/с), а для будущего PCI Express 4.0 x16 — 32 ГТ/с (31,5 Гбайт/с). При этом одним соединением NVLink дело не ограничивается. Так, у ускорителя Tesla P100 на чипе Pascal GP100 четыре порта NVLink, и, соответственно, пиковая пропускная способность достигает 160 Гбайт/с (4 × 40 Гбайт/с). ![]() ![]() NVLink открывает возможность взаимодействия GPU двух систем Среди тех, кто по достоинству оценил труд инженеров NVIDIA, оказалась корпорация IBM. Её 22-нм процессоры POWER8 прекрасно «дружат» с NVLink 1.0 и Tesla P100. В частности, был спроектирован 2P-сервер типоразмера 2U на основе процессоров POWER8 (POWER8+) и двух-четырёх адаптеров Tesla P100 с вышеупомянутым интерфейсом. На 2017 год запланировано создание ещё более мощной системы. В её состав войдут два CPU POWER9 и от четырёх до шести ускорителей NVIDIA Volta, содержащих порты NVLink 2.0. Форм-фактор останется прежним — 2U. ![]() По сообщению ресурса Fudzilla, вторая версия NVLink принесёт увеличение пропускной способности интерфейса с 20 до 25 Гбит/с на контакт, с 40 до 50 Гбайт/с на один порт и со 160 до 200 Гбайт/с на один GPU. Преимущество NVLink над PCI Express 4-го поколения будет весьма впечатляющим — 6,35 раза (четыре порта NVLink против 16-скоростного PCI-E 4.0). ![]() Внедрение NVLink 2.0 тесно связано с ожидающимся дебютом графических процессоров Volta в следующем году. Последние, по предварительным данным, будут выпускаться по нынешнему, но при этом «повзрослевшему» 16-нм техпроцессу, а в качестве буферной памяти будут использоваться микросхемы HBM2 (до внедрения HBM3 пока ещё далеко). ![]() HBM2 — это надолго Что касается процессоров IBM POWER9, то они будут выпускаться по 14-нм технологической норме начиная со следующего года. Количество ядер составит 12 или 24. В данных CPU предусмотрены кеш третьего и четвёртого уровней, контроллер памяти DDR4, линии PCI Express 4.0, а также скоростной интерфейс для синхронизации работы двух процессоров на одной плате. ![]() IBM POWER9
29.04.2016 [16:00], Антон Тестов
Zaius: первый сервер на базе IBM POWER9 разработки Google и RackspaceGoogle и Rackspace начали использовать серверы на базе процессоров IBM POWER8 в своих центрах обработки данных (ЦОД) несколько месяцев назад. На сегодняшний день существенная часть программного обеспечения обеих компаний уже оптимизирована под новые микросхемы, а потому эксперимент с использованием этих систем можно считать удачным. Что ещё более интересно, так это то, что партнеры уже работают над новой серверной платформой на базе процессора IBM POWER9 следующего поколения. На прошедшем недавно саммите OpenPOWER Foundation компании Google и Rackspace раскрыли первые подробности о разрабатываемой совместно горизонтально масштабируемой (scale-out) серверной платформе, известной под кодовым именем Zaius. Платформа будет базироваться на двух процессорах IBM POWER9 c неизвестным количеством ядер (однако, логично предполагать удвоение их количества относительно POWER8) и поддерживать 32 гнезда для памяти DDR4 (что даст возможность удвоить объём памяти относительно предшественника), два слота PCI Express 4.0 x16 для двух полноразмерных карт с поддержкой технологии когерентности памяти CAPI, один набор mezzanine-контактов NVLink для ускорителей NVIDIA Tesla, 15 накопителей данных в форм-факторе 2,5-дюйма с интерфейсом SAS, SATA или NVMe и т. д. ![]() Архитектура серверной платформы Zaius. Фото Nikkei IT Pro - itpro.nikkeibp.co.jp Примечательно, что Zaius поддерживает как FPGA-ускорители с CAPI 2.0, так и вычислительные процессоры NVIDIA Tesla (на базе архитектур Pascal и Volta) с технологией NVLink 2.0. Такая совместимость позволит Google и Rackspace более широко использовать специализированные ускорители, что должно увеличить энергоэффективность серверов на базе POWER9, а значит, уменьшить стоимость владения центров обработки данных. Свою лепту также внесёт и интерфейс PCIe 4.0, который удвоит пропускную способность (предположительно до 32 Гбайт/с для гнёзд PCIe 4.0 x16), доступную для твердотельных накопителей или же сопроцессоров. Сервер Zaius будет совместим с предлагаемыми стандартом для стоек Open Rack 48В и будет иметь высоту 1.25U. ![]() Архитектура серверной платформы Zaius. Фото Nikkei IT Pro - itpro.nikkeibp.co.jp Что касается самих процессоров IBM POWER9, то их версии для горизонтально масштабируемых серверов (тех, чья производительность увеличивается путём добавления новых машин в ЦОД) появятся на рынке в следующем году. Новые CPU будут базироваться на новой микроархитектуре и иметь до 24 ядер с технологией многопоточности и буферами памяти eDRAM. Системы на базе IBM POWER9 для scale-out машин более не будут использовать внешние буферы памяти, а будут опираться исключительно на встроенный контроллер DRAM. Процессоры POWER9 будут производится по технологическому процессу GlobalFoundres 14HP (14 нм, FinFET), но его характеристики неизвестны. Возможно, речь идёт о технологии 14 нм GlobalFoundries третьего поколения; возможно, о специализированных нормах производства IBM. ![]() Перспективный план IBM в области микропроцессоров. Фото IBM PowerSystems JP - twitter.com/ibmpowerJP На саммите OpenPOWER Foundation представители Google заявили, что многие из облачных сервисов компании, в том числе Gmail, уже могут функционировать используя серверы на базе процессоров IBM POWER8. Судя по всему, компания находит производительность этих процессоров конкурентоспособной, ровно поэтому она работает над новым поколением машин на основе POWER9. Долгосрочные планы компаний Google и Rackspace касательно серверных платформ IBM POWER нельзя недооценивать. Появление серверов Zaius в ЦОД указанных компаний означает, что они планируют продолжить оптимизацию программного обеспечения под процессоры на базе данной архитектуры. Таким образом, со временем у Google и Rackspace появится полноценная инфраструктура из ПО и аппаратного обеспечения, способная заменить программно-аппаратные комплексы на базе Intel Xeon. |
|