Материалы по тегу: nvlink 2.0

06.12.2017 [23:45], Сергей Юртайкин

IBM представила первый сервер на процессоре POWER9

IBM представила свой первый собственный сервер на процессоре POWER9. Особенность решения под названием IBM Power Systems AC922 заключается в том, что новая аппаратная платформа разработана специально для работы с интенсивными вычислительными нагрузками технологий искусственного интеллекта (ИИ).

 CPU IBM POWER9

CPU IBM POWER9

В IBM отмечают, что Power 9 позволяет ускорить тренировки фреймворков глубинного обучения обучения почти в четыре раза, благодаря чему клиенты смогут быстрее создавать более точные ИИ-приложения. Утверждается, что новый сервер разработан для получения значительных улучшений производительности всех популярных фреймворков ИИ, таких как Chainer, TensorFlow и Caffe, а также современных баз данных, использующих ускорители, например, Kinetica.

 Сервер IBM Power System AC922

Сервер IBM Power System AC922

Сервер IBM Power Systems AC922 использует шину PCI-Express 4.0 и технологии NVIDIA NVLink 2.0 и CAPI 2.0/OpenCAPI, способные ускорить пропускную способность в 9,5 раза по сравнению с системами x86 на базе PCI-E 3.0. Это, в частности, позволяет задействовать ускорителям (GPU или FPGA) системную ОЗУ без значительных, по сравнению с прошлыми решениями, потерь производительности, что важно для обработки больших массивов данных. Кроме того, новые поколения карт расширения и ускорителей уже поддерживают эту шину.

IBM Power Systems AC922 создан в нескольких конфигурациях, оснащаемых двумя процессорами POWER9. Стандартные версии включают CPU c 16 (2,6 ГГц, турбо 3,09 ГГц) и 20 (2,0/2,87 ГГц) ядрами (4 потока на ядро), а позже появятся версии с 18- и 22 -ядерными процессорами. Всего в сервере есть 16 слотов для модулей ECC DDR4-памяти, что на текущий момент позволяет оснастить его 1 Тбайт RAM. Для хранения данных предусмотрено два слота для 2,5" SSD/HDD (RAID-контроллера нет).

AC922 может иметь на борту от двух до четырёх ускорителей NVIDIA Tesla V100 форм-фактора SXM2 с памятью 16 Гбайт и шиной NVLink 2.0. В сумме они дают до 500 Тфлопс на расчётах половинной точности. Дополнительные ускорители можно подключить к слотам PCI-E 4.0.

Сервер рассчитан на установку четырёх дополнительных низкопрофильных карт расширения: два слота PCI-E 4.0 x16, один PCI-E 4.0 x8 и один PCI-E 4.0 x4. Все слоты, кроме последнего, также умеют работать с CAPI. Также есть два порта USB 3.0. Поддерживается ОС Red Hat Enterprise Linux 7.4 for Power LE.

Процессоры IBM Power 9, которые нашли применение в IBM Power Systems AC922, легли в основу суперкомпьютеров Summit и Sierra Министерства энергетики США, а также используются компанией Google. Чипы и использующие их системы стали частью совместной работы участников организации OpenPower Foundation, в которую входят IBM, Google, Mellanox, NVIDIA и др.

 Процессор IBM Power 9

Процессор IBM Power 9

«Мы создали уникальную в своём роде систему для работы с технологиями ИИ и когнитивными вычислениями, — говорит старший вице-президент подразделения IBM Cognitive Systems Боб Пиччиано (Bob Picciano). — Серверы на Power 9 являются не только основой самых высокопроизводительных компьютеров, они позволят заказчикам масштабировать невиданные ранее инсайты, что будет способствовать научным прорывам и революционным улучшениям бизнес-показателей».

Сервер имеет стандартное 2U-шасси и оснащается двумя (1+1) блоками питания мощностью 2,2 кВт каждый. Система охлаждения может быть гибридной. Начало продаж IBM Power Systems AC922 намечено на 22 декабря 2017 года. В 2018 году будут доступны конфигурации с шестью ускорителями Tesla и СЖО.

Постоянный URL: http://www.servernews.ru/962463
11.05.2017 [10:00], Иван Грудцын

Эра NVIDIA Volta началась с ускорителя Tesla V100

На конференции GTC 2017 в американском городе Сан-Хосе компания NVIDIA в лице её генерального директора Дженсена Хуанга (Jen-Hsun Huang) представила ускоритель Tesla V100 для дата-центров на основе графического процессора Volta GV100. Разработка последнего обошлась NVIDIA в $3 млрд, и в результате свет увидел чип площадью 815 мм², содержащий 21,1 млрд транзисторов, более 5000 потоковых процессоров и новые блоки Tensor, повышающие производительность GPU в так называемых матричных вычислениях. Изготовление ядер GV100 было поручено давнему партнёру NVIDIA — тайваньскому полупроводниковому гиганту TSMC. Техпроцесс выпуска — 12-нм FFN. Последняя буква в аббревиатуре FFN обозначает не что иное, как «NVIDIA»: технологическая норма разрабатывалась с учётом требований заказчика.

 Tesla V100

Tesla V100

Из года в год сложность архитектуры кремниевых кристаллов для HPC-задач продолжает расти, и теперь, с дебютом NVIDIA Volta, остаётся констатировать, что помимо потоковых процессоров, кеш-памяти первого и второго уровней, текстурных блоков, контроллеров VRAM и системного интерфейса, частью high-end GPU становятся блоки Tensor. У GV100 их по 8 на мультипроцессорный кластер (SM) и 672 в целом.

 SM-блок Volta GV100

SM-блок Volta GV100

Матричные вычисления в блоках Tensor увеличивают производительность нового ядра в задачах машинного обучения до 120 Тфлопс. В то же время быстродействие GV100 в FP32-вычислениях составляет 15 Тфлопс, а в FP64-вычислениях — 7,5 Тфлопс.

 Ядро Volta GV100

Volta GV100

Ядро Volta GV100 неотделимо от буферной памяти — четырёх микросхем HBM2, взаимодействующих с GPU по 4096-битной шине. Объём каждого чипа составляет 4 Гбайт, пропускная способность подсистемы памяти — 900 Гбайт/с. Кристалл GV100 дебютирует одновременно с ускорителем Tesla V100, являясь его основой. В V100 ядро работает на частоте до 1455 МГц (с учётом динамического разгона) обеспечивая вышеуказанную производительность в FP32-, FP64- и матричных (Tensor) вычислениях. Адаптер с GPU впечатляющих размеров потребляет умеренные 300 Вт — столько же, сколько и Tesla P100.

 Спецификации ускорителей NVIDIA Tesla разных лет

Спецификации ускорителей NVIDIA Tesla разных лет

 Вычислительные возможности Volta GV100

Вычислительные возможности Volta GV100

По эскизу в начале данной заметки можно было догадаться, что соединение Tesla V100 с такими же ускорителями и центральным процессором обеспечивает интерфейс типа NVLink. В этот раз это не интерфейс первого поколения, а NVLink 2.0 — соответствующие контакты находятся на тыльной поверхности карты. В Tesla V100 реализовано шесть двунаправленных 25-Гбайт соединений (суммарно 300 Гбайт/с), а также функция согласования содержимого кеш-памяти с кешем центрального процессора IBM POWER9.

Распространение новых HPC-ускорителей будет осуществляться по межкорпоративным (B2B) каналам. При этом заказчики получат свободный выбор между готовыми решениями вкупе с сопутствующим программным обеспечением и технической поддержкой. Все три системы — DGX-1, HGX-1 и DGX Station — предназначены для решения задач, связанных с развитием искусственного интеллекта (AI).

С системой глубинного обучения NVIDIA DGX-1 первого поколения мы уже знакомили читателей — она использует восемь ускорителей Tesla P100 с производительностью 170 Тфлопс в вычислениях половинной точности (FP16). Обновлённый сервер DGX-1 содержит восемь карт Tesla V100 с быстродействием 960 Тфлопс (FP16), два центральных процессора Intel Xeon и блок(-и) питания суммарной мощностью не менее 3200 Вт. Такой апгрейд позволяет выполнять не только типичные задачи в области исследования AI, но и переходить к новым, целесообразность решения которых прежде была под вопросом ввиду высокой сложности вычислений.

Предварительный заказ системы NVIDIA DGX-1 второго поколения обойдётся всем желающим в $149 000. Ориентировочный срок начала поставок — третий квартал текущего года.

Сервер HGX-1 на восьми ускорителях Tesla V100 аналогичен DGX-1. Ключевое отличие данной системы заключается в применении жидкостного охлаждения компонентов. Кроме того, NVIDIA HGX-1 проще внедрить с ИТ-инфраструктуру компаний. Помимо глубинного обучения, этот сервер может использоваться в экосистеме GRID, а также для решения широкого круга HPC-задач.

 NVIDIA HGX

NVIDIA DGX Station представляет собой высокопроизводительную рабочую станцию с четырьмя картами Tesla V100, центральным процессором Intel Xeon, системой жидкостного охлаждения и 1500-ваттным источником питания. Ускорители NVIDIA в составе DGX Station оснащены интерфейсом NVLink 200 Гбайт/с и тремя разъёмами DisplayPort с поддержкой разрешения 4K.

В матричных Tensor-вычислениях DGX Station обеспечивает быстродействие на уровне 480 Тфлопс. Стоимость рабочей станции для рынка США равна $69 000.

Постоянный URL: http://www.servernews.ru/952008
18.10.2016 [12:48], Алексей Степин

Альянс Google и Rackspace представил сервер на базе IBM POWER9

Не столь давно мы рассказывали читателям о новых версиях процессоров IBM POWER8 с поддержкой шины NVLink. Эти чипы предназначались для использования совместно с новейшими ускорителями NVIDIA Tesla для использования в сфере HPC и машинного обучения. Но POWER8 не является последним поколением процессоров, разрабатываемых «голубым гигантом». Альянс Google и Rackspace объявил о выпуске новой серверной платформы Zaius на базе чипов POWER9. О планах по созданию таких серверов в рамках инициативы Open Compute Project было объявлено ещё весной этого года, а теперь мы имеем дело с реальным глубоко проработанным проектом. Над созданием системы Zaius P9 Server активно работали Google, Rackspace, IBM и Ingrasys, учтены были все возможные пожелания сообщества OCP. В итоге система вышла уникальной. Она поддерживает OpenCAPI 2.0, NVLink 2.0 и четвёртое поколение шины PCI Express; в отличие от предыдущих наработок в рамках OCP в ней используются новейшие процессоры POWER9.

Напомним, что POWER8 имеют внешний кеш L4, объединённый с контроллерами памяти, но в POWER9 эти компоненты переехали в состав процессора. Каждый из двух чипов POWER9 имеет 8 каналов DDR4 с пропускной способностью до 2400 МТ/с и два канала NVLink/OpenCAPI. Это позволяет установить до четырёх ускорителей Tesla и при этом не упереться в нехватку пропускной способности подсистемы памяти. Всего на системной плате сервера имеется 32 слота DDR4 DIMM. Поддержка PCI Express 4.0 будет использована для высокоскоростных навесных сетевых адаптеров формата OCP 2.0. Zaius P9 относится к классу NUMA-систем, процессоры в нём используют собственные контроллеры памяти и общаются между собой посредством двухканальной шины X Bus. На приведённой блок-схеме её пропускная способность не указана, но она наверняка достаточно высока: у IBM, как разработчика серии POWER, огромный опыт в создании мощных серверных систем и мейнфреймов. Из документации IBM понятно, что речь идёт о скоростях порядка 38,4 Гбайт/с × 2.

 Примерная компоновка системной платы Zaius P9

Примерная компоновка системной платы Zaius P9

Новые процессоры используют набор инструкций Power ISA 3.0, выпускаются с использованием 14-нм техпроцесса GlobalFoundries и могут иметь о 12 до 24 ядер. Прочие характеристики тоже впечатляют: так, объём кеша L3 на чип может достигать 120 Мбайт, а тактовые частоты — отметки 4 ГГц. По всей видимости, в Zaius P9 установлены чипы версии SO, специально предназначенные для двухсокетных систем. Любопытно, что новые серверы предназначены для работы с основным напряжением питания 48 вольт, поддерживается стандарт 48V-POL. В качестве BIOS или, точнее, BMC (на схеме это ПО предназначено для управляющего процессора AST 25X0), используется полностью открытая разработка Open BMC. Google планирует выдвинуть дизайн Zaius P9 на рассмотрение сообщества OCP Foundation и надеется, что он будет принят, а внедрение нового высоковольтного стандарта питания серверов продолжится. Компания надеется, что новые гетерогенные вычислительные системы открытого стандарта ждёт большое будущее в её собственных облачных проектах.

Постоянный URL: http://www.servernews.ru/941143
25.08.2016 [00:13], Иван Грудцын

Интерфейс NVLink 2.0 соединит GPU Volta и процессоры IBM Power9

В этом году NVIDIA порадовала любителей нерядовых новинок в сегменте дискретной графики картами на 16-нм чипах GP100 и GP102. Различия между старшим GPU для HPC-систем (GP100) и его производным — адаптером для широкого круга задач (GP102) оказались весьма существенными. В частности, проприетарный интерфейс NVLink, отличающий серверный графический процессор от собрата, способен обеспечивать пропускную способность в 40 Гбайт/с на один порт. Для сравнения, аналогичное значение для разъёма PCI Express 3.0 x16 составляет 16 ГТ/с (15,75 Гбайт/с), а для будущего PCI Express 4.0 x16 — 32 ГТ/с (31,5 Гбайт/с). При этом одним соединением NVLink дело не ограничивается. Так, у ускорителя Tesla P100 на чипе Pascal GP100 четыре порта NVLink, и, соответственно, пиковая пропускная способность достигает 160 Гбайт/с (4 × 40 Гбайт/с).

 NVLink открывает возможность взаимодействия GPU двух систем

NVLink открывает возможность взаимодействия GPU двух систем

Среди тех, кто по достоинству оценил труд инженеров NVIDIA, оказалась корпорация IBM. Её 22-нм процессоры POWER8 прекрасно «дружат» с NVLink 1.0 и Tesla P100. В частности, был спроектирован 2P-сервер типоразмера 2U на основе процессоров POWER8 (POWER8+) и двух-четырёх адаптеров Tesla P100 с вышеупомянутым интерфейсом. На 2017 год запланировано создание ещё более мощной системы. В её состав войдут два CPU POWER9 и от четырёх до шести ускорителей NVIDIA Volta, содержащих порты NVLink 2.0. Форм-фактор останется прежним — 2U.

 NVLink 2.0

По сообщению ресурса Fudzilla, вторая версия NVLink принесёт увеличение пропускной способности интерфейса с 20 до 25 Гбит/с на контакт, с 40 до 50 Гбайт/с на один порт и со 160 до 200 Гбайт/с на один GPU. Преимущество NVLink над PCI Express 4-го поколения будет весьма впечатляющим — 6,35 раза (четыре порта NVLink против 16-скоростного PCI-E 4.0).

 NVLink 2.0

Внедрение NVLink 2.0 тесно связано с ожидающимся дебютом графических процессоров Volta в следующем году. Последние, по предварительным данным, будут выпускаться по нынешнему, но при этом «повзрослевшему» 16-нм техпроцессу, а в качестве буферной памяти будут использоваться микросхемы HBM2 (до внедрения HBM3 пока ещё далеко).

 HBM2 — это надолго

HBM2 — это надолго

Что касается процессоров IBM POWER9, то они будут выпускаться по 14-нм технологической норме начиная со следующего года. Количество ядер составит 12 или 24. В данных CPU предусмотрены кеш третьего и четвёртого уровней, контроллер памяти DDR4, линии PCI Express 4.0, а также скоростной интерфейс для синхронизации работы двух процессоров на одной плате.

 IBM POWER9

IBM POWER9

Постоянный URL: http://www.servernews.ru/938344
Система Orphus