Материалы по тегу: dgx-2

24.04.2020 [14:15], Алексей Разин

Liqid LQD8360: вдвое дешевле и на 20% быстрее NVIDIA DGX-2

Компания NVIDIA делает серьёзную ставку на вычислительные системы DGX-2, которые имеют 16 ускорителей Tesla V100, но Liqid отныне предлагает модульную систему LQD8360, которая использует более доступные комплектующие, вдвое дешевле DGX-2 и при этом ещё и производительнее. 

Следует пояснить, что компоновка систем Liqid позволяет формировать инфраструктуру под различные задачи достаточно гибко, подключая необходимые модули. Система использует собственную PCIe-фабрику, серверы Dell PowerEdge R640 и GPU-модули.

Источник изображения: Liqid

Источник изображения: Liqid

За ускорение работы с нейросетями в составе решения Liqid отвечает так называемый GPU Super Pod — отдельный корпус, способный приютить до 20 графических адаптеров NVIDIA Quadro RTX 8000, каждый из которых будет работать через интерфейс PCI Express x16. Совокупная ёмкость твердотельных накопителей с поддержкой протокола NVMe может достигать 60 Тбайт, предусмотрено до четырёх сетевых портов со скоростью передачи информации 100 Гбит/с.

Связка из двадцати графических процессоров может работать в сочетании с одним, двумя или четырьмя центральными процессорами, в данном случае они будут располагаться внутри готового сервера стороннего производителя. Dell уже адаптировала BIOS своих серверов PowerEdge R640 для корректной работы с 20 графическими адаптерами.

Источник изображения: EnterpriseAI

Источник изображения: EnterpriseAI

Секрет эффективного взаимодействия «внешних» графических адаптеров с головной серверной системой заключается не только в использовании фирменного программного обеспечения Liqid Command Center, но и в применении специального интерфейса, который использует шину PCI Express 3.0 для связи с блоком внешних графических адаптеров. В тесте Resnet50 конфигурация с 16 графическими адаптерами Quadro RTX 8000 оказывается быстрее NVIDIA DGX-2 в распознавании образов, но при этом сохраняет примерно в два раза более низкую стоимость.

Liqid не ставит задачу конкурировать с NVIDIA в этой сфере. В действительности, последняя из компаний помогала специалистам Liqid в настройке системы. Распознавание образов — лишь частный случай применения Liqid LQD8360, связку из 20 адаптеров Quadro RTX 8000 целесообразнее использовать, например, для рендеринга. NVIDIA DGX-2 чаще применяется для обучения нейронных сетей и других сугубо вычислительных задач, поэтому соперничать с Liqid компании-партнёру не придётся.

Постоянный URL: http://servernews.ru/1009338
10.04.2018 [01:20], Алексей Степин

Тайны коммутатора NVIDIA NVSwitch

На прошедшей недавно конференции GTC (GPU Technology Conference) корпорация NVIDIA представила новый внутренний интерконнект NVSwitch, целью которой является эффективное объединение в сеть множества вычислительных процессоров Volta. Именно NVSwitch является сердцем демонстрационной системы DGX-2, аналоги которой планируется использовать в дальнейшем для постройки суперкомпьютера нового поколения Saturn V. С момента официального анонса новой технологии о ней стали известны новые детали, включая данные о внутренней архитектуре самого коммутатора NVSwitch. Как известно, вычислительные ускорители имеют три фундаментальных ограничения, влияющих на эффективность их работы в составе кластерной системы: производительность подсистемы ввода-вывода, пропускная способность памяти и объём этой самой памяти.

Кристалл NVSwitch

Кристалл NVSwitch

Последние два, впрочем, обходятся достаточно малой кровью: ускорители Volta могут нести на борту до 32 Гбайт памяти типа HBM2, которая, к тому же, может прокачивать до 900 Гбайт/с. Но по мере масштабирования системы проблема I/O встаёт всё острее, поскольку скорости, приведённые выше, сетям и сетевым средам пока недоступны, а значит, на задачах с большой степенью параллелизации главным фактором, ограничивающим производительность, может стать именно сеть. Это подтверждают и результаты тестирования суперкомпьютеров с помощью новой методики, о чём мы недавно рассказывали нашим читателям.

Его функциональные блоки

Его функциональные блоки

Решить эту проблему и призвана технология NVIDIA NVSwitch. Само сердце технологии, чип-коммутатор может работать в разных топологиях. Как уже было сказано, впервые он найдёт применение в системе DGX-2, поставки которой должны начаться в третьем квартале. NVIDIA пока не предполагает использование этого коммутатора для сетевого соединения нескольких «корпусов», то есть, в качестве, «внешнего интерконнекта», но это не значит, что разработчики суперкомпьютеров не решат попробовать новинку и в качестве такого решения.

Выглядит снимок кристалла NVSwitch довольно впечатляюще, что неудивительно, поскольку состоит этот кристалл из 2 миллиардов транзисторов. Предположительно, в его производстве задействован 12-нм техпроцесс класса FinFET, разработанный TSMC, но компания-разработчик хранит по этому поводу молчание, по крайней мере, пока. Архитектурно в составе NVSwitch можно выделить два блока по 8 портов NVLink плюс два дополнительных порта этой шины. Система соединений (кроссбар) работает в неблокирующем режиме, так что любой из портов NVLink в правом или левом модуле может напрямую работать с одним из двух портов в верхнем модуле. Это существенно отличает реальный чип от опубликованных в момент анонса данных о технологии NVSwitch.

Один из слайдов NVIDIA

Один из слайдов NVIDIA

На предыдущих слайдах изображено 16 чипов в 8 парах, соединённых друг с другом на скорости 300 Гбайт/с (150 Гбайт/с в каждую сторону) с тотальной пропускной способностью, достигающей 2,4 Тбайт/с. Но NVSwitch имеет 18 портов, поэтому при подключении 16 процессоров Volta остаётся место для дальнейшего расширения конфигурации. Если блок-схема DGX-2, продемонстрированная на презентации, верна, то в ней имеется 12 коммутаторов NVSwitch, но тогда не все порты остаются задействованными.

Это позволяет предположить, что 16-процессорая версия DGX-2 является пилотной, а дизайн NVSwitch создан с заделом на будущее и позволяет создавать, к примеру, 32-процессорные системы в одном корпусе-узле. Пока этому мешает текущая версия модуля backplane, которой оснащается DGX-2, но архитектурного запрета на создание системы с теми же 32 вычислительными GPU нет. Точных данных о топологии DGX-2 пока нет, на имеющемся слайде видны по шесть «толстых» шин на каждую «половину» кластера. С учётом свободных портов, скорость «общения половин» между собой может достигать 6 Гбайт/с (3 Гбайт/с в каждую сторону). 

Из этого слайда топология DGX-2 не ясна

Из этого слайда топология DGX-2 не ясна

Были различные предположения о топологии, включая схему «двойное кольцо», но в худшем сценарии такая схема соединяет два ГП через шесть «скачков» (hops), а это не лучший вариант с точки зрения латентности. NVIDIA употребляет термин «fully connected crossbar internally» по отношению к NVSwitch, но не говорит этого про систему в целом и про соединение между двумя половинами DGX-2. Если предположить, что для соединения используется пара «верхних» портов коммутатора, то ГП могут быть соединены попарно, но тогда для полноценного соединения всей системы в единое целое потребуются иные механизмы, например, дополнительные соединения PCI Express, что выглядит не слишком осмысленным, если сравнить скорости PCIe и декларируемые NVIDIA цифры, относящиеся к NVLink.

Как оказалось впоследствии и было подтверждено официально, 12 «лишних» портов NVLink в NVSwitch не задействованы в DGX-2. Топология внутренней сети в новой системе проще, и каждый из шести портов в Volta соединён с одним из NVSwitch «сверху». Аналогичным образом подключается восьмёрка ГП «снизу». Такая схема позволяет добиться латентности в два «хопа» между двумя любыми ГП на одной «половине» системы, а если требуется коммуникация между разными половинами, то количество «хопов» увеличивается до трёх.

А так она выглядит на самом деле

А так она выглядит на самом деле

Разумеется, это не единственный сценарий: в данном варианте использовано всего 6 чипов NVLink для каждой половины, но ничто не мешает увеличить их число до, скажем, двенадцати. Новая система весьма эффективна: для демонстрации NVIDIA использовала пару серверов DGX-1 с 8 ГП Volta V100 в каждом. Они были соединены между собой четырьмя каналами InfiniBand с совокупной пропускной способностью 400 Гбит/с. Сравнительные тесты показали более чем двукратное (от 2,4 до 2,7x) превосходство системы DGX-2, использующей новые технологии с NVSwitch во главе.

DGX-2 ставит новые рекорды

DGX-2 ставит новые рекорды

Выглядит новая технология очень многообещающе, но интересно будет взглянуть, как она поведёт себя при увеличении количества вычислительных узлов, ведь модули DGX-2 придётся как-то соединять между собой, и не поглотит ли это все преимущества в случае постройки достаточно крупного кластера? Есть вариант NUMA, но практический предел, достигнутый на сегодня, составляет 128 процессоров; более того, после 32 процессоров в такой схеме критическую роль начинают играть очереди запросов и задержки. Как только DGX-2 начнёт поставляться массово, мы, скорее всего, узнаем ответ.

Постоянный URL: http://servernews.ru/968189
Система Orphus