Материалы по тегу: deep learning

21.11.2016 [14:32], Иван Грудцын

SC16: новая конфигурация сервера Hitachi SR24000 на базе Tesla P100

В рамках мероприятия SC16 (Supercomputing Conference 2016), которое в этом году прошло в столице американского штата Юта Солт-Лейк-Сити, компания Hitachi продемонстрировала новую серверную систему семейства SR24000. Конфигурация Hitachi SR24000/DL1 призвана решать задачи глубинного обучения и имеет для этого внушительный набор компонентов.

Сервер собран в корпусе форм-фактора 2U со сторонами 822(Д) × 442(Ш) × 86(В) мм. Его масса может достигать по крайней мере 30 кг. Ключевыми узлами системы являются 10-ядерные процессоры IBM POWER8 и высокопроизводительные ускорители NVIDIA Tesla P100, взаимодействующие с другими комплектующими с помощью интерфейса NVLink. Процессоры работают в составе сервера попарно (номинальная частота каждого — 2,86 ГГц), а количество плат Tesla P100 может равняться двум или четырём. Соответственно, пиковая производительность Hitachi SR24000/DL1 при операциях с числами половинной точности (FP16) оценена в 42,4—84,8 Тфлопс.

Процессоры POWER8 охлаждаются медно-алюминиевыми кулерами башенного типа, пластины которых пронизаны четырьмя U-образными тепловыми трубками. На карты Tesla P100 устанавливаются медные охладители с четырьмя-пятью медными теплотрубками. Радиаторы, находящиеся ближе к вентиляторам в передней части корпуса, имеют «прорехи» для лучшей продуваемости соседних радиаторов.

Каждый ускоритель Tesla P100 обеспечивает 21,2 Тфлопс «чистой» производительности (FP16) и оборудован 16 Гбайт буферной памяти HBM2 с пропускной способностью 720 Гбайт/с. В соответствии с официальной спецификацией, одна карта P100 использует 16-нм графический чип NVIDIA GP100, оперирующий 3584 потоковыми процессорами с номинальной частотой 1328 МГц и boost-частотой 1480 МГц, а также 4096-разрядным интерфейсом VRAM (объём доступной памяти стандарта HBM2 указан выше).

 Tesla P100

Tesla P100

В числе других узлов сервера Hitachi SR24000/DL1, пожалуй, стоит выделить 256 или 512 Гбайт оперативной памяти DDR4, интерфейс проводной сети с пропускной способностью 1, 10 или 40 Гбит/с, накопители HDD (2 × 2 Тбайт) или SSD (2 × 1,92 Тбайт) и блок питания мощностью 2550 Вт. Последний рассчитан на работу в сетях 200–240 В и, как и сервер в целом, греется незначительно при температуре окружения до 27 °C (нижний порог — 18 °C). Рекомендованной операционной системой для Hitachi SR24000/DL1 служит Ubuntu Server.

Постоянный URL: http://www.servernews.ru/943028
21.11.2016 [14:00], Иван Грудцын

SC16: ускорители AMD FirePro осваиваются в серверах Cirrascale GX8

Прошедшая на прошлой неделе «суперкомпьютерная» конференция SC16 в Солт-Лейк-Сити (штат Юта, США) собрала в конференц-центре Salt Palace представителей компаний и прессы, объединённых интересом к высоким технологиям — в частности, мощным серверам и их компонентам. На стенде компании AMD демонстрировалась серверная система Cirrascale GX8 в форм-факторе 4U, предназначенная для работы с GPU-ускоренными библиотеками и решения задач глубинного обучения (англ. deep learning).

В характеристиках моделей Cirrascale GX8 Series на официальном сайте компании из калифорнийского городка Пауэй вовсе отсутствует упоминание о возможности построения конфигураций из ускорителей AMD FirePro. Базовыми GPU для GX8 считаются (считались до недавнего времени) решения NVIDIA Tesla M40 на ядре Maxwell GM200 для глубинного обучения и Tesla K80 (тандем чипов GK210) для высокой производительности при выполнении вычислений двойной точности на 16 (8 × 2) графических ядрах.

Как видно на фотографиях, AMD и Cirrascale договорились о возможности использования в существующих моделях серверов GPU «красного» лагеря, а именно восьми устройств FirePro S9150 на базе чипа Hawaii XT GL. Один адаптер занимает два слота расширения, потребляет до 235 Вт и характеризуется быстродействием в 2,53 Тфлопс (FP64). В состав 28-нм графического ядра Hawaii XT GL входят 2816 потоковых процессоров GCN 1.1, 176 текстурных блоков, 64 блока рендеринга и 512-разрядная шина памяти. Ускорители S9150 оборудованы 16 Гбайт видеопамяти GDDR5 с эффективной частотой 5 ГГц. Ядро ограничивается скромными по нынешним временам 900 МГц.

Отметим, что достойного преемника FirePro S9150 придётся ждать довольно долго, ведь ни Polaris 10 (Radeon Pro WX 7100), ни ожидающийся в первом квартале следующего года продукт Vega 10 не подходят для HPC-систем.

Помимо восьми двухслотовых ускорителей NVIDIA или AMD, в Cirrascale GX8 могут использоваться процессоры Intel Xeon E5-2600 v4 (Broadwell-EP) и Xeon E5-2600 v3 (Haswell-EP), и оперативная память DDR4-1600/.../2400 форм-факторов RDIMM и LR-DIMM (максимум 1 Тбайт RAM). Кроме того, поддерживается подключение к системе восьми 2,5-дюймовых SATA SSD-накопителей.

В число основных узлов сервера в том числе входят материнская плата ASUS Z10PE-D16 WS, максимум четыре блока питания номиналом 1600–2000 Вт и просторный корпус со сторонами 762, 482,6 и 175 мм. Прочие подробности о сервере Cirrascale GX8 можно узнать на сайте американской компании.

Постоянный URL: http://www.servernews.ru/943023
13.09.2016 [15:03], Иван Грудцын

NVIDIA представила ускорители Tesla P40 и Tesla P4

В ассортименте специализированных ускорителей компании NVIDIA появились модели Tesla P40 и Tesla P4, предназначенные для решения задач из области так называемого глубокого обучения (англ. deep learning). С помощью данных устройств самообучающиеся системы могут не только очень быстро делать логические выводы, но и анализировать десятки потоков видео одновременно. Новые адаптеры пришли на смену ускорителям поколения Maxwell — Tesla M40 и Tesla M4.

Tesla P40 использует полную версию графического процессора GP102, который, в свою очередь, является упрощённым вариантом HPC-чипа GP100. Карта оперирует 3840 потоковыми процессорами Pascal, 240 текстурными блоками (TMU), 96 блоками рендеринга (ROP), 384-разрядной шиной памяти и 24 Гбайт локальной памяти стандарта GDDR5. Применение относительно медленных микросхем буферной RAM, работающих на частоте 1800 (7200) МГц, сочетается у Tesla P40 с невысоким номиналом GPU — от 1303 МГц (базовая частота) до 1531 МГц (boost-режим). Пропускная способность подсистемы памяти равна 346 Гбайт/с.

 NVIDIA Tesla P40

Энергопотребление модели P40 при полной загрузке GPU составляет в среднем 250 Вт, как и у NVIDIA TITAN X. Система охлаждения выполнена в виде крупного двухслотового радиатора, который должен продуваться вентиляторами серверных стоек. Габариты Tesla P40 равны 267(Д) × 112(Ш) × ~40(В) мм. В соответствии со спецификацией, ускоритель характеризуется производительностью в 12 TFLOPS при операциях с числами одинарной точности и 47 TOPS при целочисленных (INT8) операциях. Кроме того, поддерживается одновременный анализ 35 потоков видео формата H.264.

Возможности Tesla P4 скромнее ввиду использования ядра Pascal GP104. Чип содержит 2560 потоковых процессоров, 160 текстурных блоков, 64 блока растровых операций, шину памяти разрядностью 256 бит и 8 Гбайт GDDR5. Частота GPU довольно мала как для собрата GeForce GTX 1080 — от 810 до 1063 МГц. Микросхемы RAM работают на номинальных 1500 (6000) МГц, обеспечивая общую пропускную способность в 192 Гбайт/с. В зависимости от задач, Tesla P4 может иметь лимит мощности в 50 или 75 Вт. Дополнительное питание карте не требуется.

 NVIDIA Tesla P4

Модель P4 выполнена в виде низкопрофильного адаптера с пассивной СО. Устройство демонстрирует производительность в 5,5 TFLOPS (числа одинарной точности) и 22 TOPS (целые числа). Как и P40, её «младшая сестра» может анализировать 35 видеопотоков в режиме реального времени.

Ускоритель Tesla P40 будет задействоваться в составе серверов от авторизованных партнёров NVIDIA начиная с октября, а Tesla P4 дебютирует в ноябре.

Постоянный URL: http://www.servernews.ru/939332
Система Orphus