Материалы по тегу: gpu

23.02.2021 [22:23], Андрей Галадей

Вышло обновление ZLUDA v2, открытой реализации CUDA для GPU Intel

Ранее мы уже писали об экспериментальнои проекте ZLUDA, развивающем открытую реализацию CUDA для GPU Intel, которая позволила бы нативно исполнять CUDA-приложения на ускорителях Intel без каких-либо модификаций. При этом её разработка ведётся независимо и от Intel, и от NVIDIA.

Новинка построена на базе интерфейса Intel oneAPI Level Zero, и может работать на картах Intel UHD/Xe с неплохим уровнем производительности. Однако у первой версии был ряд ограничений. Вчера же вышла вторая версия, которая получила ряд улучшений. Кроме того, автор проекта объявил о переходе на модель непрерывного выпуска релизов.

Основной упор в новой версии сделан на улучшение поддержки Geekbench и работы в Windows-окружении. Собственно говоря, автор прямо говорит, что оптимизация под Geekbench пока является основной целью, а другие CUDA-приложения могут не работать. Кроме того, такое ПО, запущенное с помощью ZLUDA будет работать медленнее, чем на картах NVIDIA, в силу разности архитектур GPU и необходимости эмуляции некоторых возможностей. Подробности приведены на странице проекта.

Постоянный URL: http://servernews.ru/1033317
27.01.2021 [11:43], Владимир Мироненко

NVIDIA запустила программу сертифицирования серверов для приложений искусственного интеллекта

26 января компания NVIDIA запустила программу сертифицирования систем, участвующие в которой поставщики смогут предлагать сертифицированные NVIDIA серверы с графическими процессорами A100. Также доступны отдельные контракты на поддержку сертифицированных систем напрямую от NVIDIA.

NVIDIA заявила, что предварительно протестированные системы и контрактная поддержка должны повысить уверенность и упростить развёртывание для тех, кто решил заняться ИИ. Системы, сертифицированные NVIDIA, смогут запускать контейнеры NVIDIA NGC с рабочими инструментами ИИ.

«Сегодня у нас есть 13 или 14 систем как минимум пяти OEM-производителей, сертифицированных NVIDIA. Мы рассчитываем сертифицировать до 70 систем от почти десятка OEM-производителей, которые уже участвуют в этой программе», — сообщил в блоге Адель Эль-Халлак (Adel El-Hallak), директор по управлению продуктами NGC. Он упомянул в блоге первые сертифицированные системы:

  • Стоечные серверы Dell EMC PowerEdge R7525 и R740
  • Системы GIGABYTE R281-G30, R282-Z96, G242-Z11, G482-Z54, G492-Z51
  • Система HPE Apollo 6500 Gen10 и сервер HPE ProLiant DL380 Gen10
  • Inspur NF5488A5
  • Supermicro A+ серверы AS -4124GS-TNR и AS -2124GQ-NART

Ожидается, что крупные, технически продвинутые заказчики, такие как гиперскейлеры и крупные предприятия, не станут покупателями систем, сертифицированных NVIDIA, но ими могут заинтересоваться менее крупные компании и новички в области ИИ.

«Существует определённый призыв к конечным пользователям быть уверенными в том, что аппаратное и программное обеспечение оптимизированы и что этот пакет официально „сертифицирован“. Это избавляет их от необходимости самостоятельно оптимизировать систему или исследовать различные предложения на рынке для достижения оптимальной производительности на основе трудноинтерпретируемых критериев», — Питер Руттен (Peter Rutten), директор по исследованиям группы инфраструктурных систем, платформ и технологий IDC.

NVIDIA не представила подробный список тестов для проведения сертификации, но Эль-Халлак дал следующее описание:

«Все начинается с разных нагрузок. Мы тестируем обучение и инференс ИИ, алгоритмы машинного обучения, инференс ИИ на периферии, например, потоковую передачу видео, потоковую передачу голоса и рабочие нагрузки HPC. По сути, мы устанавливаем базовый уровень, порог, если хотите, внутри компании. Мы предоставляем нашим OEM-партнерам советы по обучению, которые затем запускают рабочие нагрузки. Поэтому мы делаем такие вещи, как тестирование с разными размерами пакетов, с разными условиями и тестирование на одном или нескольких графических процессорах».

«Мы [также] тестируем множество различных вариантов использования. Мы рассмотрим варианты использования компьютерного зрения. Смотрим на модели машинного перевода. Мы тестируем линейную скорость, когда два узла соединены вместе, чтобы обеспечить оптимальную сеть и полосу пропускания. С точки зрения масштабируемости, мы тестируем экземпляр MIG, то есть часть графического процессора, один графический процессор, несколько графических процессоров [и] несколько узлов. Мы также тестируем GPUDirect RDMA, чтобы убедиться, что существует прямой путь для обмена данными между графическим процессором и устройствами сторонних производителей. Наконец, для обеспечения безопасности мы проверяем шифрование данных с помощью встроенных средств безопасности, таких как TLS и IPsec. Мы также изучаем TPM, чтобы обеспечить аппаратную безопасность устройства», — добавил Эль-Халлак.

Доказанная способность запускать NGC является ключевым элементом. NGC — это хаб NVIDIA для программного обеспечения с ускорением на GPU, контейнерных приложений, структур искусственного интеллекта, SDK для конкретных предметных областей, предварительно обученных моделей и других ресурсов.

NVIDIA заявила, что OEM-производители или другие партнёры не платят за участие в программе сертификации NVIDIA. Стоимость поддержки программного обеспечения сертифицированных NVIDIA систем для клиентов зависит от системы и от её конфигурации. Например, NVIDIA сообщила, что стоимость поддержки «объёмных» серверов с двумя графическими процессорами A100 составляет около «$4299 на систему с трёхлетним сроком поддержки, который клиенты могут продлить».

Постоянный URL: http://servernews.ru/1031103
26.01.2021 [18:02], Сергей Карасёв

Сервер GIGABYTE R282-Z96 с двумя AMD EPYC 7002 получил статус NVIDIA Certified

Компания GIGABYTE анонсировала стоечный сервер R282-Z96 на аппаратной платформе AMD: новинка может применяться для решения различных задач, связанных с высокопроизводительными вычислениями, а также хранением и обработкой данных. Сервер получил статус NVIDIA Certified, что свидетельствует о готовности системы к ИИ-нагрузкам.

Устройство выполнено в форм-факторе 2U с размерами 438 × 87 × 730 мм. Допускается установка двух процессоров EPYC 7002, каждый из которых может содержать до 64 вычислительных ядер при показателе TDP до 225 Вт.

Для модулей оперативной памяти DDR4-3200/2933 есть 32 слота: в системе можно задействовать до 4 Тбайт ОЗУ. За сетевые подключения отвечают два порта 1GbE LAN; кроме того, предусмотрен выделенный гигабитный порт управления.

Сервер допускает установку до 12 накопителей типоразмера 3,5/2,5 дюйма. Доступны четыре слота PCIe 4.0 x16 для полноразмерных карт расширения, по одному слоту OCP 3.0 Mezzanine (PCIe 4.0 x16) и OCP 2.0 Mezzanine (PCIe 3.0 x8), коннектор М.2 для быстрого твердотельного модуля стандарта 2242/2260/2280/22110 с интерфейсом PCIe 4.0 x16.

На фронтальную панель выведены два порта USB 3.0. Сзади находятся ещё два разъёма USB 3.0, гнёзда для сетевых кабелей, аналоговый коннектор D-Sub для вывода изображения. Питание обеспечивают два блока мощностью 2000 Вт с сертификацией 80 PLUS Platinum.

Постоянный URL: http://servernews.ru/1031066
23.01.2021 [21:18], Алексей Степин

Китайский ускоритель Zhaoxin Big Island обещает составить конкуренцию AMD и NVIDIA

Графические процессоры уже давно ускоряют не только графику, но и активно используются для вычислений различного рода, включая задачи машинного обучения. Но дуумвират AMD и NVIDIA подошёл к концу. Помимо Intel с её архитектурой Xe, на рынок ускорителей вышла китайская Zhaoxin Semiconductor.

Компания это сравнительно молодая, она была основана в 2013 году как совместное предприятие с некогда популярным производителем VIA Technologies. Инициатором создания Zhaoxin выступило правительство Шанхая. Наряду с наработками в области архитектуры x86, в распоряжение компании попали и разработки бывшей S3 Graphics. В 2020 году компания объявила о намерении выпускать дискретные графические ускорители.

Изначально речь шла о достаточно бюджетном решении. Об этом свидетельствовало намерение использовать уже далеко не новый 28-нм техпроцесс TSMC и уложиться при этом в теплопакет в районе 70 Ватт. Из-за санкций США Zhaoxin отказалась от использования 16-нм техпроцесса. Однако сейчас, похоже, большую часть проблем удалось преодолеть: компания анонсировала первый китайский ускоритель на базе собственной архитектуры и 7-нм техпроцесса!

В распоряжении Zhaoxin Semiconductor собственных полупроводниковых фабрик нет. Конкретного имени контрактного производителя для своей новинки под именем Big Island она не называет, но большую часть 7-нм чипов на сегодня производит TSMC. На тайваньского гиганта указывает и сайт Zhaoxin, там же упоминаются известные разработчики полупроводниковых решений Synopsys и Mentor Graphics. Кроме того, компания подтверждает использование в Big Island компоновки 2.5DCoWoS (2.5D chip-on-wafer-on-substrate), впервые использованной TSMC, так что сомнений насчёт того, кто производит новинку, остаётся немного.

Процессор достаточно сложен, он состоит из 24 млрд транзисторов, что, впрочем, существенно меньше, чем у NVIDIA A100 с его 54 млрд. Тем не менее, поддерживается большинство популярных форматов вычислений, включая FP16, FP32, INT32 и bfloat16. В режиме FP16 пиковая производительность достигает 147 Тфлопс, что выше, нежели 78 Тфлопс A100. Впрочем, лидером здесь является AMD Instinct MI100 с производительностью 184 Тфлопс.

Разработка новой архитектуры, как сообщают зарубежные источники, была начата в 2018 году, а первые образцы кремния увидели свет ещё в мае 2020 года, то есть у Zhaoxin было достаточно много времени, чтобы довести Big Island до ума. Ожидается, что массовое производство нового чипа будет развёрнуто в этом году, но точные временные рамки пока неизвестны.

Постоянный URL: http://servernews.ru/1030854
30.12.2020 [13:50], Сергей Карасёв

HPC-сервер ASRock Rack 2U4G-ROME/2T: 4 GPU в 2U

Компания ASRock Rack анонсировала сервер 2U4G-ROME/2T, построенный на аппаратной платформе AMD. Новинка предназначена для формирования систем высокопроизводительных вычислений (HPC) с использованием графических ускорителей.

Решение ориентировано на монтаж в стойку: оно соответствует форм-фактору 2U, а габариты составляют 438 × 795 × 87,5 мм. Задействована материнская плата ROMED8QM-2T.

Поддерживается установка процессоров AMD EPYC 7002/7001. Есть восемь слотов для модулей оперативной памяти DDR4-3200/2933: в системе можно задействовать до 2 Тбайт ОЗУ.

Сервер поддерживает установку четырёх графических ускорителей с интерфейсом PCIe x16: могут применяться карты в двухслотовом исполнении. Во фронтальной части расположены отсеки для 2,5-дюймовых накопителей.

Новинка располагает двумя сетевыми портами (RJ45) с пропускной способностью до 10 Гбит/с. Кроме того, есть выделенный порт управления 1GbE. Интерфейсный блок в тыльной части содержит два разъёма USB 3.0, аналоговый коннектор D-Sub для подключения монитора и последовательный порт.

За питание отвечают два блока с сертификацией Platinum мощностью 2000 Вт. В системе охлаждения применены шесть 80-миллиметровых вентиляторов.

Постоянный URL: http://servernews.ru/1029086
29.12.2020 [12:46], Владимир Мироненко

Lambda Echelon — GPU-кластер под ключ для задач машинного обучения

Компания Lambda разработала GPU-кластер Echelon для ИИ-задач. Он включает в себя вычислительные ресурсы, хранилище, сеть, питание и поддержку, необходимые для решения крупномасштабных задач глубокого обучения.

Echelon использует стоечную архитектуру, которая хорошо масштабируется: от кластера с одной стойкой на 40 графических процессоров до кластера с тысячами графических процессоров в центре обработки данных.

Клиентам Lambda уже знакомы узлы в составе Echelon. Это серверы Lambda Hyperplane и Lambda Blade GPU. Вычислительные узлы Echelon были разработаны с учётом возможности использования InfiniBand HDR 200 Гбит/с или 100 Гбит/с Ethernet. Высокая скорость обмена данными позволяет выполнять широкомасштабное обучение языковых моделей и свёрточных нейронных сетей.

Кластер Echelon, разработанный для крупномасштабного распределённого обучения, может иметь до четырёх различных сетей:

  • 200-Гбит/с фабрики HDR InfiniBand с RDMA для вычислительны узлов и хранилища.
  • Внутрення сеть 100 Гбит/с.
  • Сеть для управления узлами 1 Гбит/с.

Выше показана сетевая топология для кластера с одной стойкой с 40 графическими процессорами NVIDIA A100.

Постоянный URL: http://servernews.ru/1028955
03.12.2020 [13:49], Андрей Галадей

Выход Intel Xe HP не за горами: компания готовит Linux-драйверы Gen12HP

Некоторое время назад компания Intel анонсировала графический процессор Xe HP, предназначенный для конкуренции с игровыми и профессиональными ускорителями AMD и NVIDIA. В готовых решениях он появится только в 2021 году, но подготовка к этому идёт уже сейчас.

Сообщается, что компания готовится к развертыванию поддержки драйверов Linux с открытым исходным кодом под эти ускорители. Они предназначены не только для версии Gen12 (используется в Tiger Lake, Rocket Lake — Xe LP), но и для Gen12.5 или Gen12HP. Как ожидается, готовые драйверы появятся до конца января в составе Mesa 20.1. Они, скорее всего, будут поддерживать OpenGL/Vulkan и другие современных графически технологии. Всего в новом пакете добавлено более семи тысяч строк нового кода, а также различные изменения в драйверах Iris Gallium3D и ANV Vulkan.

На данный момент компания пока не особо распространяется на тему обновлений так что остаётся ждать новых данных. Напомним, что ранее в Geekbench протестировали видеокарту Intel Xe-HP NEO с 512 вычислительными блоками. Результаты пока не слишком впечатляют. Быть может, у финальной версии Xe HP с оптимизированными драйверами они будут лучше. Пока что в серверном сегменте доступен лишь ускоритель на базе четырёх GPU Intel Xe LP, который ориентирован на облачный гейминг.

Постоянный URL: http://servernews.ru/1026909
01.12.2020 [23:44], Владимир Мироненко

В AWS появятся инстансы с GPU AMD, самые быстрые облачные Xeon и 100GbE-подключение для машин с Graviton2

Стив Робертс (Steve Roberts) из Amazon Web Services (AWS) сообщил о том, что вскоре будут доступны новые инстансы Amazon Elastic Compute Cloud (EC2) в семействе инстансов G4, которые позволят повысить производительность и снизить затраты на рабочие нагрузки с интенсивным использованием графики, такие как потоковая передача игр, анимация и рендеринг видео. До этого самыми экономичными инстансами компании на базе GPU в EC2 были инстансы G4dn, выпущенные в 2019 году и оснащенные ускорителями NVIDIA T4.

Инстансы G4ad используют новейшие GPU AMD Radeon Pro V520 и процессоры EPYC 2-го поколения, и являются первыми в EC2, оснащенными GPU AMD. Они идеально подходят для развёртывания моделей машинного обучения в производственной среде, а также для приложений с интенсивным использованием графики. Доступны инстансы трех размеров: от G4ad.4xlarge с 1 графическим процессором до G4ad.16xlarge с 4 графическими процессорами, как указано ниже.

По сравнению с G4dn новые экземпляры G4ad на 45 % лучше по соотношению цены и производительности для рабочих нагрузок с интенсивным использованием графики, включая вышеупомянутую потоковую передачу игр, удалённые графические рабочие станции и сценарии рендеринга. По сравнению с экземпляром G4dn такого же размера, экземпляры G4ad обеспечивают повышение производительности до 40 %.

Следует отметить, что экземпляры G4dn по-прежнему будут лучшим вариантом для машинного обучения (ML) в малом масштабе и для задач инференса благодаря тензорным ядрам. Кроме того, экземпляры G4dn по-прежнему лучше всего подходят для приложений, которым требуется доступ к библиотекам NVIDIA, таким как CUDA, CuDNN и NVENC. Однако, когда нет зависимости от библиотек NVIDIA, AWS рекомендует клиентам попробовать экземпляры G4ad, чтобы воспользоваться преимуществами лучшего соотношения цены и производительности.

Графические процессоры AMD Radeon Pro V520 поддерживают API DirectX 11/12, Vulkan 1.1 и OpenGL 4.5. В качестве операционных систем клиенты могут выбирать из Windows Server 2016/2019, Amazon Linux 2, Ubuntu 18.04.3 и CentOS 7.7. Инстансы G4ad будут доступны с повременной тарификацией и в качестве зарезервированных или спотовых инстансов. Новые экземпляры G4ad вскоре будут доступны в регионах US East (Северная Виргиния), US West (Орегон) и Европа (Ирландия).

Следующий «железный» анонс касается инстансов на базе Intel Xeon — компания объявила о запуске экземпляров M5zn, которые будут предложены в семи размерах. В них используются специальные процессоры Cascade Lake, все ядра в которых могут работать устоявшейся частотой до 4,5 ГГц. M5zn являются разновидностью вариантом инстансов M5 общего назначения и базируются на Nitro System. Эти экземпляры оснащены сетью со скоростью передачи данных 100 Гбит/с с низкой задержкой и адаптером Elastic Fabric (EFA) для повышения производительности при выполнении высокопроизводительных вычислений и запуске приложений с интенсивным обменом данными. Все экземпляры M5zn приведены в таблице ниже.

Гипервизор Nitro позволяет инстансам M5zn обеспечивать производительность, практически неотличимую от инстансов bare-metal. Другие компоненты системы AWS Nitro System, такие как Nitro Security Chip и аппаратная обработка EBS, повышают производительность, а шифрование VPC обеспечивает больше безопасности. Новые инстансы уже доступны в ряде регионов США, а также в регионах Европа (Ирландия и Франкфурт-на-Майне) и Азия (Токио).

Кроме того, AWS сообщила о пополнении портфолио Graviton2 на базе Arm-чипов инстансами C6gn, которые обеспечивают пропускную способность сети до 100 Гбит/с, скорость работы с томами EBS до 38 Гбит/с, повышение производительности обработки пакетов до 40 % и улучшение соотношения цены и производительности на 40 % по сравнению с сопоставимыми экземплярами на процессорах x86. Инстансы C6gn будут доступны в 8 размерах:

Постоянный URL: http://servernews.ru/1026784
30.11.2020 [14:14], Сергей Карасёв

Новые GPU-серверы ASRock Rack выполнены на платформе AMD EPYC 7002

Компания ASRock Rack анонсировала серверы 3U4X-ROME/2T и 7U8X-ROME2/2T, предназначенные для построения систем высокопроизводительных вычислений на основе графических ускорителей. Обе новинки выполнены на платформе AMD с возможностью установки двух процессоров EPYC 7002.

Модель 3U4X-ROME/2T соответствует типоразмеру 3U. Доступны восемь слотов для модулей оперативной памяти DDR4-3200/2933. Система может быть оборудована двумя 2,5-дюймовыми накопителями NVMe, а также восемью SATA-устройствами — по четыре форматов 2,5 и 3,5 дюйма. Поддерживается архитектура NVIDIA HGX A100 на базе четырёх GPU. В оснащение входят два блока питания 80 PLUS Platinum мощностью 3000 Вт.

Вариант 7U8X-ROME2/2T стандарта 7U предоставляет 32 разъёма для модулей памяти DDR4-3200. Поддерживается использование до 16 твердотельных накопителей в виде карт AIC NVMe. Реализована поддержка NVIDIA HGX A100 для восьми GPU. Питание обеспечивают четыре блока 80 PLUS Platinum на 3000 Вт.

Оба сервера снабжены двумя сетевыми портами 10GbE на основе контроллера Intel X550. Младшая версия предоставляет слот PCIe 4.0 x16 для низкопрофильной карты расширения.

Постоянный URL: http://servernews.ru/1026623
24.11.2020 [19:36], Андрей Галадей

Проект ZLUDA позволит запускать CUDA-приложения на GPU Intel

Недавно Intel представила концепцию oneAPI, а в декабре ожидается «золотой релиз» всех инструментов. Но есть и альтернативный проект ZLUDA с открытым исходным кодом, который предоставляет реализацию CUDA на базе oneAPI Level Zero. Это позволит запускать программы, изначально «заточенные» под NVIDIA CUDA, на видеокартах Intel UHD и Xe.

Как отмечается, ZLUDA является независимым от NVIDIA и Intel проектом, хотя и использует API Level Zero. ZLUDA предоставляет альтернативную версии библиотеки libcuda и позволяет приложениям CUDA работать без каких-либо модификаци на графических картах Intel с «почти нативной» производительностью. Правда, потребуется графика не ниже Gen9.

engadget.com

engadget.com

ZLUDA всё ещё находится на ранней стадии разработки, но возможностей утилиты уже достаточно, чтобы запускать программу Geekbench с тестами CUDA. Хотя, само собой, о полной поддержке всех функций CUDA речи ещё не идёт. Как ожидается, в будущем ZLUDA сможет работать и поверх HIP-интерфейсов AMD в качестве альтернативы Intel Level Zero.

Новинка написана на языке Rust. Исходники доступны на GitHub. При этом отмечается, что новинка в ряде случаев идёт наравне или даже превосходит OpenCL в тесте GeekBench. Так что если повезёт, то простое использование CUDA будет возможно не только на картах NVIDIA.

Постоянный URL: http://servernews.ru/1026163
Система Orphus