Материалы по тегу: gpu

24.11.2020 [19:36], Андрей Галадей

Проект ZLUDA позволит запускать CUDA-приложения на GPU Intel

Недавно Intel представила концепцию oneAPI, а в декабре ожидается «золотой релиз» всех инструментов. Но есть и альтернативный проект ZLUDA с открытым исходным кодом, который предоставляет реализацию CUDA на базе oneAPI Level Zero. Это позволит запускать программы, изначально «заточенные» под NVIDIA CUDA, на видеокартах Intel UHD и Xe.

Как отмечается, ZLUDA является независимым от NVIDIA и Intel проектом, хотя и использует API Level Zero. ZLUDA предоставляет альтернативную версии библиотеки libcuda и позволяет приложениям CUDA работать без каких-либо модификаци на графических картах Intel с «почти нативной» производительностью. Правда, потребуется графика не ниже Gen9.

engadget.com

engadget.com

ZLUDA всё ещё находится на ранней стадии разработки, но возможностей утилиты уже достаточно, чтобы запускать программу Geekbench с тестами CUDA. Хотя, само собой, о полной поддержке всех функций CUDA речи ещё не идёт. Как ожидается, в будущем ZLUDA сможет работать и поверх HIP-интерфейсов AMD в качестве альтернативы Intel Level Zero.

Новинка написана на языке Rust. Исходники доступны на GitHub. При этом отмечается, что новинка в ряде случаев идёт наравне или даже превосходит OpenCL в тесте GeekBench. Так что если повезёт, то простое использование CUDA будет возможно не только на картах NVIDIA.

Постоянный URL: http://servernews.ru/1026163
20.11.2020 [13:37], Сергей Карасёв

SC20: HPC-платформа HPE Apollo 6500 Gen10 Plus поддерживает ускорители A100 и MI100

Среди первых платформ, поддерживающих новые ускорители AMD Instinct MI100, была упомяната HPE Apollo 6500 Gen10 Plus. Она ориентирована на высокопроизводительные вычисления (HPC) и поддерживает не только новые решения AMD, но и HGX-платформу NVIDIA A100. В основе системы — серверы ProLiant XL645d и ProLiant XL675d на базе процессоров AMD EPYC.

Модель ProLiant XL645d допускает установку одного чипа семейства EPYC 7002 в расчёте на узел. Возможно использование NVIDIA HGX A100 4-GPU или четырёх двухслотовых или восьми однослотовых ускорителей PCIe. Например, MI100, объединённых мостиком Infinity Fabric. Модификация ProLiant XL675d имеет высоту 6U и рассчитана на два процессора EPYC 7002, а также десять двухслотовых или 16 однослотовых акселераторов PCIe или NVIDIA HGX A100 8-GPU.

Платформа HPE Apollo 6500 Gen10 Plus предлагает гибкие опции по использованию накопителей: это могут быть устройства SAS, SATA и NVMe. Допускается применение системы прямого жидкостного охлаждения.

В шасси типоразмера 6U могут быть установлены два 3U-сервера ProLiant XL645d или один сервер ProLiant XL675d. Новинки предназначены для решения задач в области искусственного интеллекта, глубокого обучения и т. п.

Постоянный URL: http://servernews.ru/1025877
18.11.2020 [12:03], Сергей Карасёв

HGX-системы GIGABYTE с новыми NVIDIA A100 получат воздушное и жидкостное охлаждение

Компания GIGABYTE Technology сообщила о планах по выпуску серверов, оснащённых новейшими ускорителями NVIDIA A100, располагающими 80 Гбайт памяти HBM2e. Эти акселераторы были официально представлены в рамках конференции SC20 — подробно о них можно узнать в нашем материале.

Сообщается, что GIGABYTE возьмёт на вооружение платформу NVIDIA HGX A100, которая объединяет в себе несколько графических ускорителей NVIDIA A100, соединённых высокоскоростным интерфейсом NVLink.

В ассортименте GIGABYTE появятся серверы, использующие акселераторы NVIDIA A100 с 40 и 80 Гбайт памяти. Эти системы будут использоваться в сферах высокопроизводительных вычислений, глубокого обучения, искусственного интеллекта и пр.

В частности, для платформы 4-GPU компания GIGABYTE создаст сервер G492-ZD0 с воздушным охлаждением, а также систему G492-ZL0 с жидкостным охлаждением. Кроме того, будут доступны 2U-версии G262-ZR0 и G262-ZL0, наделённые воздушным и жидкостным охлаждением соответственно.

Более подробную информацию о новинках разработчик раскроет позднее. Серверы станут доступны в первой четверти следующего года. 

Постоянный URL: http://servernews.ru/1025642
17.11.2020 [18:43], Сергей Карасёв

Сервер TYAN Thunder HX FT83-B7119 допускает установку десяти GPU-ускорителей

Компания TYAN представила сервер Thunder HX FT83-B7119, предназначенный для построения платформ высокопроизводительных вычислений (НРС). Стоечная система выполнена в формате 4U на основе материнской платы S7119GMRE с возможностью установки двух процессоров Intel Xeon Scalable второго поколения в исполнении LGA3647.

Для модулей оперативной памяти DDR4-2933 доступны 24 слота: максимально поддерживаемый объём ОЗУ составляет 3 Тбайт. Во фронтальной части находятся отсеки для 24 накопителей типоразмера 3,5/2,5 дюйма с интерфейсом SATA; допускается «горячая» замена.

Система может быть оборудованы десятью графическими акселераторами, выполненными в виде двухслотовых карт расширения PCIe 3.0 x16. Кроме того, предусмотрен дополнительный разъём PCIe 3.0 x16 для однослотовой карты расширения.

За сетевые подключения отвечают два порта 10GbE с пропускной способностью до 10 Гбит/с. Есть также дополнительный гигабитный порт управления. Подсистема питания содержит четыре блока с сертификацией 80 Plus Platinum.

На тыльную панель выведены два порта USB 3.0. Спереди расположены ещё два разъёма USB 3.0, а также последовательный порт и аналоговый коннектор D-Sub для подсоединения монитора. Сервер имеет размеры 830 × 438,4 × 176 мм. 

Постоянный URL: http://servernews.ru/1025579
13.11.2020 [22:27], Андрей Галадей

Разработчик из Red Hat раскритиковал подход Intel к открытым GPU-драйверам

Поддержка драйверов Intel для Linux улучшается, однако, похоже, там всё не так радужно. Один из участников проекта Mesa заявил, что модель разработки с совместным использованием кода — не всегда хорошая идея. Поводом стало желание Intel поделиться наработками в области GPU-драйверов для Linux, которые, как заявляет сама компания, имеют во многом общий код с Windows-драйверами.

Суть в том, что, по словам старшего инженера Red Hat Дэйва Эйрли (Dave Airlie), есть разница между проектами, которые открыли исходный код, и проектами, которые разрабатывались таковыми изначально. Первые могут формально иметь открытые исходники, однако по факту принадлежать одной или нескольким компаниям. Вторые — только сообществу. В пример он привёл проект LLVM, который является полностью открытым, поскольку он и был таковым с самого начала.

По словам Эйрли, проекты первого типа имеют фундаментальную проблему — если компания заинтересована в окупаемости инвестиций, то она просто размещает код в репозитории и открывает его, но не создают сообщество вокруг проекта. То есть, общественность по факту не участвует в разработке. Примером такого подхода является открытие кода графического драйвера для Vulkan от AMD. После этого Эйрли инициировал проект radv в рамках Mesa. И он, по словам разработчика, показал лучшие результаты.

Основное же неудовольствие связано с Intel Graphics Compiler (IGC), который является внутренним проектом корпорации. Отсутствие полноценного сообщества, информации о развитии и о том, как принять в нём участие, делают открытие кода сугубо формальным шагом. Ведь без сообщества и обратной связи проектом всё также будет «рулить» Intel. Специалист резюмировал, что такая политика со стороны компании усложняет поддержку драйверов в Linux и, фактически, фрагментирует экосистему.

Постоянный URL: http://servernews.ru/1025339
13.11.2020 [12:21], Сергей Карасёв

GPU-серверы GIGABYTE G482-Z53 и G482-Z54 допускают установку восьми акселераторов

Компания GIGABYTE Technology анонсировала стоечные серверы G482-Z53 и G482-Z54, предназначенные для осуществления высокопроизводительных вычислений с использованием графических ускорителей (GPGPU). Обе новинки выполнены в форм-факторе 4‎U на основе аппаратной платформы AMD. Новинки дополняют серию систем G482-Z5x, представленную год назад.

Серверы допускают установку двух процессоров EPYC 7002, каждый из которых может насчитывать до 64 вычислительных ядер (до 128 потоков инструкций). Задействована материнская плата MZ52-G40 с 32 слотами для модулей оперативной памяти DDR4-3200/2933 объёмом до 128 Гбайт каждый.

Новинки оснащены восемью слотами PCIe 4.0 x16 для графических акселераторов. Модель G482-Z53 дополнительно снабжена одним разъёмом PCIe 4.0 x16 для низкопрофильной карты расширения, а версия G482-Z54 — одним разъёмом для полноразмерной карты.

Серверы оборудованы двумя сетевыми портами Gigabit Ethernet на базе контроллера Intel I350-AM2 и вспомогательным сетевым портом управления: гнёзда для кабелей расположены во фронтальной части. Кроме того, на лицевую панель выведены два порта USB 3.0 и аналоговый интерфейс D-Sub.

Модель G482-Z53 располагает восемью отсеками для 2,5-дюймовых накопителей с интерфейсом SATA и возможностью «горячей» замены. Модификация G482-Z54 дополнительно получила два отсека для 2,5-дюймовых NVMe-устройств.

Серверы совместимы с различными программными платформами, включая Windows Server, Red Hat Enterprise Linux, SUSE Linux Enterprise Server и Ubuntu.

Постоянный URL: http://servernews.ru/1025279
12.11.2020 [16:57], Сергей Карасёв

GPU-сервер GIGABYTE G292-Z43 допускает установку 16 ускорителей

Компания GIGABYTE представила сервер G292-Z43, предназначенный для построения системы высокопроизводительных вычислений на основе GPU-ускорителей. Новинка выполнена в формате 2U на аппаратной платформе AMD с возможностью установки двух процессоров EPYC 7002 (до 64 вычислительных ядер у каждого чипа).

Сервер позволяет задействовать до 16 графических акселераторов с интерфейсом PCIe x16 в однослотовом исполнении. Кроме того, есть два разъёма PCIe x16 для дополнительных низкопрофильных карт половинной длины.

Система может быть оборудована 16 модулями оперативной памяти DDR4-3200 ёмкостью до 128 Гбайт каждый. Есть двухпортовый сетевой контроллер 10 Gigabit Ethernet и дополнительный сетевой порт управления.

Во фронтальной части сервера расположены отсеки для восьми 2,5-дюймовых накопителей с возможностью «горячей» замены. Можно установить четыре устройства с интерфейсом SATA/SAS и четыре устройства U.2.

Среди прочего стоит упомянуть два порта USB 3.0 и аналоговый разъём D-Sub для вывода изображения. Габариты составляют 448 × 87,5 × 800 мм.

Постоянный URL: http://servernews.ru/1025238
11.11.2020 [17:01], Игорь Осколков

H3C XG310, первый серверный GPU Intel, предназначен для облачного гейминга

Intel анонсировала дискретный графический ускоритель, ориентированный на серверное применение. Первая модель H3C XG310 выпущена в партнёрстве с китайским производителем и ориентирована на рынок облачных игр для Android. Среди первых партнёров, использующих новинку, значатся Gamestream, Tencent Games и Ubitus.

H3C XG310 включает сразу четыре GPU-чипа на базе архитектуры Xe-LP, ближайшего родственника дискретной графики Iris Xe Max, и 8 Гбайт памяти LPDDR4. Судя по всему, это и есть SG1, о котором стало известно в конце лета. Чуть укороченная однослотовая карта XG310 имеет полную высоту и интерфейс PCIe 3.0 x16, которые делится между отдельными GPU посредством набортного PCIe-коммутатора.

Две таких карты, как утверждается, способны обслуживать до 160 игроков одновременно (в зависимости от типа игры), с собственно рендерингом картинки и её кодированием на лету. Например, Tencent говорит о том, что им удаётся поддерживать 100 сессий в популярных играх King of Glory и Arena of Valor на сервере с двумя картами. А типовая конфигурация сервера может включать до четырёх ускорителей. Стоит отметить, что в данном случае приоритет отдан не столько качеству графики, сколько низкому уровню задержки.

Кроме того, новые ускорители можно использовать и просто для (де-)кодирования видеопотоков. Поддерживаются стандарты AVC, HEVC, MPEG2, VP9 и AV1. Программная составляющая включает Intel Media SDK, который вскоре вольётся в oneAPI VPL (Video Processing Library), а также готовые плагин для FFmpeg. Для 3D-графики предлагается использовать открытую библиотеку Mesa. Также Intel анонсировала новый проект Flipfast — стек, ориентированный на игры в среде Linux, который позволяет запускать в виртуальной машине графические приложения практически без потери производительности при работе с GPU.

В целом, Intel активно занимается развитием поддержки Linux, что пригодится в будущем при запуске «полноценных» GPU-ускорителей более высокого класса. В частности, компания переработала драйверы, унифицировав большую часть кода для Linux и Windows и подтянув производительность. Также Intel разрабатывает готовые наборы ПО для RHEL, SuSE и Ubuntu. Во многом новый программный стек опирается на oneAPI.

Постоянный URL: http://servernews.ru/1025140
11.11.2020 [13:10], SN Team

Сравнительное тестирование GPU-серверов с видеокартами NVIDIA RTX3000 в задачах AI/ML

Партнёрский материал

В начале сентября 2020 г. компания NVIDIA впервые представила графические карты семейства GeForce RTX 3000 на базе архитектуры RTX второго поколения — Ampere. NVIDIA нарушила свою традицию, когда новые поколения карт продавались дороже своих предшественников, а это значит, что стоимость тренировки модели оставалась примерно на одном уровне.

В этот раз NVIDIA установила стоимость новых и более популярных карт на уровне стоимости карт предыдущего поколения в момент начала их продаж. Для разработчиков ИИ-приложений это событие стало действительно важным — по сути, карты RTX 3000 открывают доступ к производительности, сравнимой с Titan RTX, но с гораздо более приятным ценником. Теперь у разработчиков data science появилась возможность тренировать модели быстрее без увеличения затрат.

Флагманские карты новой серии GeForce RTX 3090 получили 10 496 ядер NVIDIA CUDA с тактовой частотой 1,44 ГГц (ускорение до 1,71 ГГц), 328 тензорных ядер третьего поколения и 24 Гбайт 384-битной графической памяти GDDR6X. Еще более доступная по цене GeForce RTX 3080 обладает 8 704 ядрами CUDA с теми же тактовыми частотами, 272 тензорными ядрами и 10 Гбайт 320-битной памяти GDDR6X. Несмотря на дефицит новых видеокарт (NVIDIA даже была вынуждена приносить извинения рынку за образовавшуюся нехватку карт на старте продаж), уже в начале октября GPU-серверы появились в линейке продуктов у хостинг-провайдеров.

Нидерландский провайдер HOSTKEY одним из первых в Европе протестировал и представил GPU-серверы на базе новых карт GIGABYTE RTX3090/3080 TURBO. С 26 октября конфигурации на базе RTX 3090/Xeon E-2288G и RTX 3080/AMD Ryzen 9 3900X стали доступны всем клиентам HOSTKEY в дата-центрах в Нидерландах и Москве.

NVIDIA RTX 3000: золотая середина?

Карты RTX3090/3080 позиционируются производителем как более производительное решение на замену карт серии RTX 2000 с предыдущей архитектурой Turing. И, конечно, серверы с новыми картами значительно производительнее, чем доступные «народные» GPU-серверы на базе видеокарт GTX1080 (Ti), которые тоже пригодны для работы с нейросетями и прочими задачами машинного обучения (хотя и с оговорками), но при этом доступны по совсем уж «демократичным» ценам.

«Над» серией NVIDIA RTX 3000 располагаются все мощные решения на базе карт класса A100/A40 (Ampere) с тензорными ядрами третьего поколения числом до 432, Titan RTX/T4 (Turing) с тензорными ядрами второго поколения в количестве до 576, и V100 (Volta) с 640 тензорными ядрами первого поколения. Ценники на эти мощные карты, равно как и на аренду GPU-серверов с ними, значительно превышают предложения с RTX 3000, поэтому особенно интересно оценить на практике разрыв в производительности в задачах AI/ML.

Практические исследования

Face Reenactment

Одной из рабочих задач для оперативного тестирования GPU-серверов на основе новых карт RTX 3090 и RTX 3080 был выбран процесс Face Reenactment для нейросети U-Net+ResNet с пространственно-адаптивной нормализацией SPADE и patch-дискриминатором. В качестве фреймворка использовался Facebook PyTorch версии 1.6 со встроенным автоматическим режимом Automated mixed precision (AMP), а также режимом флага torch.backend.cudnn.benchmark = True.

Для сравнения этот же тест был запущен на GPU-сервере с картой GeForce GTX 1080 Ti, но уже без AMP, который только замедлил бы процесс, а также на машине с картой Titan RTX. Для чистоты эксперимента следует упомянуть, что в этом тестировании с картой Titan RTX использовалась система на процессоре Intel Core i9-10920X, в то время как остальные GPU-серверы со всеми остальными картами работали на Xeon E-2288G.

Безусловно, сравнение при классификации важно производить на одинаковых процессорах, поскольку именно они зачастую являются «бутылочным горлышком», ограничивающим производительность системы. Так что доля скептицизма в отношении погрешности результатов тестирования GPU в данном случае вполне уместна. Мы получили следующие результаты:

Минимальная разница между результатами RTX 3090 и Titan RTX выглядит особенно впечатляюще, если вспомнить об огромном ценовом разрыве между этими решениями. В следующем тестировании RTX 3090 заслуживает, как минимум, полноценного глубокого сравнения с GPU-сервером на базе одной и двух карт RTX 2080. Отставание RTX 3080 от RTX 3090 вполне объяснимо значительной разницей в объеме памяти — 10 Гбайт против 24 ГБ, на соответственное двух- и трехкратное отставание GTX 1080 Ti также наложила свой отпечаток разница в архитектурах.

Если же посмотреть на эти результаты с практической точки зрения, то есть в плане оценки финансовых расходов на обучение модели в случае аренды GPU-сервера, то чаша весов окончательно склоняется в пользу выбора системы с RTX 3090 — именно эта карта обеспечит наилучший использование бюджета как при недельном, так и при месячном тарифных планах.

Обучение GAN

Во второй тестовой задаче, которая заключалась в тренировке генеративно-состязательной нейронной сети (Generative Adversarial Network, GAN) с пакетом PyTorch, было интересно не только сравнить производительность карт различных поколений, но также отследить влияние состояния флага torch.backends.cudnn.benchmark на финальные результаты. При обучении GAN-архитектуры включение флага в положение True дает прирост производительности, но при этом может пострадать воспроизводимость результатов (Reproducibility).

Полученные результаты еще раз доказывают, что карта RTX 3090 с ее 24 Гбайт памяти GDDR6X представляет собой лучший выбор для решения тяжелых задач по обработке изображений. Как по производительности (выигрыш на 65% по сравнению с RTX 3080), так и по затратам на тренинг модели при аренде GPU-сервера в пересчёте на стоимость тренировки.

RTX 3080 значительно обошла по производительности GTX 1080 Ti, причём с любой установкой флага и несмотря на примерный паритет объема памяти. Однако следует помнить, что при обучении GAN-архитектуры включение флага torch.backends.cudnn.benchmark=True дает прирост производительности, но при этом может пострадать воспроизводимость результатов. причем,

Так что аренда более доступного GPU-сервера с картами GTX 1080 Ti при некоторых условиях может быть вполне разумным выбором — или, как минимум, сравнима по бюджету на тренинги моделей с RTX 3080. К сожалению, на прогон этой сетки через Titan RTX времени уже не оставалось, но с большой вероятностью картина в этом случае осталась бы аналогичной.

Обучение и инференс в vision-задачах

В следующей тестовой задаче по тренингу сетей в vision-задачах производительность видеокарт RTX 3090 и RTX 3080 сравнивалась с возможностями мощнейшего (и все еще очень дорогого) «ветерана» Tesla V100 с 16 Гбайт памяти HBM2.  Было протестировано пять классификационных моделей для обнаружения объектов со следующими тренинговыми установками: model forward + mean (no loss) + backward.

Тестовые задания запускались с применением последней версии фреймворка NVIDIA PyTorch (20.09-py3 от 24 октября). К сожалению, эта версия не собрана под архитектуру Ampere, поэтому для полноценной поддержки видеокарт RTX 3000 пришлось использовать PyTorch версии nightly build, а именно 1.8.0.dev20201017+cu110. У серии RTX 3000 также есть некоторые проблемы с torch.jit, но вопрос полностью снимается при сборке PyTorch под конкретную карту. Во всех тестах PyTorch использовался с автоматическим скриптом Mixed Precision, с включенным по умолчанию флагом torch.backend.cudnn.benchmark = True. 

Стоит упомянуть некоторые нюансы этого сравнения. В частности, была задействована не самая быстрая V100, которая работала внутри виртуальной машины. Из-за этого могли возникнуть некоторые потери, которые, вполне возможно, можно было бы оптимизировать при лучшей настройке. Помимо этого, в процессе тестирования не была задействована вся доступная VRAM, что позволило бы придать расчетам дополнительное ускорение.

Classification Training

Задача обучения сложных моделей нейросетей является профильным заданием для GPU-серверов на картах NVIDIA, позволяя порой на порядки сократить время тренировки алгоритмов глубокого обучения.

В условиях запуска задачи для получения результатов бенчмарка пересылка обнаружения объектов производилась без NMS, а пересылка для обучения не включала сопоставления целей. Иными словами, на практике скорость обучения с большой вероятностью замедлится на 10-20%, а скорость вывода снизится примерно на 20-30%.

Classification Inference

В данном случае инференс — это процесс получения предсказаний посредством прогона изображений через заранее обученную нейронную сеть, который вполне подходит для развертывания на удаленном GPU-сервере.

В целом можно говорить о том, что в заданиях тренировки и инференса сетей в Vision-задачах карта RTX 3090 медленнее Tesla V100 в среднем всего на 15-20%, и это очень впечатляюще — особенно с учетом разницы в цене.

Показателен и тот факт, что отставание RTX 3080 от RTX 3090 относительно невелико — по крайней мере, значительно меньше, чем при выполнении других задач. На практике это означает, что даже со сравнительно небольшим бюджетом, выделенным на аренду GPU-сервера на базе RTX 3080, можно добиться достаточно высокой производительности лишь с небольшим увеличением затрат времени на обработку данных.

Detection Training

Тестирование RetinNet c ResNet50FPN для обнаружения объектов производилось с указанными выше параметрами PyTorch (20.09-py3 от 24 октября), с флагом torch.backend.cudnn.benchmark=True и с тренинговыми установками model forward + mean (no loss) + backward.

Detection Inference

Здесь отставание карт серии RTX30 уже минимально, что говорит о несомненных преимуществах новой архитектуры Ampere для решения подобных задач. Карта RTX 3090 показала себя просто великолепно.

Сравнительно небольшое отставание бюджетной карты говорит о том, что благодаря отличному соотношению цена/возможности RTX 3080 может стать желанным выбором для решения задач прототипирования с экономичным бюджетом. По завершению создания прототипа модель можно масштабировать, развернув, например, на GPU-серверах с картами RTX 3090.

Заключение

По итогам тестирования новых графических решений семейства GeForce RTX 3000 можно с уверенностью утверждать, что компания NVIDIA блестяще справилась с задачей выпуска доступных видеокарт с тензорными ядрами, достаточно производительными для быстрых ИИ-вычислений. В некоторых задачах обучения сетей, таких как работа с разреженными сетями (Sparse network), преимущества архитектуры Ampere над поколением RTX20 позволяют добиться ускорения процесса в два раза.

Преимущества использования GPU-серверов с картами GeForce RTX 3090 особенно очевидны в задачах, где обучение моделей связано с повышенными требованиями к объему памяти — при анализе медицинских снимков, современном моделировании компьютерного зрения и везде, где есть необходимость обработки очень крупных изображений — например, при работе с GAN-архитектурами.

В то же время RTX 3080 с ее 10 Гбайт графической памяти вполне подойдет для работы с задачами глубокого машинного обучения, поскольку для изучения основ большинства архитектур вполне достаточно уменьшить размер сетей или использовать на входе изображения меньшего размера, а затем при необходимости масштабировать модель до необходимых параметров на более мощных GPU-серверах.

С учетом того, что память HBM, применяемая в картах класса A100, вряд ли существенно подешевеет в ближайшее время, можно сказать, что карты RTX 3090 / RTX 3080 являются вполне эффективной инвестицией на несколько ближайших лет.

Нидерландский хостинг-провайдер HOSTKEY предлагает широкий ассортимент GPU-серверов в дата-центрах в Нидерландах и в Москве на основе как GPU последнего поколения RTX3080 и RTX3090, так и на основе карт предыдущих поколений RTX2080Ti и GTX1080Ti/1080. Компания предлагает как готовые к работе серверы, так и серверы с индивидуальными конфигурациями, которые идеально отвечают потребностям заказчика. Компания благодарит Эмиля Закирова и Александра Широносова за помощь в проведении тестов.

Постоянный URL: http://servernews.ru/1025021
03.11.2020 [14:01], Владимир Мироненко

AWS предлагает облачные кластеры с 4 тыс. NVIDIA A100

AWS представила новое поколение инстансов EC2 с ускорителями NVIDIA A100, получившее название AWS P4d. Инстансы AWS P4d поддерживаются восемью процессорами A100 с архитектурой Ampere, подключёнными через интерфейс NVLink, которые обеспечат 2,5 петафлопс производительности с плавающей запятой и 320 Гбайт памяти GPU с высокой пропускной способностью на одной машине.

В дополнение к этому новые инстансы P4d также будут иметь 96 vCPU на базе Intel Xeon Scalable поколения Cascade Lake, в общей сложности 1,1 Тбайт системной памяти и NVMe-хранилище ёмкостью 8 Тбайт.

Согласно AWS, новые инстансы первыми сетевоего подключение 400 Гбит/с с использованием адаптера Elastic Fabric (EFA) и поддержкой технологии NVIDIA GPUDirect RDMA, которая позволит разгрузить центральные процессоры серверов виртуализации. Общая пропускная способность сети в 16 раз больше, чем у инстансов P3 последнего поколения с графическими процессорами NVIDIA V100.

Amazon утверждает, что новые инстансы P4d обеспечивают снижение затрат на машинное обучение до 60 % и повышение производительности глубокого обучения более чем в 2,5 раза. Новые инстансы Amazon P4d позволят обучать более крупные и сложные модели, которые сегодня становятся все более и более распространёнными.

Кроме того, Amazon также предоставляет возможность создавать экземпляры P4d с EC2 UltraClusters. EC2 UltraClusters, адаптированные для случаев использования, требующих максимальной вычислительной мощности, могут масштабироваться до 4000 единиц GPU A100, что вдвое больше, чем у любого другого поставщика облачных услуг.

Что касается цен, AWS пока предлагает только одну конфигурацию для инстансов P4d. Конфигурация p4d.24xlarge с 8 GPU NVIDIA A100, 96 vCPU, 400Gb-подключением, NVMe SSD на 8 ТБайт, пропускной способностью EBS-томов 19 Гбит/с и коммутаторов NVSwitch в пределах 600 Гбит/с обойдётся в $32,77 в час. Если вы зарезервируете экземпляр на один или три года, то почасовые затраты снизятся до $19,22 и $11,57 соответственно.

Постоянный URL: http://servernews.ru/1024457
Система Orphus