Материалы по тегу: a100

20.08.2020 [15:56], Владимир Мироненко

ИИ-суперкомпьютер в аренду: в облаке Microsoft Azure появились инстансы ND A100 v4 с NVIDIA Ampere, AMD EPYC и InfiniBand HDR

Облачная платформа Microsoft Azure продолжает внедрять технологии HPC и ИИ. Компания Microsoft анонсировала новую серию виртуальных машин ND A100 v4. Это самые мощные масштабируемые инстансы для обработки данных с использованием искусственного интеллекта, которые объединяют от восьми до тысяч ускорителей NVIDIA на сотнях виртуальных машин.

Старший администратор проекта Ян Финдер (Ian Finder) сообщил в блоге компании, что серия ND A100 v4 начинается с одной виртуальной машины (ВМ) и восьми графических процессоров NVIDIA Ampere A100 с тензорными ядрами. Кластеры на базе ND A100 v4 могут масштабироваться до тысяч графических процессоров с пропускной способностью 1,6 Тбит/с на каждую виртуальную машину.

Каждый ускоритель снабжен собственным выделенным подключением NVIDIA Mellanox HDR InfiniBand 200 Гбит/с. Десятки, сотни или даже тысячи графических процессоров могут работать вместе как часть кластера с InfiniBand-фабрикой. Любая  ИИ-задача, будь то обучение модели с нуля, дообучение с использованием ваших собственных данных или тонкий тюнинг для конкретной нагрузки, будет достигнута намного быстрее с выделенным подключением GPU↔GPU, которое в 16 раз быстрее любого другого решения от других провайдеров публичного облака.

Для серии виртуальных машин ND A100 v4 используется новая платформа AMD EPYC Rome с поддержкой стандарта PCIe Gen 4. Как утверждает Финдер, PCIe 4.0 и шина NVIDIA NVLink третьего поколения позволили более чем вдвое увеличить скорость перемещения данных в системе по сравнению с предыдущим поколением виртуальных машин. Клиенты, которые будут использовать новые возможности A100, такие как тензорные ядра и Multi-instance GPU (MIG), смогут добиться 20-кратного увеличения производительности.

Серия виртуальных машин ND A100 v4 в настоящее время находится на стадии предварительного доступа, после чего появится в портфолио Azure в качестве стандартного предложения. Ранее ускорители A100 появились в Google Cloud, а AWS обещает добавить их в своё облако в скором времени.

Постоянный URL: http://servernews.ru/1018712
30.07.2020 [12:47], Юрий Поздеев

NVIDIA наращивает выручку в серверном сегменте и ставит новые ИИ-рекорды с GPU A100

NVIDIA пользуется растущим спросом на свои графические ускорители на базе Ampere со стороны операторов центров обработки данных, включая Amazon Web Services (AWS), Baidu и Microsoft, при этом доходы от бизнеса центров обработки данных приближаются к доходам от игрового сегмента.

Ранее NVIDIA сообщила о выручке в размере 3,08 млрд долларов за первый финансовый квартал, закончившийся 26 апреля 2020 года, что на 39% больше по сравнению с аналогичным периодом прошлого года, при этом чистая прибыль увеличилась на 133% по сравнению с аналогичным периодом прошлого года, достигнув 917 млн долларов. Доход от игрового бизнеса NVIDIA составил 1,34 млн долларов, увеличившись на 27% по сравнению с прошлым годом, в то время как сегмент дата-центров принес компании 1,14 млн долларов, увеличившись на 80% по сравнению с прошлым годом, впервые превысив отметку в 1 млрд долларов.

Закрепить успех на серверном направлении компании помогут свежие ИИ-тесты MLPerf.org, в которых решения NVIDIA продемонстрировала отличные результаты, установив 16 новых рекордов среди коммерчески доступных систем. Составить конкуренцию на ниве ИИ может Google, которая представила ранние тесты своего тензорного ускорителя TPU 4.0, показавшего очень хорошие результаты в MLPerf 0.7. NVIDIA, тем не менее, продемонстрировала преимущество в восьми тестах:

Для решения DGX SuperPOD (кластер из DGX A100, подключенных через HDR InfiniBand 200 Гбит/с), также были установлены восемь новых рекордов. Прирост производительности обеспечивался не только за счет более мощных ускорителей, но и за счет улучшений в программном обеспечении (CUDA graphs и библиотек CUDA-X), в котором реализована определение повторяющихся вычислений и оптимизация кода.

Анализ результатов отчета MLPerf не самая простая задача. Результаты тестов можно разделить на четыре категории, в зависимости от доступности тестируемых образцов:

  • Доступные в облаке: системы, доступные для аренды в одном из облачных сервисов;
  • Доступные для покупки: образцы, которые клиенты могут свободно приобрести;
  • Системы в предварительном доступе: в дальнейшем эти системы должны быть представлены либо в облаке, либо доступными для покупки;
  • Исследовательские: системы содержат экспериментальные аппаратные или программные компоненты, либо уже доступные компоненты, объединенные в большой кластер.

Набор тестов MLPerf Training измеряет время, необходимое для прохождения одной из восьми моделей машинного обучения для достижения результатов с установленной точностью в таких задачах, как классификация изображений, рекомендации, перевод и игра в Го. Последняя версия MLPerf включает в себя два дополнительных теста и один существенно переработанный:

  • BERT: двунаправленное представление кодировщика от Transformers (Bert), обученного в Википедии — это передовая языковая модель, широко используемая в задачах обработки естественного языка. При вводе текста языковые модели предсказывают родственные слова и используются для построения текста в результатах поиска, ответов на вопросы и автоматического создания текстов;
  • DLRM: модель рекомендаций по глубокому обучению, с использованием набора данных CTR (Criterio AI Lab), представляет широкий спектр коммерческих приложений, типичными примерами являются рекомендации для онлайн-покупок, результаты поиска и рейтинг контента в социальных сетях;
  • Mini-Go: обучение в игре Го, но с использованием полноразмерной доски 19×19, чтобы повысить сложность модели.

Из девяти компаний, представивших результаты в тестах MLPerf, семь использовали графические ускорители NVIDIA, включая поставщиков облачных услуг (Alibababa Cloud, Google Cloud, Tencent Cloud) и производителей серверов (Dell, Fujitsu и Inspur), что показывает, как разнообразна экосистема NVIDIA. Результаты, продемонстрированные NVIDIA в тестах MLPerf, действительно впечатляющие, во многом это стало возможным обновлению ПО и обновленной архитектуре Ampere.

Постоянный URL: http://servernews.ru/1016990
22.07.2020 [17:44], Владимир Мироненко

NVIDIA и Университет Флориды построят самый быстрый в сфере высшего образования ИИ-суперкомпьютер

Университет Флориды и чипмейкер NVIDIA объявили о планах по созданию самого быстрого в мире в сфере высшего образования суперкомпьютера для искусственного интеллекта, обеспечивающего производительность в пределах 700 петафлопс.

Главным источником финансирования данного проекта стали пожертвования со стороны NVIDIA, предоставившей безвозмездно для проекта оборудование, программное обеспечение и услуги по обучению на общую сумму $25 млн, а также выпускника университета и соучредителя NVIDIA Криса Малаховски (Chris Malachowsky), вложившего $25 млн. Университет Флориды направит $20 млн на строительство ЦОД с акцентом на применение ИИ.

Итоговая стоимость проекта составила $70 млн. Реализация проекта позволит Университету Флориды улучшить свой нынешний суперкомпьютер HiPerGator с помощью NVIDIA. Обновлённый суперкомпьютер будет запущен к началу 2021 года.

HiPerGator третьего поколения получит доступ к самому современному программному обеспечению ИИ от NVIDIA и будет использовать 140 систем NVIDIA DGX A100 с 1120 графическими процессорами NVIDIA A100 и интерконнектом Mellanox HDR InfiniBand, обеспечивающим скорость передачи данных на уровне 200 Гбит/с.

Постоянный URL: http://servernews.ru/1016337
08.07.2020 [14:54], Юрий Поздеев

Google запустила новые инстансы с NVIDIA A100

Google стала первым облачным провайдером, предложившим поддержку NVIDIA A100 в своих виртуальных машинах по подписке. В Google Compute Engine (пока в альфа-версии) теперь есть семейство инстансов Accelerator Optimized VM A2, основанное на графических ускорителях NVIDIA A100.

Мы уже писали про ускорители NVIDIA A100, которые обеспечивают производительность обучения и вычислений в 20 раз больше, чем прежние модели, что позволяет значительно ускорить рабочие нагрузки ИИ. Google объявила, что в будущем Google Kubernetes Engine, Cloud AI Platform и другие облачные сервисы тоже получат поддержку NVIDIA A100.

В новых инстансах Alpha Google Compute Engine пользователям доступны до 16 графических ускорителей NVIDIA A100, которые подключены через NVSwitch, таким образом это не PCI-карты, а полноценная архитектура с использованием NVLink. Анонс подобных инстансов от Google был вполне ожидаем, ведь в своей презентации NVIDIA на слайде с системой HGX A100 уже упоминала Google Cloud, поэтому появление виртуальных машин с A100 было делом времени.

Мы ожидаем, что в ближайшее время Amazon и Microsoft сделают аналогичные анонсы. На данный момент у Google доступны следующие инстансы с A100:

Будем следить за анонсами от облачных провайдеров, так как услуга по аренде вычислительных мощностей для ИИ очень востребована, и спрос на подобные решения в ближайшее время будет только расти.

Постоянный URL: http://servernews.ru/1015149
22.06.2020 [16:01], Юрий Поздеев

Представлены серверы с поддержкой нового GPU NVIDIA A100 PCIe

NVIDIA представила A100 в форм-факторе AIC с PCIe, в дополнение к SXM4-версии, которая была представлена в прошлом месяце. Ведущие мировые производители серверов объявили о начале выпуска систем на базе новой NVIDIA A100 в различных конфигурациях для решения самых сложных задач в области ИИ, научных исследований и математических расчетов.

Более 50 производителей серверов на базе NVIDIA A100, включая ASUS, Atos, Cisco, Dell Technologies, Fujitsu, GIGABYTE, HPE, Lenovo и другие выпустят системы на базе A100 уже этим летом, но из-за высокого спроса на графические ускорители, некоторые производители отложат выпуск систем на конец года.

В болшинстве случаев анонс касается поддержки со стороны уже имеющихся популярных платформ, как на базе Intel Xeon, так и на базе AMD EPYC. Впрочем, есть и некоторые любопытные решения. Например, GIGABYTE анонсировала сервер G492, построенный на базе двухпроцессорной конфигурации AMD EPYC с поддержкой PCIe 4.0.

Данный сервер может разместить в себе до 10 NVIDIA A100, при этом для связи GPU между серверами используется GPUDurect RDMA. В остальном это обычный сервер для HPC (если слово «обычный» тут уместно), поддерживающий до 8 Тбайт оперативной памяти, 12 накопителей форм-фактора 3,5" (из них 8 NVMe), три блока питания по 2200 Вт каждый.

Если нужна машина поменьше, то ASUS недавно анонсировала ECS4000A E10 — компактный сервер в форм-факторе 2U, который построен на базе однопроцессорной платформы AMD EPYC 7002. Сервер имеет 11 разъемов PCIe 4.0, однако полноразмерных ускорителей NVIDIA A100 в корпусе можно разместить только четыре. На лицевой панели расположены 8 отсеков под диски 3,5", половину из которых можно использовать под NVMe. 

Не забывают в NVIDIA и про оптимизацию ПО: обновление получили CUDA 11 и более 50 библиотек CUDA-X, NVIDIA Jarvis, NVIDIA Merlin, Rapids и NVIDIA HPC SDK. Использование нового ПО позволит клиентам создавать и ускорять приложения в HPC, науке, медицине, 5G и других отраслях.

Постоянный URL: http://servernews.ru/1013925
22.06.2020 [12:39], Илья Коваль

NVIDIA представила PCIe-версию ускорителя A100

Как и предполагалось, NVIDIA вслед за SXM4-версией ускорителя A100 представила и модификацию с интерфейсом PCIe 4.0 x16. Обе модели используют идентичный набор чипов с одинаковыми характеристикам, однако, помимо отличия в способе подключения, у них есть ещё два существенных отличия.

Первое — сниженный с 400 Вт до 250 Вт показатель TDP. Это прямо влияет на величину устоявшейся скорости работы. Сама NVIDIA указывает, что производительность PCIe-версии составит 90% от SXM4-модификации. На практике разброс может быть и больше. Естественным ограничением в данном случае является сам форм-фактор ускорителя — только классическая двухслотовая FLFH-карта с пассивным охлаждением совместима с современными серверами.

Второе отличие касается поддержки быстрого интерфейса NVLink. В случае PCIe-карты посредством внешнего мостика можно объединить не более двух ускорителей, тогда как для SXM-версии есть возможность масштабирования до 8 ускорителей в рамках одной системы. С одной стороны, NVLink в данном случае практически на порядок быстрее PCIe 4.0. С другой — PCIe-версия наверняка будет заметно дешевле и в этом отношении универсальнее.

Производители серверов уже объявили о поддержке новых ускорителей в своих системах. Как правило, это уже имеющиеся платформы с возможностью установки 4 или 8 (реже 10) карт. Любопытно, что фактически единственным разумным вариантом для плат PCIe 4.0, как и в случае HGX/DGX A100, является использование платформ на базе AMD EPYC 7002.

Постоянный URL: http://servernews.ru/1013927
04.06.2020 [07:57], Юрий Поздеев

IBM Storage ускорит обработку данных благодаря NVIDIA A100

Портфель решений IBM Storage для больших данных и ИИ теперь включает в себя недавно анонсированную модель NVIDIA DGX A100, которая предназначена для ускорения аналитики и задач с использованием ИИ. Компания позиционирует Storage for Data and AI как компонент для трехэтапной обработки информации: Ingest, Transform, Analyse/Train.

В эту архитектуру включены следующие системы:

  • Cloud Object Storage (COS): объектное облачное хранилище данных;
  • Spectrum Discover: ПО для каталогизации и индексации файлов;
  • Spectrum Scale: масштабируемое параллельное файловое хранилище;
  • ESS 3000: all-flash NVMe СХД с установленным ПО Spectrum Scale с 24 отсеками под накопители в форм-факторе 2U;
  • Spectrum LSF (Load Sharing Facility): система управления рабочими нагрузками и планирования заданий на основе политик для высокопроизводительных вычислений.

IBM планирует хранить данные в COS (он будет функционировать как Data Lake), где их будет индексировать с попутным добавлением метаданных Spectrum Discover. LSF управляет процессами машинного обучения, а Spectrum Discover перемещает необходимые данных из COS в ES3000 с помощью Spectrum Scale. Ну а данные с ES3000 отправляются на серверы DGX A100 для обучения ИИ-моделей.

Мы уже писали про новый сервер DGX-A100 от Nvidia на базе ускорителей A100, которые, по заявлениям самой Nvidia, до 20 раз быстрее, чем Tesla V100 прошлого пооколения. Применение такого мощного сервера, без сомнения, ускорит обработку данных и позволит IBM расширить свое влияние на рынке ИИ, HPC и облачных систем.

Постоянный URL: http://servernews.ru/1012589
02.06.2020 [23:16], Игорь Осколков

ИИ для всех: суперкомпьютерное облако Jetstream 2 с AMD EPYC, NVIDIA A100 и виртуализацией

Национальный научный фонд США выделил Университету Индианы грант на реализацию проекта Jetstream 2, распределённой суперкомпьютерной системы для научных исследований, ИИ и масштабного анализа данных, отличительной чертой которой станет дружелюбность к новичкам, не имевших до того большого опыта работы с высокопроизводительными вычислениями (HPC).

Jetstream 2 представляет собой распределённую облачную систему, состоящую из пяти отдельных кластеров суммарной производительностью 8 Пфлопс, расположенных в Индиане, Аризоне, Техасе, Нью-Йорке и на Гавайях. Аппаратная часть представлена процессорами AMD EPYC и ускорителями NVIDIA A100, которые дополняет хранилище ёмкостью 18,5 Пбайт.

Доступ к системе будет осуществляться по облачной модели. Пользователи получат готовый набор из вычислительных ресурсов, ПО и доступа к хранилищу. Собственно говоря, в этом и есть отличие от традиционных HPC-систем: Jetstream 2 максимально использует виртуализацию. В том числе виртуализацию GPU — NVIDA A100 позволяет разделить ресурсы на семь независимых сегментов. Это, как надеются создатели, упростить доступ учёных и исследователей к современным технологии глубокого обучения и искусственного интеллекта. Слоган проекта: «ИИ для всех».

Кроме того, Jetstream 2 сама по себе будет действующей моделью распределённых вычислений, легко расширяемой и реконфигурируемой. Это станет наглядным примером для других институтов и университетов, которые могут объединить свои ресурсы в высокоэффективную и гибкую инфраструктуру.

Jetstream 2 станет наследницей системы Jetstream, запущенной в 2014 году и доступной в рамках проекта XSEDE, которая доказала свою эффективность. Сейчас ресурсы системы используются консорциумом COVID-19 HPC Consortium и направлены на борьбу с коронавирусом.

Постоянный URL: http://servernews.ru/1012490
15.05.2020 [20:57], Алексей Степин

Atos анонсировала первый суперкомпьютер с ускорителями NVIDIA Ampere

Один из крупнейших и наиболее известных в мире производителей суперкомпьютеров, компания Atos, анонсировала первую систему на базе новейшей графической архитектуры NVIDIA Ampere.

Она будет производиться и поставляться под торговой маркой BullSequana. Машина на основе BullSequana X2415 станет первой в Европе, использующей процессоры NVIDIA A100.

Базовая плата NVIDIA HGX A100, версия с четырьмя ускорителями

Базовая плата NVIDIA HGX A100, версия с четырьмя ускорителями

Вчера NVIDIA представила миру наследницу Turing — микроархитектуру Ampere и первый ускоритель на её основе, A100. Его производительность в традиционных режимах с плавающей запятой составляет 19,5 (FP32) и 9,7 (FP64) Тфлопс, вызывают уважение и показатели на тензорных операциях. Как и V100, A100 является, в первую очередь, вычислительным ускорителем, а не графическим процессором.

Если верить анонсу, вычислительные модули BullSequana X2415 будут более чем вдвое превосходить модели предыдущего поколения, но при этом продемонстрируют более высокую энергоэффективность за счёт применения фирменной жидкостной системы охлаждения DLC (Direct Liquid Cooling).

Машинный зал суперкомпьютера JUWELS

Машинный зал суперкомпьютера JUWELS

Основой новых вычислительных узлов станет плата с двумя процессорами AMD EPYC второго поколения, дополненными 32 Гбайт оперативной памяти. Каждая из ускорительных плат Nvidia HGX A100 получит по четыре ускорителя A100, соединённых между собой шиной NVLink 3.0.

Юлихский исследовательский центр, один из крупнейших научных центров Европы, планирует модернизировать с помощью новых модулей Atos уже имеющийся в его распоряжении суперокомпьютер JUWELS, также произведенный BullSequana. Это сделает JUWELS самым мощным суперкомпьютером на европейском континенте — после модернизации его производительность должна превысить 70 Пфлопс. Система будет использована в ряде научных проектов, включая проект еврокомиссии «Human Brain Project», ей также планируют воспользоваться Юлихские лаборатории климатологии и молекулярных систем.

Nvidia A100, версия NVLink

Nvidia A100, версия NVLink

Массовая доступность BullSequana X2415, насколько этот термин вообще может быть применён к суперкомпьютерам, ожидается во втором квартале текущего года.

Постоянный URL: http://servernews.ru/1011065
14.05.2020 [18:52], Рамис Мубаракшин

NVIDIA представила ускорители A100 с архитектурой Ampere и систему DGX A100 на их основе

NVIDIA официально представила новую архитектуру графических процессоров под названием Ampere, которая является наследницей представленной осенью 2018 года архитектуры Turing. Основные изменения коснулись числа ядер — их теперь стало заметно больше. Кроме того, новинки получили больший объём памяти, поддержку bfloat16, возможность разделения ресурсов (MIG) и новые интерфейсы: PCIe 4.0 и NVLink третьего поколения. 

NVIDIA A100 выполнен по 7-нанометровому техпроцессу и содержит в себе 54 млрд транзисторов на площади 826 мм2. По словам NVIDIA, A100 с архитектурой Ampere позволяют обучать нейросети в 40 раз быстрее, чем Tesla V100 с архитектурой Turing. 

Характеристики A100

Характеристики A100

Первой основанной на ней вычислительной системой стала фирменная DGX A100, состоящая из восьми ускорителей NVIDIA A100 с NVSwitch, имеющих суммарную производительность 5 Пфлопс. Стоимость одной системы DGX A100 равна $199 тыс., они уже начали поставляться некоторым клиентам. Известно, что они будут использоваться в Аргоннской национальной лаборатории для поддержания работы искусственного интеллекта, изучающего COVID-19 и ищущего от него лекарство.

Так как некоторые группы исследователей не могут себе позволить покупку системы DGX A100 из-за ее высокой стоимости, их планируют купить поставщики услуг по облачным вычислений и предоставлять удалённый доступ к высоким мощностям. На данный момент известно о 18 провайдерах, готовых к использованию систем и ускорителей на основе архитектуры Ampere, и среди них есть Google, Microsoft и Amazon.

Система NVIDIA DGX A100

Система NVIDIA DGX A100

Помимо системы DGX A100, компания NVIDIA анонсировала ускорители NVIDIA EGX A100, предназначенная для периферийных вычислений. Для сегмента интернета вещей компания предложила плату EGX Jetson Xavier NX размером с банковскую карту.

Постоянный URL: http://servernews.ru/1010946
Система Orphus