Материалы по тегу: a100

23.03.2021 [17:32], Сергей Карасёв

В основу самого мощного суперкомпьютера Швеции лягут ускорители NVIDIA

Швеция в скором времени введёт в строй свой самый мощный вычислительный комплекс: системе высокопроизводительных вычислений предстоит решать широкий спектр научных и прикладных задач. Ожидается, что суперкомпьютер войдёт в число первых 50 систем из списка TOP500.

Проект получил название BerzeLiUs — в честь Йёнса Якоба Берцелиуса, шведского химика и минералога. Он открыл ряд элементов, развил электрохимическую теорию, а также предложил термины аллотропия, изомерия, катализ и др.

Вычислительный комплекс BerzeLiUs расположится в Линчёпингском университете. Расчётная производительность — 300 Пфлопс, что в два раза больше по сравнению с нынешним самым мощным суперкомпьютером Швеции.

В основу суперкомпьютера положены 60 узлов NVIDIA DGX A100. Это универсальная система для решения задач, связанных с искусственным интеллектом. В состав DGX A100 входят ускорители NVIDIA A100, а быстродействие каждой такой системы составляет 5 Пфлопс.

Обмен данными осуществляется через сеть NVIDIA Mellanox InfiniBand HDR с пропускной способностью до 200 Гбит/с. В состав комплекса входят четыре сервера хранения данных DataDirect Networks, которые суммарно предоставляют 1,5 Пбайт флеш-памяти.

Использовать BerzeLiUs планируется для реализации проектов в сферах Интернета вещей, беспроводной связи, кибербезопасности и пр.

Постоянный URL: http://servernews.ru/1035568
19.03.2021 [00:59], Игорь Осколков

В Google Cloud появились самые быстрые GPU-инстансы с 16-ю ускорителями NVIDIA A100

Облачный провайдер Google Cloud объявил о доступности семейства инстансов A2, которое было анонсировано ещё летом прошлого года. A2 может включать от 1-го до целых 16-ти ускорителей NVIDIA A100. По словам Google, на текущий момент никакой другой крупный облачный провайдер не может предложить подобную конфигурацию узлов.

Можно выбрать варианты с 1, 2, 4, 8 или 16-ю ускорителями. Самой младшей версии a2-highgpu-1g полагается 12 vCPU, 85 Гбайт RAM и сетевое подключение 24 Гбит/с. Старшей a2-megagpu-16g  — 96 vCPU, 1,36 Тбайт RAM и 100 Гбит/с соответственно. Для всех систем доступно локальное SSD-хранилище ёмкостью до 3 Тбайт. Google не приводит полные характеристики аппаратной платформы, лежащей в основе A2, говоря лишь об использовании Intel Xeon Cascade Lake и том, что все 16 ускорителей объединены шиной NVLink.

Не уточняется и, какая именно версия A100 используется, но, вероятно, это всё же 40-Гбайт модификация, а не более свежая 80-Гбайт. В любом случае решение Google заметно отличается от DGX A100 на базе AMD EPYC Rome и восьми GPU, и от обычных решений HGX A100, в рамках которых предлагаются платы с четырьмя или восемью SXM-ускорителями, объединёнными NVLink-подключением.

Семейство A2 ориентировано на машинное обучение (тренировка и инференс), анализ данных и HPC-нагрузки. Имеется поддержка NVIDIA NGC для быстрого развёртывания ПО. А наиболее требовательным заказчикам Google Cloud может предоставить кластеры для распределённой тренировки, насчитывающие тысячи ускорителей.

На данный момент новые инстансы доступны в Айове, США (us-central1), Нидерландах (Europe-west4) и Сингапуре (asia-southeast1). Стоимость аренды начинается от $3,67/час для a2-highgpu-1g до $55,74/час для a2-megagpu-16g.

Постоянный URL: http://servernews.ru/1035236
16.03.2021 [23:27], Илья Коваль

Dell открывает серию серверов с AMD EPYC 7003 мощной моделью PowerEdge XE8545

Продолжаем рассказ о продуктах на базе новейших процессоров AMD EPYC 7003, анонс которых состоялся вчера. Вместе с анонсом партнёры компании представили и свои решения на базе этих CPU. Среди них есть как платформы для EPYC 7002, которым для работы с новинками требуется только обновление прошивки, так и новые платформы. К последнем относится и Dell Technologies PowerEdge XE8545, мощный сервер для ИИ и анализа данных.

В серию EX включены не совсем стандартные решения для особых задач. Сейчас в неё входят edge-система PowerEdge XE2420 и сервер XE7100 с высокой плотностью хранения данных. Новый же PowerEdge XE8545 предназначен для ИИ, машинного обучения, анализа данных и других HPC-нагрузок.

Аппаратную основу системы образуют два 64-ядерных процессора AMD EPYC Milan и четыре SXM4-ускорителя NVIDIA A100. Dell отмечает, что это одна из первых платформ, использующих новый вариант HGX-платы (Redstone 2) с 80-Гбайт A100. Для хранения данных используются NVMe-накопители с поддержкой PCIe 4.0.

PowerEdge XE8545 имеет стандартную глубину и высоту 4U, что объясняется использованием системы исключительно воздушного охлаждения, которой нужно справиться с отводом более 2 кВт тепла от двух 280-Вт CPU и четырёх ускорителей c TDP 400-500 Вт. Тем не менее, по мнению Dell, отсутствие СЖО упрощает интеграцию системы в уже имеющуюся инфраструктуру.

Постоянный URL: http://servernews.ru/1035023
15.12.2020 [01:43], Владимир Мироненко

NEC построит гибридный суперкомпьютер SQUID c Intel Xeon Ice Lake, NVIDIA A100, векторными ускорителями SX-Aurora TSUBASA и доступом в облака

Центр Cybermedia Университета Осаки и NEC Corporation объявили о планах представить новую суперкомпьютерную систему для высокопроизводительных вычислений (HPC) и высокопроизводительного анализа данных (HPDA) от NEC. Она заменит существующую систему, тоже поставленную NEC. Согласно графику, новая система начнёт работать в мае 2021 года. Она войдёт в инфраструктура нового поколения для открытых исследований и инноваций Университета Осаки (ONION).

Новая суперкомпьютерная система SQUID (Supercomputer for Quest for Unsolved Interdisciplinary Datascience) будет состоять из 1520 CPU-узлов на базе Intel Xeon Scalable 3-го поколения (Ice Lake), а также 42 GPU-узлов с восемью NVIDIA A100 и 36 «векторных» узлов, каждый из которых оснащён восемью ускорителями NEC SX-Aurora TSUBASA, обеспечивающими более быстрое и высокоэффективное моделирование погодных, сейсмических, гидравлических и других явлений. Эта гибридная суперкомпьютерная система способна обеспечить теоретическую производительность более 16 Пфлопс.

Для хранения данных будет использоваться решение DDN EXAScaler ёмкостью 20 Пбайт с 1,2-Пбайт хранилищем для высокоскоростной обработки данных. Для доступа также будет использовано ПО Cloudian Object-Storage HyperStore. А NVIDIA Mellanox HDR InfiniBand обеспечиет высокую скорость, низкую задержку и интеллектуальную связь между всеми узлами и СХД.

Новая суперкомпьютерная система позволяет исследователям динамически развёртывать и использовать программный стек по своему выбору. Кроме того, она обеспечит безопасную вычислительную среду, в которой пользователи могут с уверенностью использовать конфиденциальные данные. Например, чувствительные данные в хранилище университетского городка могут быть обработаны и проанализированы вычислительными узлами суперкомпьютера без перемещения данных из хранилища.

Безопасная вычислительная среда также предлагает функцию безопасного разделения, которая динамически отделяет и изолирует сеть для определенной группы пользователей и, таким образом, предоставляет услуги, которые не позволяют другим пользователям видеть данные и вычисления. Эти возможности будут востребованы, в частности, в медицинской сфере.

Наконец, новая суперкомпьютерная система будет интегрирована с облачными сервисами Oracle Cloud Infrastructure и Microsoft Azure. Динамический перенос части рабочих процессов в облако при высокой загруженности суперкомпьютера позволяет быстро реагировать на растущий спрос на вычислительные ресурсы, обеспечивая при этом те же возможности, что и локальная вычислительная среда. Это также обеспечит гибкость за счёт использования более современных вычислительных ресурсов, которые продолжают обновляться в облачных сервисах.

Постоянный URL: http://servernews.ru/1027830
14.12.2020 [16:34], Сергей Карасёв

AMD-суперкомпьютер Hawk получит 192 NVIDIA A100 для ускорения ИИ-вычислений

Штутгартский Центр высокопроизводительных вычислений (HLRS), одна из крупнейших европейских суперкомпьютерных площадок, нарастит мощности комплекса Hawk с целью ускорения задач, связанных с искусственным интеллектом (ИИ).

На текущий момент Hawk является одним из самых мощных суперкомпьютеров в мире. В его основу положены узлы Apollo производства Hewlett Packard Enterprise. Задействованы процессоры AMD EPYC 7742, а также интерконнект Mellanox HDR Infiniband. В ноябрьском рейтинге Top500 система Hawk занимает шестнадцатое место с производительностью приблизительно 19,33 Пфлопс и пиковым быстродействием на уровне 25,16 Пфлопс.

На фоне растущих потребностей в вычислениях, связанных с машинным обучением и искусственным интеллектом, HLRS принял решение модернизировать Hawk путём добавления 192 акселераторов NVIDIA A100 с архитектурой Ampere.

Предполагается, что обновлённая суперкомпьютерная система поможет в решении сложных задач, связанных с распространением коронавирусной инфекции, разработкой транспортных средств будущего и пр.

Постоянный URL: http://servernews.ru/1027790
03.12.2020 [15:31], Сергей Карасёв

GIGABYTE выпустила сервер G492-ZD0 на базе NVIDIA HGX A100 для ИИ и HPC

Компания GIGABYTE Technology официально представила сервер G492-ZD0 на базе платформы NVIDIA HGX A100 8-GPU. Новинка предназначена для формирования систем высокопроизводительных вычислений (HPC), а также комплексов для аналитики больших данных и поддержания работы приложений искусственного интеллекта (ИИ).

Сервер выполнен в формате 4‎U на материнской плате MZ52-G40. Допускается установка двух процессоров AMD EPYC 7002, каждый из которых может содержать до 64 вычислительных ядер (до 128 потоков инструкций).

Для модулей оперативной памяти DDR4-3200/2933 доступны 32 слота: суммарный объём ОЗУ может достигать 8 Тбайт. Доступны отсеки для восьми 2,5-дюймовых накопителей U.2 NVMe/SATA с возможностью «горячей» замены.

Новинка располагает восемью разъёмами SXM4 для GPU NVIDIA A100. Кроме того, есть восемь слотов для низкопрофильных карт расширения PCIe 4.0 x16.

Сервер оснащён двумя сетевыми портами 10GbE и дополнительным портом управления 1GbE. Подсистема питания объединяет четыре блока с сертификацией 80 PLUS Platinum мощностью 3000 Вт.

Постоянный URL: http://servernews.ru/1026945
19.11.2020 [11:56], Владимир Мироненко

SC20: Microsoft Azure анонсировала публичную превью-версию инстансов ND A100 v4

Команда Microsoft Azure анонсировала на конференции SC20 публичную превью-версию семейства виртуальных машин ND A100 v4, из которых можно сформировать суперкомпьютера мирового класса.

Как утверждает Azure, каждое развертывание кластера ND A100 v4 соперничает с крупнейшими в отрасли ИИ-суперкомпьютерами с точки зрения масштабирования и передовых технологий.

Каждая отдельная виртуальная машина имеет:

  • Восемь новейших графических процессоров NVIDIA A100 с тензорным ядром и 40 Гбайт памяти HBM2, предлагающих повышение производительности каждого графического процессора в 1,7–3,2 раза по сравнению с графическими процессорами V100 или до 20 раз за счёт многоуровневых функций, таких, как новые режимы смешанной точности, функция разреженности и NVIDIA Multi-Instance GPU (MIG), для обеспечения значительно более низкой общей стоимости обучения с улучшенным временем на выполнение решения.
  • Интерконнект на уровне виртуальных машин на основе NVLINK 3.0 + NVswitch.
  • Один 200-Гбит канал InfiniBand HDR на каждый графический процессор с полной поддержкой NCCL2 и GPUDirect RDMA с суммарной пропускной способностью 1,6 Тбит/с на виртуальную машину.
  • Внешнюю сеть Azure со скоростью 40 Гбит/с.
  • 6,4 Тбайт локального хранилища NVMe.
  • Опцию объединения тысяч графических процессоров в InfiniBand-фабрику, с возможностью их взаимодействия без необходимости планирования с учетом топологии
  • 96 vCPU AMD Rome с 900 Гбайт оперативной памяти DDR4.
  • Поддержку стандарта PCIe Gen 4 для максимально быстрого соединения между графическим процессором, сетью и центральным процессором — производительность ввода-вывода до двух раз выше, чем у платформ на базе PCIe Gen 3.

Как и другие виртуальные машины с графическим процессором, Azure ND A100 v4 также доступен со службой машинного обучения Azure (AML) для интерактивной разработки ИИ, распределённого обучения, пакетного вывода и автоматизации с помощью ML Ops. Клиенты смогут выбрать развертывание с помощью AML или традиционных масштабируемых наборов виртуальных машин, а вскоре и многих других вариантов развертывания на базе Azure, таких как служба Azure Kubernetes Service. При этом оптимизированная конфигурация систем и серверной сети InfiniBand выполняется автоматически.

Azure предоставляет настроенную виртуальную машину (с предварительно установленными необходимыми драйверами и библиотеками) и среды на основе контейнеров, оптимизированные для семейства ND A100 v4. Примеры готовых наборов параметров и блокноты Jupyter помогают пользователям быстро приступить к работе с несколькими фреймворками, включая PyTorch, TensorFlow, а также с современными моделями обучения, такими как BERT. Отправить запрос на доступ к новым инстансам можно по этой ссылке.

Постоянный URL: http://servernews.ru/1025768
16.11.2020 [17:00], Игорь Осколков

SC20: NVIDIA представила ускоритель A100 с 80 Гбайт HBM2e и настольный «суперкомпьютер» DGX STATION

NVIDIA представила новую версию ускорителя A100 с увеличенным вдвое объёмом HBM2e-памяти: 80 Гбайт вместо 40 Гбайт у исходной A100, представленной полгода назад. Вместе с ростом объёма выросла и пропускная способность — с 1,555 Тбайт/с до 2 Тбайт/с.

В остальном характеристики обоих ускорителей совпадают, даже уровень энергопотребления сохранился на уровне 400 Вт. Тем не менее, объём и скорость работы быстрой набортной памяти влияет на производительность ряда приложений, так что им такой апгрейд только на пользу. К тому же MIG-инстансы теперь могут иметь объём до 10 Гбайт. PCIe-варианта ускорителя с удвоенной памятью нет — речь идёт только об SXM3-версии, которая используется в собственных комплексах NVIDIA DGX и HGX-платформах для партнёров.

NVIDIA A100 80 Гбайт

NVIDIA A100 80 Гбайт

Последним ориентировочно в первом квартале следующего года будут предоставлены наборы для добавления новых A100 в существующие решения, включая варианты плат на 4 и 8 ускорителей. У самой NVIDIA обновлению подверглись, соответственно, DGX A100 POD и SuperPOD for Enterprise. Недавно анонсированные суперкомпьютеры Cambridge-1 и HiPerGator на базе SuperPOD одними из первых получат новые ускорители с 80 Гбайт памяти. Ожидается, что HGX-решения на базе новой A100 будут доступны от партнёров компании — Atos, Dell Technologies, Fujitsu, GIGABYTE, Hewlett Packard Enterprise, Inspur, Lenovo, Quanta и Supermicro — в первой половине 2021 года.

Но, пожалуй, самый интересный анонс касается новой рабочей станции NVIDIA DGX STATION A100, которую как раз и можно назвать настольным «суперкомпьютером». В ней используются четыре SXM3-ускорителя A100 с не требующей обслуживания жидкостной системой охлаждения и полноценным NVLink-подключением. Будут доступны две версии, со 160 или 320 Гбайт памяти с 40- и 80-Гбайт A100 соответственно. Базируется система на 64-ядерном процессоре AMD EPYC, который можно дополнить 512 Гбайт RAM.

Для ОС доступен 1,92-Тбайт NVMe M.2 SSD, а для хранения данных — до 7,68 Тбайт NVMe U.2 SSD. Сетевое подключение представлено двумя 10GbE-портами и выделенным портом управления. Видеовыходов четыре, все mini Display Port. DGX STATION A100 отлично подходит для малых рабочих групп и предприятий. В том числе благодаря тому, что функция MIG позволяет эффективно разделить ресурсы станции между почти тремя десятками пользователей. В продаже она появится у партнёров компании в феврале следующего года.

Вероятно, все выпускаемые сейчас A100 c увеличенным объёмом памяти идут на более важные проекты. Новинкам предстоит конкурировать с первым ускорителем на базе новой архитектуры CDNA — AMD Instinct MI100.

Постоянный URL: http://servernews.ru/1025432
03.11.2020 [14:01], Владимир Мироненко

AWS предлагает облачные кластеры с 4 тыс. NVIDIA A100

AWS представила новое поколение инстансов EC2 с ускорителями NVIDIA A100, получившее название AWS P4d. Инстансы AWS P4d поддерживаются восемью процессорами A100 с архитектурой Ampere, подключёнными через интерфейс NVLink, которые обеспечат 2,5 петафлопс производительности с плавающей запятой и 320 Гбайт памяти GPU с высокой пропускной способностью на одной машине.

В дополнение к этому новые инстансы P4d также будут иметь 96 vCPU на базе Intel Xeon Scalable поколения Cascade Lake, в общей сложности 1,1 Тбайт системной памяти и NVMe-хранилище ёмкостью 8 Тбайт.

Согласно AWS, новые инстансы первыми сетевоего подключение 400 Гбит/с с использованием адаптера Elastic Fabric (EFA) и поддержкой технологии NVIDIA GPUDirect RDMA, которая позволит разгрузить центральные процессоры серверов виртуализации. Общая пропускная способность сети в 16 раз больше, чем у инстансов P3 последнего поколения с графическими процессорами NVIDIA V100.

Amazon утверждает, что новые инстансы P4d обеспечивают снижение затрат на машинное обучение до 60 % и повышение производительности глубокого обучения более чем в 2,5 раза. Новые инстансы Amazon P4d позволят обучать более крупные и сложные модели, которые сегодня становятся все более и более распространёнными.

Кроме того, Amazon также предоставляет возможность создавать экземпляры P4d с EC2 UltraClusters. EC2 UltraClusters, адаптированные для случаев использования, требующих максимальной вычислительной мощности, могут масштабироваться до 4000 единиц GPU A100, что вдвое больше, чем у любого другого поставщика облачных услуг.

Что касается цен, AWS пока предлагает только одну конфигурацию для инстансов P4d. Конфигурация p4d.24xlarge с 8 GPU NVIDIA A100, 96 vCPU, 400Gb-подключением, NVMe SSD на 8 ТБайт, пропускной способностью EBS-томов 19 Гбит/с и коммутаторов NVSwitch в пределах 600 Гбит/с обойдётся в $32,77 в час. Если вы зарезервируете экземпляр на один или три года, то почасовые затраты снизятся до $19,22 и $11,57 соответственно.

Постоянный URL: http://servernews.ru/1024457
05.10.2020 [19:34], Юрий Поздеев

NVIDIA DGX SuperPOD for Enterprise: суперкомпьютер «под ключ»

NVIDIA анонсировала инфраструктуру искусственного интеллекта «под ключ» NVIDIA DGX SuperPOD для корпоративных заказчиков. Решение представляет собой кластер от 20 до 140 узлов NVIDIA DGX A100, соединенных между собой NVIDIA Mellanox HDR InfiniBand. Производительность решения впечатляет — от 100 до 700 Пфлопс.

Новое решение от NVIDIA интересно прежде всего быстротой развертывания и простотой установки: не нужно проектировать систему и вспомогательную инфраструктуру, система сразу готова к использованию. NVIDIA обещает сроки поставок от нескольких недель, что очень быстро по меркам подобных решений.

Решения на базе NVIDIA DGX очень популярны и до конца 2020 года будут поставлены в следующие проекты:

  • NAVER: ведущая поисковая система в Корее, вместе с японской LINE создала бренд технологий ИИ NAVER CLOVA. В систему войдут 140 узлов DGX A100, которые будут использоваться для исследования и разработки моделей естественного разговорного языка для голосовых служб;
  • Университет Линчепинга в Швеции: проект BerzeLiUs, который будет состоять из 60 DGX A100. BerzeLiUs планируется использовать для исследований ИИ, в рамках сотрудничества университета и промышленности, которые финансируются Фондом Кнута и Алисы Валленберг;
  • C-DAC: Центр развития передовых вычислений при Министерстве электроники и информационных технологий Индии, в проекте которого будет использоваться кластер из 42 NVIDIA DGX A100. Система поможет решать общенациональные проблемы в области здравоохранения, образования, энергетики, кибербезопасности, космоса, автомобилестроения и сельского хозяйства;
  • Cambridge-1: 80-узловой DGX SuperPOD с производительностью 400 Пфлопс, который будет развернут в Кембридже. Система будет использоваться для совместных исследований в области ИИ, медицине, промышленности и стартапах.

Самый мощный на текущий момент кластер из 280 NVIDIA DGX A100 носит имя NVIDIA Selene и уже отметился в рейтинге TOP500, получив высшие оценки еще в одном рейтинге MLPerf.

Постоянный URL: http://servernews.ru/1022231
Система Orphus