Материалы по тегу: кластер

29.12.2020 [12:46], Владимир Мироненко

Lambda Echelon — GPU-кластер под ключ для задач машинного обучения

Компания Lambda разработала GPU-кластер Echelon для ИИ-задач. Он включает в себя вычислительные ресурсы, хранилище, сеть, питание и поддержку, необходимые для решения крупномасштабных задач глубокого обучения.

Echelon использует стоечную архитектуру, которая хорошо масштабируется: от кластера с одной стойкой на 40 графических процессоров до кластера с тысячами графических процессоров в центре обработки данных.

Клиентам Lambda уже знакомы узлы в составе Echelon. Это серверы Lambda Hyperplane и Lambda Blade GPU. Вычислительные узлы Echelon были разработаны с учётом возможности использования InfiniBand HDR 200 Гбит/с или 100 Гбит/с Ethernet. Высокая скорость обмена данными позволяет выполнять широкомасштабное обучение языковых моделей и свёрточных нейронных сетей.

Кластер Echelon, разработанный для крупномасштабного распределённого обучения, может иметь до четырёх различных сетей:

  • 200-Гбит/с фабрики HDR InfiniBand с RDMA для вычислительны узлов и хранилища.
  • Внутрення сеть 100 Гбит/с.
  • Сеть для управления узлами 1 Гбит/с.

Выше показана сетевая топология для кластера с одной стойкой с 40 графическими процессорами NVIDIA A100.

Постоянный URL: http://servernews.ru/1028955
11.12.2020 [16:02], Сергей Карасёв

Мини-кластер Jetson Mate вмещает четыре модуля NVIDIA Jetson Nano или Jetson Xavier NX

Команда Seeed Studio начала приём заказов на любопытную новинку — устройство Jetson Mate, позволяющее создать вычислительный кластер небольшого форм-фактора на основе модулей NVIDIA Jetson Nano или Jetson Xavier NX. Такая система может применяться для решения различных задач, скажем, в области искусственного интеллекта.

В основе Seeed Studio лежит небольшая плата с размерами 110 × 110 мм. Для установки модулей Jetson Nano или Jetson Xavier NX доступны четыре разъёма SO-DIMM.

Изделие оснащено четырьмя портами USB 3.0, одним коннектором USB 2.0 и одним симметричным портом USB Type-C (служит для подачи питания). Кроме того, предусмотрены интерфейс HDMI 2.0 для вывода изображения и сетевой разъём Gigabit Ethernet (RJ45).

Плата с вычислительными модулями Jetson, каждый из которых снабжён радиатором охлаждения, установлена в корпус с вентилятором в верхней части. Этот кулер снабжён многоцветной RGB-подсветкой.

Кластер на базе Jetson Mate может выступать в роли небольшого GPU-сервера. Новинка предлагается по ориентировочной цене 200 долларов США.

Постоянный URL: http://servernews.ru/1027626
21.10.2020 [18:03], Алексей Степин

Turing Pi 2 — мини-кластер на базе Raspberry Pi 4 Compute Module

Проект Raspberry Pi очень популярен, а в последнее время, с появлением в серии достаточно серьёзных процессоров на базе ядер ARM Cortex-A72, всё большую популярность набирает идея кластера из таких плат. Кластер Turing Pi мы описывали ещё в прошлом году, а сейчас анонсирована новая, вторая версия, уже на базе современного варианта «малины».

Изначально Turing Pi представлял собой своеобразную «системную плату», в которую можно было установить до семи модулей Raspberry Pi Compute Module 3/3+. Такой кластер мог питаться от стандартного блока питания ATX и содержал на борту собственный сетевой коммутатор на чипе Realtek.

В некотором смысле Turing Pi 2 можно воспринимать, как шаг назад — новая версия подразумевает использование всего четырёх вычислительных узлов, однако не стоит забывать, что Raspberry Pi 4 Compute Module существенно мощнее. Новинка использует полноценную архитектуру ARM v8 (BCM2711, 4 ядра, 1,5 ГГц) и каждый модуль может нести на борту 8 Гбайт оперативной памяти, что суммарно даёт 32 Гбайт на мини-кластер.

Разработчики называют Turing Pi 2 минимальным «строительным блоком» для инфраструктуры на базе Raspberry Pi. При этом говорится, что первый вычислительный узел может служить хостом для десктопной операционной системы, например, Ubuntu Desktop LTS, а три других — использоваться для компиляции и отладки разрабатываемого под архитектуру ARM серверного программного обеспечения. Впоследствии его можно перенести на другие ARM-платформы, например, AWS Graviton, поскольку Turing Pi 2 имеет аналогичную архитектуру.

Хотя Raspberry Pi Compute Module 4 имеет новый разъём, его по-прежнему можно установить вертикально с помощью переходника Gumstix Raspberry Pi CM4 Uprev, который к тому же может иметь на борту тензорный сопроцессор Google Coral.

В итоге плату для нового кластера удалось уместить в форм-фактор Mini-ITX. На ней имеется два слота mPCIe, два разъёма SATA 3.0, видеовыходы HDMI и MIPI DSI, а также пара портов Gigagit Ethernet. За сеть отвечает набортный коммутатор 2 уровня, что делает Turing Pi 2 аккуратной и законченной системой; к сожалению, скорость сети по-прежнему ограничена 1 Гбит/с. Начало поставок Turing Pi 2 намечено на начало следующего года.

Постоянный URL: http://servernews.ru/1023499
10.09.2020 [20:04], Илья Коваль

AMD EPYC и Radeon Instinct лягут в основу HPC-кластера с рекордной производительностью 3,1 Эфлопс

Но производительность 3,1 Эфлопс будет доступна только для FP32-вычислений, а для «классических» FP64 этот показатель не превысит 274,54 Пфлопс. Но даже с такими цифрами система теоретически могла бы претендовать на второе место в рейтинге TOP500, где сейчас лидирует Fugaku (1,07 Эфлопс FP32, 415,5 Пфлопс FP64), а на второй строчке находится Summit (414 Пфлопс FP32, 148,6 Пфлопс FP64).

Впрочем, данное решения является распределённым кластером с оборудованием, которое находится в Норвегии, Швеции и Канаде. Основой станут GPU-серверы производства Gigabyte на базе процессоров AMD EPYC второго поколения и ускорителей AMD Radeon Instinct. Конкретные характеристики пока не указываются. Представитель Gigabyte отмечает, что благодаря сотрудничеству с AMD сможет разработать, изготовить и поставить большие объёмы продукции в течение нескольких месяцев, а также адаптировать их под нужды Northern Data. Среди задач для этих машин, в частности, указываются рендеринг, машинное обучение и ИИ.

Northern Data, специализирующаяся на создании специализированных HPC-систем, и Gigabyte объявили о заключении стратегического партнёрства летом этого года, которое как раз и подразумевало создание высокопроизводительных решений на базе высокоплотных GPU-серверов. В ведении Northern Data находится самый крупный, по словам компании, дата-центр, ориентированный на HPC-приложения.

Постоянный URL: http://servernews.ru/1020343
26.05.2020 [21:36], Алексей Степин

MyElectronics предлагает 19" шасси для Raspberry Pi

Микрокомпьютер Raspberry Pi изменил мир DIY-проектов, будучи недорогим, но при этом универсальным и достаточно мощным решением. Начиная с модели RPi 2 версии 1.2 эта плата получила процессор ARM v8, достаточно серьёзный для применения не только в любительских проектах.

С этого момента начался рост популярности мини-кластеров на базе Raspberry Pi.

Как оказалось, такие кластеры могут решать достаточно серьёзные задачи, особенно если состоят из Raspberry Pi четвёртого поколения, которое использует процессорные ядра ARM Cortex-A72. Мы рассказывали читателям о Cluster HAT и Turing Pi, предназначенных для организации микро-кластеров из менее мощных Raspberry Pi Zero, но существуют и более серьёзные решения. К таким можно отнести, например, BitScope Cluster Moduleu в серверном корпусе высотой 6U, содержащий до 144 активных узлов Raspberry Pi.

Представлены и более простые и доступные решения. Так, на сайте myelectronics.nl замечены модули для стандартной 19-дюймовой стойки. Такой модуль может содержать от одной до двенадцати плат Raspberry Pi. В варианте на четыре платы все порты, включая HDMI, оказываются выведенными на лицевую панель, что упрощает задачу организации межсоединений и хорошо подходит для таких задач, как установка видеостен.

Версия высотой 2U рассчитана уже на 12 плат Raspberry Pi, что даёт в сумме 48 ядер Cortex-A72 с частотой 1,5 ГГц и до 48 Гбайт оперативной памяти: достаточно мощное решение для задач, хорошо распараллеливаемых, но не требующих быстрого интерконнекта — в этом отношении даже последняя «малина» ограничена скоростью 1 Гбит/с. Эта версия требует хорошего охлаждения. Есть также гибридный вариант, позволяющий устанавливать одну плату Raspberry Pi и два модуля Intel NUC. Стоимость модулей MyElectronics варьируется от 39 до 199 евро.

Энтузиасты, не желающие тратить несколько десятков евро за металлическое крепление, предлагают свои варианты организации «малиновых» кластеров, требующие лишь наличия любого подходящего 3D-принтера.

Постоянный URL: http://servernews.ru/1011912
30.04.2020 [18:03], Алексей Степин

Тайная жизнь ЦОД Google: будут ли Борги ассимилированы Kubernetes?

Такие технологии, как контейнеризация, виртуализация и оркестрация не всегда были массовыми — владельцы сверхкрупных ЦОД активно использовали собственные решения для более эффективного использования ресурсов. Среди таковых числится и Google, которая уже очень давно развивает систему менеджемента кластеров Borg, названную в честь расы киборгов-ассимиляторов из популярной вымышленной вселенной Star Trek.

Несмотря на то, что многие идеи для Kubernetes были позаимствованы из Borg, такие кластеры продолжают работать и сейчас, оставаясь проприетарным решением Google, которая крайне неохотно делится подробностями о них. 

Внутри помещения Борг-кластера: вы будете ассимилированы

Внутри помещения Борг-кластера: вы будете ассимилированы

Впрочем, иногда компания всё же отдаёт исследователям оносительно небольшие, но весьма детальные наборы данных о работе Borg. Впервые на такой поступок Google пошла ещё в 2011 году. Она опубликовала 29-дневную статистику по Борг-кластерам, описывающую каждое запущенное задание, распределение задвч и потребление вычислительных ресурсов. 

На этот раз компания предлагает аналогичную статистику за май 2019 года сразу по восьми кластерам. В неё добавлена информация о нагрузке на центральные процессоры — с точностью до пяти минут. Дамп очень объёмный и содержит 350 Гбайт данных с каждого из кластеров. Это серьёзный прирост — в 2011 году вес статистики для единственного кластера составлял всего около 40 Гбайт.

Эффективность использования ресурсов у Борг-кластеров редко превышает 0,6

КПД Борг-кластеров редко превышает 0,6

Помимо «сырых» данных Google также опубликовала и их анализ, проведённый совместно с учеными из Гарвардского университета, университета Карнеги Мэллон и Сент-Эндрюсского университета. Дополнительно доступен документ, описывающий работу внутренних систем масштабирования, которые Google называет «Автопилотом» (Autopilot).

В нём рассказывается о том, что размер кластера Google в среднем составляет около 10 тысяч физических серверов, но сообщается также и о том, что система Autopilot далека от идеала.

Схема функционирования Google Autopilot

Схема функционирования Google Autopilot

Она редко нагружает подсистемы памяти кластера более чем на 50%, а, к примеру, аналогичные кластеры Alibaba могут утилизировать память существенно эффективнее, на 80%. В последнее время Борг-кластеры получили ряд усовершенствований именно в области распределения ресурсов, но всё равно эффективность использования процессорных ресурсов и памяти редко превышает 60%.

Получить доступ к статистике и документации Google по Борг-кластерам можно на GitHub. Что касается ассимиляции, то как скоро Kubernetes и другие открытые и универсальные технологии вытеснят борг-подобный подход, сказать трудно, но год от года популярность таких технологий явно растёт.

Постоянный URL: http://servernews.ru/1009786
26.02.2020 [16:54], Андрей Галадей

Bright Cluster Manager for Data Science стала бесплатной

Компания Bright Computing объявила о том, что программное обеспечение Bright Cluster Manager for Data Science теперь доступно бесплатно в рамках программы Easy8. В рамках этой программы уже предлагалось полнофункциональное бесплатное программное обеспечение для 8 узлов, которое автоматизирует процесс создания и управления гетерогенными кластерами Linux.

Утверждается, что Bright Cluster Manager for Data Science предоставляет всё необходимое для быстрого создания полноценной среды машинного обучения. В числе библиотек есть популярные фреймворки, такие как NVIDIA cuDNN, CUB, CUDA, TensorRT, Dynet, Fastai, JupyterHub, NCCL2, MXNet, pyTorch и другие. Система заявлена как масштабируемая, она работает в связке с многопользовательским сервером JupyterHub. Также говорится о поддержке NVIDIA GPU Cloud (NGC), что упрощает использование контейнеров для систем машинного обучения. 

Всё это, как утверждается, позволит упростить работу по управлению кластерами и вычислительной инфраструктурой в целом. Ведь спрос на кластерные системы растёт, а значит такие приложения будут востребованы.

Постоянный URL: http://servernews.ru/1004613
20.09.2019 [08:48], Андрей Созинов

Huawei Atlas 900: самый производительный кластер для машинного обучения

Компания Huawei анонсировала самый производительный в мире кластер для обучения нейронных сетей, который называется Atlas 900. Как заявляет сама компания, данная высокопроизводительная платформа поможет «сделать ИИ доступнее для широкого спектра научных исследований и инновационных бизнес-решений».

В основе кластера Atlas 900 лежат процессоры Ascend 910, которые и были разработаны специально для решения задач, связанных с ИИ. Точное количество чипов в системе не уточняется, но отмечается что их там «тысячи».

Остальные характеристики кластера Huawei также предпочла оставить в тайне.

Однако китайская компания с гордостью заявила, что на обучение нейросети ResNet-50, которая является чуть ли не золотым стандартом для измерения производительности в машинном обучении, кластеру Atlas 900 при использовании 1024 процессоров Ascend 910 понадобилось всего 59,8 секунды. Это на 10 секунд меньше предыдущего мирового рекорда.

По словам Huawei, высокопроизводительная система Atlas 900 может быть задействована для решения задач в самых разных сферах: от астрономии, прогнозирования погоды и автономного вождения до разведки нефтяных месторождений.

Компания также обеспечила доступ к Atlas 900 посредством собственного облачного сервиса Huawei Cloud, тем самым обеспечив своим клиентам из различных отраслей простой способ использовать вычислительные мощности новой системы. Также заметим, что Huawei предлагает доступ университетам и научно-исследовательским организациям по всему миру с большой скидкой.

Постоянный URL: http://servernews.ru/994349
30.08.2019 [10:20], Андрей Созинов

~200 Raspberry Pi 4 могут заменить ARM-сервер с ThunderX2. Но это будет вдвое дороже

Сколько необходимо одноплатных компьютеров, чтобы построить кластер, сопоставимый по вычислительной мощности с актуальными ARM-серверами? От 190 до 220.

Это выяснили сотрудники ресурса ServeTheHome, а заодно посчитали, есть ли вообще в этом смысл с точки зрения финансовых затрат. Занятие само по себе странное, но любопытное. 

В качестве эталонной системы был выбран сервер Gigabyte с двумя CPU Marvell (Cavium) ThunderX2, каждый из которых имеет 32 ядра с архитектурой ARM v8 и способен обрабатывать 128 потоков, что в в сумме даёт 256 потоков. В свою очередь Raspberry Pi 4 имеет четырёхъядерный процессор ARM v8. Казалось бы, чтобы обеспечить производительность как у сервера на ThunderX2, необходимо взять лишь 64 микрокомпьютера.

Однако нельзя забывать о тактовой частоте, которая у ThunderX2 ощутимо выше (2,2 ГГц против 1,5 ГГц у Raspberry Pi 4), и прочих факторах, влияющих на производительность. Как показало тестирование в GeekBench, компьютер Raspberry Pi 4 всего лишь на 14 % опережает однопоточную виртуальную машину на ThunderX2. Соответственно, для обеспечения производительности на уровне сервера с двумя ThunderX2 необходимо примерно 220 компьютеров Raspberry Pi 4.

Тем не менее, экспериментаторы ServeTheHome решили, что оптимальнее будет использовать 190 компьютеров Raspberry Pi 4 в версии с 4 Гбайт оперативной памяти. Это обеспечит почти такой же объём RAM как и у сервера: 760 и 768 Гбайт соответственно. К тому же их удобнее подключить к восьми 24-портовым PoE-коммутаторам (или к четырём 48-портовым).

Наконец, о ценах. Сервер Gigabyte на двух ThunderX2, дополненный четырьмя 10-Тбайт жёсткими дисками и 100-гигабитным сетевым адаптером обойдётся примерно в $11 500. В свою очередь один Raspberry Pi 4 со всем необходимым оборудованием для включения в кластер обходится в $111,86.

То есть 190 систем будут стоить $21 254, а кластер из 220 систем обойдётся и вовсе в $24 609. Получается, система на базе огромного числа Raspberry Pi 4 обойдётся примерно вдвое дороже, чем сопоставимый по производительности ARM-сервер.

Постоянный URL: http://servernews.ru/993251
10.07.2019 [17:36], Сергей Карасёв

Cluster HAT и Turing Pi: вычислительные кластеры на базе Raspberry Pi

Представлены решения Cluster HAT и Turing Pi, позволяющие формировать вычислительные кластеры с применением одноплатных компьютеров и модулей Raspberry Pi.

Cluster HAT (Hardware Attached on Top) — это небольшая плата, которая подключается к компьютеру Raspberry Pi A+/B+/2/3/4 посредством интерфейса USB. К самой плате могут быть подключены четыре модуля Raspberry Zero 1.2, Raspberry Pi Zero 1.3 или Raspberry Pi Zero W.

Решение Cluster HAT может применяться для тестирования небольших кластерных систем. Кроме того, новинка может использоваться в обучающих целях. Цена — приблизительно 50 долларов США.

Что касается решения Turing Pi, то оно представляет собой плату для установки семи модулей Raspberry Pi Compute Module 3/3+. Габариты изделия составляют 170 × 170 мм.

Плата Turing Pi располагает семью слотами для карт microSD, восемью USB-портами, интерфейсом HDMI, стандартным 3,5-миллиметровым аудиоразъёмом, а также портом Gigabit Ethernet.

Приобрести решение Turing Pi можно будет по ориентировочной цене 130 долларов США. 

Постоянный URL: http://servernews.ru/990529
Система Orphus