Материалы по тегу: power9
21.06.2019 [17:10], Сергей Карасёв
IBM ускорит адаптацию гибридного облакаКорпорация IBM объявила о том, что серверы IBM Power Systems Virtual Servers на основе многопоточных процессоров POWER9 теперь доступны в рамках облачной платформы IBM Cloud. ![]() Новая инициатива призвана ускорить адаптацию гибридного облака. Данная концепция предусматривает сочетание публичной и частной IT-инфраструктур. Гибридное облако может быть востребовано в тех случаях, когда экспортировать все функции в публичное облако бессмысленно или невозможно по причинам быстродействия или защиты данных. Серверы IBM Power Systems Virtual Servers предоставляют масштабируемые ресурсы для работы операционных систем AIX и IBM i. При этом клиенты получат в своё распоряжение гибкие средства управления. ![]() Таким образом, новая инициатива должна помощь IBM расширить количество пользователей своей облачной платформы за счёт «классических» корпоративных заказчиков. По оценкам IDC, выручка в сегменте облачных инфраструктур в первом квартале текущего года составила $14,5 млрд. Это приблизительно на 11,4 % больше по сравнению с результатом годичной давности.
17.05.2018 [23:13], Алексей Степин
Raptor представила ещё одну систему на базе POWER9Инфраструктура, связанная с новыми процессорами IBM POWER9 развивается верно, но, к сожалению, довольно медленно. С программной частью дела обстоят неплохо: мы уже рассказывали читателям, что благодаря поддержке режима little-endian архитектурами POWER8 и POWER9 портирование программного обеспечения на новую платформу существенно облегчается. Но с аппаратным обеспечением дела не столь хороши: помимо серверных плат нестандартного формата на рынке была доступна лишь 2S-плата Raptor Talos II. К сожалению, своей ценой — более $2000 — она «компенсировала» сравнительную дешевизну самих процессоров. Напомним, модель Sforza CP9M02 стоит лишь около $600 и это при серьезных характеристиках: 8 ядер, 32 потока, тактовые частоты 3,45/3,80 ГГц, 10 Мбайт кеша L3. ![]() Но Raptor Computing Systems, похоже, осведомлена о проблеме и на днях представила пополнение в семействе Talos. Новая система получила незамысловатое имя Talos II Lite, от старшей версии она отличается использованием новой, более дешёвой платы с одним процессорным разъёмом. Плата действительно существенно проще старшей модели: помимо одного разъёма для ЦП, она имеет всего два слота PCIe 4.0, которые работают в режимах х16 и х8; впрочем, для большинства рабочих станций этого достаточно: главный слот будет занят видеоадаптером, а второй можно использовать для установки RAID-контроллера или сетевого контроллера класса 10/40/50G, в зависимости от нужд пользователя. На борту пара портов Gigabit Ethernet. Однако форм-фактор сохранился, это по-прежнему EATX. ![]() Новая плата — недоукомплектованная версия Talos II Ограничений по памяти мало: 8 слотов DDR4 DIMM обеспечивают поддержку регистровых модулей объёмом 128 Гбайт, а значит, общий объём оперативной памяти может достигать 1 Тбайт. Из прочих особенностей можно назвать поддержку USB 3.0 — два порта у платы находятся на задней планке, а ещё два можно подключить к стандартной внутренней колодке. Есть порт USB 2.0, пара портов RS-232 и даже разъём VGA. Последний обслуживается модулем удалённого управления ASpeed, который использует полностью открытую прошивку OpenBMC. По специальному заказу плата может оснащаться контроллером SAS или экспандером PCI Express. По сути, Talos II Lite представляет собой Talos II с рядом нераспаянных компонентов, включая второй процессорный разъём и часть слотов PCIe (контроллеры PCIe интегрированы в ЦП). ![]() 22-ядерный POWER9 Поддержка процессоров включает в себя все модели IBM Sforza, вплоть до 22-ядерной ($2575 по предзаказу, 18-ядерная версия уже доступна по цене $1375). При должной оптимизации ПО 88 потоков такого чипа представляют собой существенную силу; пока по предварительным тестам POWER9 не может похвастаться первенством, но в будущем всё может измениться. Остальные компоненты системы менее интересны. Это обычный корпус EATX, оснащённый 500-ваттным блоком питания (чего может быть недостаточно при установке мощной профессиональной видеокарты, поскольку даже у 8-ядерного процессора теплопакет составляет 160 ватт). ![]() Комплектный кулер В комплект поставки входит и специальный кулер; к сожалению, участники инициативы OpenPOWER не обеспечили совместимости по крепежу, и любые другие кулеры к Talos II/Talos II Lite не подходят, а существующая модель даже внешне не выглядит способной обеспечивать комфортные акустические характеристики. Заказы на новую систему принимаются уже сейчас, базовое шасси стоит $1399, что существенно дешевле платы Talos II без корпуса и блока питания. Полностью сконфигурированный вариант с 18-ядерным процессором, 64 Гбайт DDR4 и видеокартой Radeon Pro WX7100 обойдётся заказчику в $5369. Различные опции конфигурации доступны на сайте производителя.
24.04.2018 [09:27], Алексей Степин
Экосистема OpenPOWER готова к массовому развёртываниюБуквально на днях мы рассказывали читателям о первых тестах платформы POWER9. Результаты оказались неоднозначными, но это можно списать на отсутствие оптимизации ПО с учётом особенностей и возможностей новых процессоров. Важно другое: лёд тронулся, и инициатива OpenPOWER начинает давать первые плоды на рынке, причём не только в виде серверов и кластерных систем. Хотя последнее тоже очень важно, ведь системами на базе POWER9 заинтересовалась Google, да и суперкомпьютер Summit внушает уважение своими параметрами. Крис Салливан (Chris Sullivan), заместитель директора отдела биовычислений (Center for Genome Research and Biocomputing, CRGB) университета штата Орегон, считает портирование приложений на платформу POWER9 достаточно лёгкой задачей — за один‒два месяца удалось пересобрать около 2000 приложений, тогда как количество уже имеющихся программ для x86 составляет около 4000. ![]() Главным признаком того, что экосистема OpenPOWER готова к масштабному развёртыванию, является тот факт, что IBM решила всерьёз поддержать Linux и стандарт little endian, сперва в процессорах POWER8, а затем и в POWER9. Особенно важно последнее, так как порядок записи байтов является фундаментальным: код, созданный на системе, работающей в режиме big-endian (BE, от старшего к младшему), без подготовки в принципе не заработает на платформе, где основополагающим режимом является little-endian (LE, от младшего к старшему). Первый режим традиционно использовался в больших системах IBM и многих других процессорных архитектурах, второй же прочно прижился в среде x86 и по мере роста её популярности завоевал и научно-исследовательский сектор. Но теперь запуск имеющихся приложений, многие из которых не имеют аналогов, стал возможен, поскольку новые системы IBM поддерживают оба режима. На самом деле с приходом POWER8 программное обеспечение «внутри» работает в режиме big-endian (BE), но в LE-приложениях порядок данных меняется автоматически, что прозрачно для операционной системы, приложений, и, разумеется, самого пользователя. Компиляторы, такие как XLC или GCC, могут компилировать код в обычном режиме PPC или же в режиме PPCLE. Всё это облегчает поддержку такой распространённой в научном мире ОС, как Linux. Ещё в ноябре прошлого года Red Hat анонсировала поддержку LE для POWER9 и с тех пор интерес к системам IBM POWER с поддержкой LE стабильно растёт. Это не может не радовать всех, кто связан с инициативой OpenPOWER, а также энтузиастов, уставших от засилья x86. Ведь такой ход со стороны IBM позволит использовать новшества вроде NVLink, OpenCAPI или PCI Express 4.0 в привычном Linux-окружении. Некоторые сложности создаёт оптимизация старого ПО с учётом SSE или SSE2, но в целом проблема решаема, считают представители IBM. Конечной целью является привлечение в ряды сторонников новой платформы крупных пользователей, таких как CGRB (Center for Genome Research and Biocomputing). К примеру, CRGB запускает порядка 20 тысяч задач в день, имеет в своём распоряжении 5000 процессоров, более четырёх петабайт хранилищ данных и генерирует порядка 4‒9 терабайт данных в день.
19.04.2018 [10:00], Алексей Степин
POWER9 против x86: кто кого? Первые тестыОб альтернативных платформах мы, к сожалению, пишем редко, а если и пишем, то речь, как правило, идёт о серверах, суперкомпьютерах и кластерных системах, где процессорные архитектуры, отличные от x86, и не собираются сдавать своих позиций. Но в секторе настольных решений влияние других архитектур, к сожалению, ничтожно, хотя и не равно нулю: разработка серверных приложений под архитектуры SPARC или POWER требует наличия соответствующих рабочих станций. В рамках OpenPOWER платформа POWER9 доступна вообще любому, кто в состоянии позволить себе приобрести комплект Raptor Talos II, состоящий из системной платы форм-фактора EATX, двух процессоров и пары кулеров, причём плата имеет слоты PCI Express версии 4.0 и полностью открытое базовое программное обеспечение. ![]() Пара 8-ядерных процессоров POWER9 До недавних пор никто не публиковал интересной информации относительно этого проекта, но ресурс Phoronix не столь давно выложил целый обзор, посвящённый сравнению Talos II с серверными процессорами Intel Xeon и AMD EPYC. В оригинальном анонсе Talos II комплектовалась двумя четырёхъядерными процессорами, но нашим западным коллегам достались более мощные восьмиядерные чипы POWER9 (CP9M02). С учётом развитой мультипоточности в архитектуре POWER9 (SMT4 против SMT2 у x86) это даёт возможность исполнения 64 потоков на систему. Вопрос лишь в эффективности и оптимизации программного обеспечения. В настоящее время Raptor предлагает даже 22-ядерные процессоры (88 потоков), так что конфигурацию Phoronix можно даже назвать скромной, хотя в ближайшем будущем они и обещали протестировать конфигурацию с двумя такими ЦП (176 потоков на систему). ![]() Системная плата в сборе Максимальная тактовая частота в системе Talos II достигала 3,8 ГГц при базовой 3,45 ГГц, она была оснащена 256 Гбайт оперативной памяти и графической картой AMD Radeon Pro WX 7100. В качестве ОС была установлена тестовая версия Debian Linux с ядром версии 4.16 PPC64LE. Основным компилятором стал GCC 7.3, поставляемый с ОС, файловая система на дисках во всех случаях — Ext4. В качестве соперников выступили следующие системы:
Накопители во всех случаях были разными: от обычного жёсткого диска WD ёмкостью 500 Гбайт у Talos II до Intel 900p Optane у AMD EPYC 7601. ![]() ![]() Симуляция поведения жидкостей: зависимость от конкретного теста. Второе место в Stencil поражает: 16 ядер против 40! Результаты тестов оказались несколько разочаровывающими для энтузиастов платформы POWER9, но не стоит забывать, что развитая мультипоточность не заменяет физических ядер, а по их количеству Talos II была самой младшей среди участников тестирования: всего 16 ядер против 40 или 32 у Intel или AMD соответственно. Но в некоторых отдельных дисциплинах теста Paraboli v2.5 (обсчёт поведения жидкостей) платформе всё равно удалось занять второе место, уступив лишь монстру на базе Xeon Gold. ![]() ![]() Не только поражения...
![]() ...но и победы Тест на сжатие 7-Zip и вовсе на наш взгляд следует считать некорректным из-за возможного влияния дискового накопителя или же однобокой оптимизации теста только под x86. Не блеснула POWER9 и в тестах на компиляцию или работу с PHP, а вот в синтетическом наборе тестов OSBench новинка показала себя на удивление хорошо. Иными словами, потенциал у POWER9 есть, и немалый — а проигрыш в ряде тестов может объясняться как существенно меньшим количеством ядер, так и лучшей оптимизацией ПО с учётом особенностей x86. Если программное обеспечение будет столь же тщательно оптимизироваться и для POWER9, платформу может ожидать вполне успешное будущее не только в секторе серверов и суперкомпьютеров. Стоит также принимать во внимание цены на процессоры:
Как видите, в цене решения IBM существенно выигрывают у соперников, а проигрывают им в тестах далеко не всегда, особенно если вспомнить, что большинство современного ПО попросту не учитывает доступные в архитектуре POWER9 инструкции и особенности. Системная плата Talos Raptor II стоит достаточно дорого, $2325, и это следует учитывать при сравнении общей стоимости систем на базе POWER9 и x86. Ознакомиться с обзором зарубежных коллег можно по этой ссылке.
21.12.2017 [18:50], Алексей Степин
POWER9 идёт в народ: описание сервера IBM AC922Инициатива OpenPOWER, как мы уже рассказывали читателям, приносит свои плоды, особенно вместе с проектом OpenCAPI. Итоговая платформа получается более универсальной и сбалансированной, нежели Intel Purley или AMD EPYC. Хотя бы потому, что имеет поддержку PCI Express 4.0 и умеет работать с интерфейсами CAPI и NVLink, а это настоящая находка при проектировании кластерных систем, основанных на использовании дополнительных ускорителей, будь то NVIDIA Volta или платы на базе FPGA. Всё это собрано в едином узле или сервере под названием IBM Winterspoon. Система отличается от другого варианта под названием Cumulus использованием процессоров POWER9 с менее развитым SMT (как известно, POWER9 существует в вариантах SMT4 и SMT8; столь развитой многопоточностью не может похвастаться ни один процессор x86). В Winterspoon использована версия SMT4. ![]() Новинка уже поставляется на рынок с модельным номером AC922. AC в этом случае означает гибридную систему на базе ЦП и ГП, цифра 9 указывает на модель процессора, а две двойки означают два процессорных разъёма и высоту корпуса 2U. IBM очень активно рекламирует платформу POWER9 для задач искусственного интеллекта и машинного обучения, однако AC922 является универсальной системой, подходящей для любого рода задач. Серия процессоров POWER9 Nimbus может насчитывать от 16 до 24 ядер, серверы AC922 поставляются с 22-ядерными чипами, частоты которых мы не знаем. Но речь об опытных поставках. Коммерческие версии получают либо 16-ядерные процессоры с частотной формулой 2,6/3,09 ГГц, либо 20-ядерные с формулой 2,0/2,87 ГГц. Оба варианта удерживаются в рамках теплопакета 190 ватт, так что место для роста ещё есть: к примеру, Intel Xeon SP-8180M имеет теплопакет целых 205 ватт. Стоят процессоры достаточно дорого: 16-ядерный вариант POWER9 обойдётся в $3000, а 20-ядерный будет стоить $4000. Впрочем, на фоне ускорителей Volta это недорого — те оцениваются в $11500 за модуль. ![]() Узел AC922 имеет 16 слотов для установки регистровых модулей DDR4 с коррекцией ошибок. Память, в отличие от POWER8, не использует специального чипа-буфера и подключается к интегрированному в ЦП контроллеру напрямую, что понижает задержки. Поддерживаются модули DDR4-2667 ёмкостью до 64 Гбайт, что позволяет оснащать систему 1 Тбайт оперативной памяти. Обещается поддержка и модулей объёмом 128 Гбайт, что даст AC922 уже 2 Тбайт памяти. Совокупная ПСП при заполнении всех слотов достигает 306 Гбайт/с. Серверы специально ориентированы на использование ускорителей серии NVIDIA Volta в формате SXM2, которые на сегодня можно считать одними из самых мощных. Поддерживается конфигурация либо с четырьмя, либо с шестью модулями Volta G100, причём последняя требует жидкостного охлаждения. Проблем с пропускной способностью нет: четыре линии NVLink 2.0 ускорители используют для общения между собой, а ещё четыре — для общения с процессором; во всех случаях скорость составляет 100 Гбайт/с. ![]() Для суперкомпьютера Summit, о котором мы писали ранее, выбран более мощный вариант с СЖО. Было бы обидно при такой плотности упаковки вычислительных мощностей терять два модуля Volta на узел. Но есть преимущества и у версии с четырьмя ГП: здесь каждый ускоритель имеет канал общения с соседями и процессором шириной уже 150 Гбайт/с, а в некоторых задачах это может оказаться важнее. Подход к подсистеме ввода-вывода у систем AC922 минималистский: каждая имеет два сетевых порта InfiniBand со скоростью 100 Гбит/с, контроллеры которых напрямую подключены к ЦП посредством PCIe x8 4.0. Каждый разъём имеет также слот x16, совместимый с CAPI. Он предназначен для установки специализированных ускорителей или кеширующих модулей, таких, как Intel Optane или решений на базе ReRAM. Имеется дополнительный интерфейс PCIe x4 4.0. Коммутатор PLX Technologies PEX 8733 соединяет всю систему с ЦП и ГП с контроллером подсистемы хранения данных, так что ускорители Volta могут получать данные с SSD, минуя ЦП. AC922 располагает также четырьмя традиционными портами 10GbE, а контроллеры USB, базовый хаб и средства дистанционного управления подключены к первому процессору в системе посредством шины PCIe x1 всё той же версии 4.0. ![]() Локальная система хранения данных представлена двумя двухдюймовыми корзинами SATA, причём, опционально можно использовать и традиционные жесткие диски со скоростью вращения шпинделя 7200 об/мин. Среди опций имеются платы NVMe объёмом 1,6 Тбайт ($3100), а к концу года появится версия объёмом 3,2 Тбайт. Их роль, по словам представителя проекта, в основном, кеширующая, чтобы узлам не приходилось лишний раз нагружать сеть. На данный момент IBM AC922 сертифицирован для использования совместно с Red Hat Enterprise Linux 7.4 (версия little endian for POWER), а во втором квартале появятся специализированные серверные версии Ubuntu. Возможность использования SUSE Linux Enterprise Server пока рассматривается, но остаётся под вопросом, что странно, учитывая популярность именно этой ОС в секторе HPC и платформ SAP HANA. Что касается цен на готовые системы, то предыдущий узел на базе POWER8 под кодовым названием Minksy стоил порядка $65 тысяч, и IBM говорит о сохранении порядка цен. Так что примерно за ту же сумму можно будет получить вдвое больше процессорной мощности и в 2‒6 раз больше мощности ускорителей на базе ГП. ![]() POWER9 это не только серверный сегмент, но в потенциале и неплохие рабочие станции У энтузиастов может возникнуть вопрос: а совместимы ли эти процессоры POWER9 с платой Talos II? Увы, ответа на этот вопрос мы пока дать не можем, но теоретически новые чипы IBM используют одинаковый форм-фактор и тип разъёма. Но вот кулеры 16-ядерным POWER9, не говоря уж о более мощных моделях с 20, 22 или 24 ядрами, явно понадобятся более солидные, если пользователь такой рабочей станции хочет сберечь свой слух.
11.12.2017 [21:30], Алексей Степин
OpenCAPI набирает силу: кто поддерживает новинку сегодня?На прошлой неделе к консорциуму OpenCAPI присоединился ещё один игрок — компания Cavium, которая занимается разработкой серверных ARM-процессоров. Решениями компании заинтересовался производитель суперкомпьютеров Atos, а недавно Аргоннская национальная лаборатория изъявила желание развернуть кластер из серверов на базе этих процессоров. Всё вместе это закладывает основу для создания полноценной альтернативы x86-платформе и нынешнему лидеру списка TOP500, которая будет включать и CPU различных архитектур, и универсальную открытую шину. Очевидно, что шина PCI Express в текущем виде неспособна обеспечить уровень производительности, необходимый для подключения между собой процессоров и различных ускорителей. Текущая версия далека от идеала, а недавно представленный стандарт PCI-E 4.0 пока что весьма далёк от внедрения. Собственно говоря, пока что его поддерживают только процессоры IBM POWER9. Но они же предлагают и другой, более совершенный, по мнению создателей, стандарт OpenCAPI, или просто CAPI (Coherent Accelerator Processor Interface). Текущая третья версия совместима с NVLink 2.0, а ведь самые быстрые ускорители NVIDIA используют именно эту шину. Нельзя сказать, что стандарт развивался быстро, но в 2017 году он уже имеет весьма солидную армию последователей. ![]() Ускоритель Alpha Data подключён к процессорному разъёму POWER9 посредством кабеля OpenCAPI Целый ряд имён имеет свои решения для новой платформы. Mellanox располагает «умными» сетевыми адаптерами Innova-2 с поддержкой OpenCAPI, Molex Electronic Solutions демонстрировала на SC 17 прототип флеш-хранилища с пропускной способностью порядка 200 Гбайт/с. Alpha Data уже предлагает свои платы ускорителей на базе ПЛИС Xilinx UltraScale+, подключаемые непосредственно к процессору POWER9 специальным кабелем. О самой Xilinx нечего и говорить — один из крупнейших разработчиков ПЛИС предлагает целый спектр платформ разработчика OpenCAPI. Скоростная шина требует специальных кабелей, и они есть у Amphenol Corporation. ![]() Прототип Zaius/Barreleye G2 Такой гигант в мире накопителей как Western Digital внимательно следит за развитием OpenCAPI и занимается исследованиями в этой области, тестируя прототипы CAPI-памяти и ускорителей. Micron возлагает на OpenCAPI огромные надежды в области создания новой технологии энергонезависимой памяти. Компания Rackspace работает совместно с Google над созданием двухсокетных серверов Zaius/Barreleye G2 на базе POWER9. А где POWER9, там и OpenCAPI, а где Google — там и ускорители различного рода. Tektronix предлагает решения, способные полноценно тестировать решения OpenCAPI, работающие на скоростях 25 Гбит/с и выше. Полноценная отладка поддерживается для скорости 32 Гбит/с. ![]() Сила OpenCAPI в его универсальности и единообразии Toshiba также заинтересована в новом стандарте. Она уже работает над созданием собственного кремния, использующего OpenCAPI. По словам представителей компании, решения Toshiba вскоре смогут помочь быстро развернуть инфраструктуру на базе CAPI любому желающему и для любого рода задач. Компания Wistron успешно продемонстрировала на том же мероприятии SC 17 дизайны систем на базе процессоров IBM POWER9. Представитель компании считает OpenCAPI действительно универсальным стандартом, отвечающим задачам, которые будут поставлены перед ИТ-инфраструктурой грядущим десятилетием. Inventec также представила своё видение POWER9, но она концентрирует усилия в направлении внедрения нового стандарта питания с напряжением 48 вольт. ![]() Иными словами, список компаний, интересующихся OpenCAPI, вызывает уважение, начиная с самого «голубого гиганта» и NVIDIA. Можно считать, что поезд тронулся, и в мире появилась серьёзная многопроцессорная, многопоточная и универсальная платформа, способная справиться с любым спектром задач.
07.12.2017 [18:44], Алексей Степин
Новый кластер NVIDIA Saturn V: некоторые подробностиКрупнейшие разработчики и производители микропроцессоров не очень-то любят рассказывать о своих проектах суперкомпьютеров, и информацию о таких проектах буквально приходится выцеживать по крупицам. Оригинальный узловой сервер NVIDIA DGX-1, являющийся основой кластера Saturn V, был представлен ещё на конференции SC16. Вся система состояла из 124 серверов DGX-1P, в каждом из которых было установлено по два 20-ядерных процессора Broadwell-EP с частотой 2,2 ГГц и по 8 ускорителей на базе Pascal P100 в форм-факторе SXM2, позволявшим пользоваться интерфейсом NVLink 1.0. На сегодня, однако, в руках NVIDIA есть куда более подходящий ускоритель - Tesla V100, чьи тензорные ядра делают его отличным решением для задач машинного обучения. ![]() С четырьмя узлами DGX-1P, каждый из которых, к слову, мог потреблять до 3200 ватт, система смогла достичь пиковой производительности 4,9 петафлопса на вычислениях двойной точности. Тест матричной математики Linpack Fortran показал 67,5 % эффективности (3,31 петафлопса), что обеспечило системе 28 место в списке Top 500 на ноябрь 2016 года. Стоимость Saturn V составила $13 миллионов. Если бы процессоры Xeon имели интерфейс NVLink, производительность была бы выше, но они такового не имеют, вот почему NVIDIA вкладывает усилия в создание нового узлового сервера на базе процессоров POWER9. Назовём такую модель DGP-1V: в этом названии зашифровано сочетание POWER9 и ускорителей Volta. Новая версия NVLink 2.0 и когерентность кешей ЦП и ГП должна существенно увеличить эффективность такого сервера. ![]() От малого к большому: иерархия узлов Saturn V Новый Saturn V в максимальной конфигурации будет насчитывать до 660 узлов, оснащённых ускорителями Tesla V100; впрочем, их количество на узел останется прежним — по восемь ускорителей на корпус. Всего в системе будет 5280 процессоров Volta, что даст ей 80 петафлопс пиковой производительности на одинарной точности и 40 петафлопс — на двойной. Но что самое важное, в задачах машинного обучения, где часто используется смесь FP16 и FP32, теоретическая эффективная производительность нового Saturn V может достичь 660 петафлопс. Пока NVIDIA протестировала лишь 33-узловую конфигурацию, показавшую 1,82 петафлопса и эффективность на уровне 58,8 %, но удельная производительность составила 15,1 Гфлопс/ватт против 9,46 Гфлопс/ватт у системы предыдущего поколения. ![]() Среднее звено Дешёвой новая система не будет: стоимость одного узла в полном оснащении оценивается в $149 тысяч (против $129 тысяч у DGX-1P), и суперкомпьютер Saturn V в новом своём воплощении может обойтись в $100‒$110 миллионов, причём эта цена не включает программное обеспечение для машинного обучения и внешние файловые системы Lustre или GPFS. Но заявка у «зелёных» серьёзная: в районе следующего года NVIDIA надеется смонтировать полную 660-узловую версию Saturn V и достичь показателя 22,3 петафлопса в тестах Linpack, что выведет новый суперкомпьютер на третье место в списке Top 500. Особенно большие надежды возлагаются на задачи машинного обучения: DGX-1P мог обеспечивать в этих сценариях 170 терафлопс, а вот условный DGP-1V за счёт наличия тензорных ядер — уже 960 терафлопс или в 5,6 раз больше. ![]() Высший уровень Что касается сетевой конфигурации, то основой межузловых соединений станет стандарт InfiniBand EDR со скоростью 100 Гбит/с на кабель. Доступ к основной сети и хранилищам данных обеспечит сеть Ethernet на скорости 10 Гбит/с (несколько странно, что не использован более новый стандарт 25G), а для целей управления и телеметрии хватит и обычного канала Gigabit Ethernet. На среднем уровне коммутацию IB будут выполнять устройства Mellanox Director с 216 портами, а на высшем — ещё более мощные коммутаторы той же серии с 324 портами. Узким местом система межузловых соединений, скорее всего, не станет — у Mellanox наработан огромный опыт в этой области, и есть полный спектр решений, покрывающих все потребности NVIDIA в проектировании сетевой подсистемы нового Saturn V.
06.12.2017 [23:45], Сергей Юртайкин
IBM представила первый сервер на процессоре POWER9IBM представила свой первый собственный сервер на процессоре POWER9. Особенность решения под названием IBM Power Systems AC922 заключается в том, что новая аппаратная платформа разработана специально для работы с интенсивными вычислительными нагрузками технологий искусственного интеллекта (ИИ). ![]() CPU IBM POWER9 В IBM отмечают, что Power 9 позволяет ускорить тренировки фреймворков глубинного обучения обучения почти в четыре раза, благодаря чему клиенты смогут быстрее создавать более точные ИИ-приложения. Утверждается, что новый сервер разработан для получения значительных улучшений производительности всех популярных фреймворков ИИ, таких как Chainer, TensorFlow и Caffe, а также современных баз данных, использующих ускорители, например, Kinetica. ![]() Сервер IBM Power System AC922 Сервер IBM Power Systems AC922 использует шину PCI-Express 4.0 и технологии NVIDIA NVLink 2.0 и CAPI 2.0/OpenCAPI, способные ускорить пропускную способность в 9,5 раза по сравнению с системами x86 на базе PCI-E 3.0. Это, в частности, позволяет задействовать ускорителям (GPU или FPGA) системную ОЗУ без значительных, по сравнению с прошлыми решениями, потерь производительности, что важно для обработки больших массивов данных. Кроме того, новые поколения карт расширения и ускорителей уже поддерживают эту шину. IBM Power Systems AC922 создан в нескольких конфигурациях, оснащаемых двумя процессорами POWER9. Стандартные версии включают CPU c 16 (2,6 ГГц, турбо 3,09 ГГц) и 20 (2,0/2,87 ГГц) ядрами (4 потока на ядро), а позже появятся версии с 18- и 22 -ядерными процессорами. Всего в сервере есть 16 слотов для модулей ECC DDR4-памяти, что на текущий момент позволяет оснастить его 1 Тбайт RAM. Для хранения данных предусмотрено два слота для 2,5" SSD/HDD (RAID-контроллера нет). AC922 может иметь на борту от двух до четырёх ускорителей NVIDIA Tesla V100 форм-фактора SXM2 с памятью 16 Гбайт и шиной NVLink 2.0. В сумме они дают до 500 Тфлопс на расчётах половинной точности. Дополнительные ускорители можно подключить к слотам PCI-E 4.0. ![]() Сервер рассчитан на установку четырёх дополнительных низкопрофильных карт расширения: два слота PCI-E 4.0 x16, один PCI-E 4.0 x8 и один PCI-E 4.0 x4. Все слоты, кроме последнего, также умеют работать с CAPI. Также есть два порта USB 3.0. Поддерживается ОС Red Hat Enterprise Linux 7.4 for Power LE. ![]() Процессоры IBM Power 9, которые нашли применение в IBM Power Systems AC922, легли в основу суперкомпьютеров Summit и Sierra Министерства энергетики США, а также используются компанией Google. Чипы и использующие их системы стали частью совместной работы участников организации OpenPower Foundation, в которую входят IBM, Google, Mellanox, NVIDIA и др. ![]() Процессор IBM Power 9 «Мы создали уникальную в своём роде систему для работы с технологиями ИИ и когнитивными вычислениями, — говорит старший вице-президент подразделения IBM Cognitive Systems Боб Пиччиано (Bob Picciano). — Серверы на Power 9 являются не только основой самых высокопроизводительных компьютеров, они позволят заказчикам масштабировать невиданные ранее инсайты, что будет способствовать научным прорывам и революционным улучшениям бизнес-показателей». ![]() Сервер имеет стандартное 2U-шасси и оснащается двумя (1+1) блоками питания мощностью 2,2 кВт каждый. Система охлаждения может быть гибридной. Начало продаж IBM Power Systems AC922 намечено на 22 декабря 2017 года. В 2018 году будут доступны конфигурации с шестью ускорителями Tesla и СЖО.
22.11.2017 [13:00], Иван Грудцын
Суперкомпьютер Summit: подробности о будущем лидере рейтинга TOP500В эти дни в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory, ORNL), находящейся в американском штате Теннесси, кипит работа по вводу в строй суперкомпьютера Summit, расчётная производительность которого примерно в два раза выше, чем у нынешнего рекордсмена Sunway TaihuLight с пропиской в Китае. С показателем быстродействия около 200 Пфлопс Summit опережает в том числе и своего предшественника Titan (17,6 Тфлопс), базирующегося на процессорах Opteron 6274 и HPC-ускорителях Tesla K20X. ![]() Основой Summit являются приблизительно 4600 серверных узлов IBM Power Systems AC922 «Newell». У Titan узлов в четыре раза больше (18 688 шт.), но на каждый приходится только по одному CPU и GPU. В свою очередь, у «строительного блока» Summit по два центральных и шесть графических процессоров. Узлы AC922, сочетающие в себе процессоры IBM POWER9 и HPC-ускорители NVIDIA Volta GV100 (Tesla V100), демонстрировались на недавней выставке-конференции SC17 в Денвере (штат Колорадо, США). IBM AC922 собираются в 2U-корпусах, где, кроме прочего, размещаются 16 модулей оперативной памяти DDR4-2666 общим объёмом 512 Гбайт (с возможностью расширения до 2 Тбайт), 1,6 Тбайт энергонезависимой буферной памяти для нужд основного хранилища (суммарно 250 Пбайт, интерфейс 2,5 Тбайт/с), два 2200-Вт блока питания с возможностью горячей замены и множественные узлы системы жидкостного охлаждения. ![]() СЖО замысловатой конструкции призвана справиться с шестью 300-Вт GPU и парой 190-Вт CPU. Воздушное охлаждение для тех же целей было бы не таким дорогим, но эксплуатационные расходы в таком случае могли бы значительно вырасти. Пиковое энергопотребление суперкомпьютера ожидается на уровне 13 МВт (по другим данным — 15 МВт). По этому показателю ORNL Titan скромнее с его 9 МВт в условиях максимальной нагрузки. Система питания Summit проектируется с учётом возможного усиления суперкомпьютера дополнительными узлами. После гипотетического апгрейда предельное энергопотребление может достигать 20 МВт. Согласно Tom’s Hardware, полностью собранный ORNL Summit займёт площадь двух баскетбольных площадок, то есть около 873 квадратных метров. Суммарная длина кабелей Summit составит 219 км. Прежде сообщалось, что суперкомпьютер будет готов к загрузке ресурсоёмкими научными задачами с января 2019 года. Теперь же речь идёт о его вводе в эксплуатацию в течение 2018 года. При этом, как указывает пресс-служба TOP500, Summit уже в июне возглавит обновлённый рейтинг мощнейших серверных систем, где, похоже, пропишется и NVIDIA DGX SaturnV второго поколения на 5280 ускорителях Tesla V100. ![]() Директор Национальной лаборатории Ок-Ридж Томас Закария (Thomas Zacharia) в общении с представителями ресурса top500.org подчеркнул важность ввода в эксплуатацию такого производительного суперкомпьютера, как Summit: «Один из наших коллективов разрабатывает алгоритм машинного обучения для Summit, чтобы помочь в выборе лучшего метода лечения рака у каждого конкретного пациента, — отметил г-н Закария. — Другая команда сегодня использует ресурсы Titan для проектирования и мониторинга реакторов на базе технологии управляемого термоядерного синтеза. Ещё одна группа специалистов использует машинное обучение, чтобы помочь классифицировать типы траекторий нейтрино, наблюдаемых в ходе различных экспериментов». ![]() Томас Закария (Thomas Zacharia), фото knoxnews.com Впрочем, исключительно машинным обучением дело не ограничится. Директор лаборатории Ок-Ридж упомянул о таких вариантах использования Summit, как моделирование климата, решение задач из области релятивистской квантовой химии, вычислительной химии, астрофизики, физики плазмы и биофизики. Собственно, многие проекты уже запущены либо могут быть запущены на мощностях Titan, однако нехватка производительности является препятствием для углублённых исследований. ![]() Комплекс зданий Национальной лаборатории Ок-Ридж Длительная подготовка к запуску Summit объясняется не только необходимостью предварительного тестирования тысяч серверных узлов, но и задержкой со стороны IBM, которая пока не изготовила все заказанные ORNL процессоры POWER9. Со стороны NVIDIA, наоборот, задержек нет, ведь HPC-ускорители Tesla V100 поставляются клиентам уже не первый месяц. «Сегодня Национальная лаборатория Ок-Ридж находится в завидном положении, — продолжил Томас Закария. — Мы располагаем уникальным опытом исследований в областях химии и физики материалов, нейтронной физики, ядерной физики, компьютерных наук и технических решений. Всё это в сочетании с талантом наших сотрудников позволяет решать проблемы и задачи, связанные с энергетикой, национальной безопасностью, производством и сетевой кибербезопасностью. Одна из наших основных целей заключается в том, чтобы стать ведущим исследовательским центром в мире. Это само по себе вдохновляет нас на новые свершения».
10.08.2017 [13:00], Алексей Степин
Национальная лаборатория Ок-Ридж начала монтаж суперкомпьютера SummitКак сообщают зарубежные средства массовой информации, национальная лаборатория министерства энергетики США, известная как Национальная лаборатория Ок-Ридж (Oak Ridge National Laboratory, ORNL), начала работы по установке новейшего суперкомпьютера Summit, базирующегося на синтезе технологий IBM и NVIDIA. Ранее мы рассказывали об этом проекте, когда речь шла о быстродействии новых ускорителей NVIDIA Volta GV100. Напомним, что каждый из 4600 узлов Summit будет иметь производительность свыше 40 терафлопс, а в качестве начинки выступает связка из двух процессоров IBM POWER9 и шести ускорителей Volta GV100 производительностью порядка 7,5 терафлопс каждый. В качестве связующего звена задействован интерфейс NVLink 2.0 с пропускной способностью до 200 Гбайт/с. ![]() Summit должен стать ответом китайскому проекту TaihuLight — пиковая производительность нового суперкомпьютера планируется на уровне 200 петафлопс, тогда как конкурент развивает лишь чуть более 125 петафлопс. Эти два суперкомпьютера станут самыми мощными вычислительными комплексами на планете, не использующими архитектуры x86. В понедельник в лабораторию Ок-Ридж были доставлены первые контейнеры с узлами Summit, и по словам представителя ORNL, как только они будут распакованы, сразу же начнётся процесс установки и монтажа компонентов новой системы, а также её подключения к сетям питания и охлаждающим установкам. Процесс сборки должен занять порядка шести месяцев, полноценный ввод системы в эксплуатацию запланирован на январь 2019 года. ![]() В последнем случае речь идёт об общей доступности для научно-исследовательских проектов, но до этого система будет проходить наладку, и к ней получат доступ разработчики из министерства энергетики и некоторые университеты. Скорее всего, первые «признаки жизни» Summit подаст не раньше 2018 года, так что процедуру смены короны лидера списка TOP500 мы увидим не раньше следующего июня. Новый суперкомпьютер ORNL превзойдёт не только китайского монстра, но и предыдущую систему Окриджской лаборатории под названием Titan. Сейчас эта система занимает четвёртое место в TOP500 с пиковой производительностью 27,1 петафлопса и измеренными с помощью Linpack 17,6 петафлопсами. Таким образом, Summit будет в 5‒10 раз быстрее предшественника. А благодаря архитектурным особенностям NVIDIA Volta на задачах глубинного обучения (смешанные 16/32-битные вычисления) мощность Summit и вовсе достигнет запредельных 3,3 экзафлопс. |
|