Материалы по тегу: hpc

25.09.2021 [17:31], Сергей Карасёв

Asetek уйдёт из сегмента высокопроизводительных вычислений

Компания Asetek, специализирующаяся на разработке систем жидкостного охлаждения для ПК и ЦОД, сообщила о планах по реорганизации бизнеса. Кроме того, Asetek вынуждена снизить прогноз по выручке и операционной прибыли на текущий год. Отмечается, что компания столкнулась с серьёзными сложностями в связи с продолжающейся пандемией.

Ограничения, введённые в Китае, нарушили работу каналов поставок Asetek. Дополнительный негативный эффект на бизнес компании оказал глобальный дефицит электронных компонентов. В сложившейся ситуации Asetek вынуждена уйти из сегмента высокопроизводительных вычислений (НРС). Говорится, что это необходимо для обеспечения прибыльности в будущем.

В связи с реорганизацией Asetek сократит ряд сотрудников, работающих на полную ставку, — в основном в отделе исследований и разработок. После этого компания сосредоточит усилия на развитии решений для обычных центров обработки данных. Вместе с тем прогноз по росту выручки на текущий год понижен до 10–20 %, тогда как ранее назывались 20–30 %. Операционная прибыль, как ожидается, составит от $0 до $2 млн, а не $8–12 млн, как прогнозировалось ранее.

Направление НРС требует всё больших инвестиций, а финансовая отдача не оправдывает затраты. При этом у ближайшего конкурента, компании CoolIT, дела идут очень хорошо. Обе компании в последние годы активно осваивали HPC-сегмент и даже успели поспорить в суде по поводу ключевых патентов на жидкостное охлаждение для ЦОД.

Постоянный URL: http://servernews.ru/1049885
22.09.2021 [21:16], Алексей Степин

Выпущена тестовая партия европейских высокопроизводительных RISC-V процессоров EPI EPAC1.0

Наличие собственных высокопроизводительных процессоров и сопровождающей их технической инфраструктуры — в современном мире вопрос стратегического значения для любой силы, претендующей на первые роли. Консорциум European Processor Initiative (EPI), в течение долгого времени работавший над созданием мощных процессоров для нужд Евросоюза, наконец-то, получил первые весомые плоды.

О проекте EPI мы неоднократно рассказывали читателям в 2019 и 2020 годах. В частности, в 2020 году к консорциуму по разработке мощных европейских процессоров для систем экза-класса присоединилась SiPearl. Но сегодня достигнута первая серьёзная веха: EPI, насчитывающий на данный момент 28 членов из 10 европейских стран, наконец-то получил первую партию тестовых образцов процессоров EPAC1.0.

По предварительным данным, первичные тесты новых чипов прошли успешно. Процессоры EPAC имеют гибридную архитектуру: в качестве базовых вычислительных ядер общего назначения в них используются ядра Avispado с архитектурой RISC-V, разработанные компанией SemiDynamics. Они объединены в микро-тайлы по четыре ядра и дополнены блоком векторных вычислений (VPU), созданным совместно Барселонским Суперкомпьютерным Центром (Испания) и Университетом Загреба (Хорватия).

Строение кристалла EPAC1.0

Строение кристалла EPAC1.0

Каждый такой тайл содержит блоки Home Node (интерконнект) с кешем L2, обеспечивающие когерентную работу подсистем памяти. Имеется в составе EPAC1.0 и описанный нами ранее тензорно-стенсильный ускоритель STX, к созданию которого приложил руку небезызвестный Институт Фраунгофера (Fraunhofer IIS). Дополняет картину блок вычислений с изменяемой точностью (VRP), за его создание отвечала французская лаборатория CEA-LIST. Все ускорители в составе нового процессора связаны высокоскоростной сетью, использующей SerDes-блоки от EXTOLL.

Первые 143 экземпляра EPAC произведены на мощностях GlobalFoundries с использованием 22-нм техпроцесса FDX22 и имеют площадь ядра 27 мм2. Используется упаковка FCBGA 22x22. Тактовая частота невысока, она составляет всего 1 ГГц. Отчасти это следствие использования не самого тонкого техпроцесса, а отчасти обусловлено тестовым статусом первых процессоров.

Но новорожденный CPU жизнеспособен: он успешно запустил первые написанные для него программы, в числе прочего, ответив традиционным «42» на главный вопрос жизни и вселенной. Ожидается, что следующее поколение EPAC будет производиться с использованием 12-нм техпроцесса и получит чиплетную компоновку.

Постоянный URL: http://servernews.ru/1049663
22.09.2021 [13:26], Сергей Карасёв

В основу новых суперкомпьютеров NNSA лягут процессоры Intel Xeon Scalable Sapphire Rapids

Национальное управление по ядерной безопасности (NNSA) Министерства энергетики США выбрало процессоры Intel Xeon Scalable следующего поколения с кодовым именем Sapphire Rapids для высокопроизводительных вычислительных комплексов, создаваемых по проекту Life Extension.

Речь идёт о поддержании критических задач в рамках программы управления ядерным арсеналом (Stockpile Stewardship). Она, в частности, предусматривает проверку тактико-технических характеристик и надёжности ядерных боевых частей ракет. Оцениваются химическая стабильность материалов, состояние электронных компонентов и пр.

Intel

Intel

Сообщается, что Ливерморская национальная лаборатория им. Э. Лоуренса, входящая в состав NNSA, заключила контракт с Dell Technologies на поставку новых серверов Dell EMC PowerEdge для будущих суперкомпьютеров. В основу этих систем лягут чипы Sapphire Rapids.

Отгрузки первого оборудования в рамках договора запланировано на середину следующего года. В целом, контракт охватывает период до 2025-го. Новые комплексы высокопроизводительных вычислений будут развёрнуты в Ливерморской национальной лаборатории им. Э. Лоуренса, а также в Лос-Аламосской национальной лаборатории и в Национальных лабораториях Сандия.

Постоянный URL: http://servernews.ru/1049608
07.09.2021 [12:19], Владимир Мироненко

HPE построила суперкомпьютер для японского университета Хиого

Hewlett Packard Enterprise (HPE) построила новый суперкомпьютер для университета Хиого в Кобе (Япония). Это один из самых мощных суперкомпьютеров среди имеющихся у государственных университетов Японии. Он построен с использованием систем HPE Apollo 6500 Gen10 и HPE Apollo 2000 Gen10 с ускорителями NVIDIA V100. Также в системе используется комбинация серверов HPE ProLiant DL360, DL380 и DL560 Gen10. Для обработки постоянно растущих данных была развёрнута СХД Cray ClusterStor E1000 от HPE, которая отвечает высоким требованиям для задач HPC и ИИ с интенсивным использованием данных.

Sundry Photography/iStock Editorial/Getty Images

Sundry Photography/iStock Editorial/Getty Images

Новый суперкомпьютер используется для исследований самых сложных и неотложных проблем общества. Этот университетский суперкомпьютер третьего поколения со значительно улучшенной производительностью для работы с большими наборами данных позволит повысить точность результатов благодаря использованию ИИ и машинного обучения.

С его помощью учёные будут изучать метеорологические явления, физику плазмы, сложные жидкости, сейсмостойкую архитектуру, энергосберегающие материалы, эконофизику и ДНК. Исследователи уже выяснили с помощью суперкомпьютера особенности внезапных проливных дождей, разработали покрытие, предотвращающие образование тромбов в искусственных сердцах и легких, а также произвели прогнозирование повреждений зданий и экономических потерь в результате землетрясений в Нанкайском желобе.

Постоянный URL: http://servernews.ru/1048456
07.09.2021 [01:34], Владимир Мироненко

Фонд Digital 9 Infrastructure приобрёл за £231 млн «зелёного» оператора ЦОД Verne Global

Verne Global, провайдер ЦОД-решений для высокопроизводительных вычислений (HPC), сообщил о том, что он был приобретён за £231 млн Digital 9 Infrastructure plc (D9), недавно созданным инвестиционным фондом из Великобритании. Сделка является первой инвестицией D9 в ЦОД. D9 привлёк £300 млн в ходе мартовского IPO, а затем приобрёл владельца подводного кабеля Aqua Comms за £160 млн. В июне D9 привлёк ещё £175 млн инвестиций.

D9 ориентирован на создание устойчивой цифровой инфраструктуры, интегрированной с экологически чистой энергией в соответствии с целью №9 (одна из 17-ти целей, принятых ООН в 2015 году) — «создание устойчивой инфраструктуры, содействия всеохватной и устойчивой индустриализации и стимулирования инноваций». И Verne Global, которая управляет кампусом ЦОД мощностью 24 МВт на территории бывшего объекта НАТО площадью 16 га в Исландии, как нельзя лучше подходит для этого.

Verne Global

Verne Global

Кампус был спроектирован с нуля для предоставления высокоспециализированных ЦОД-услуг: ИИ и машинное обучение, HPC и суперкомпьютинг. Стабильная энергосистема Исландии служит гарантией того, что ценовая политика Verne Global для клиентов не будет меняться в долгосрочной перспективе, в то время как местный климат поддерживает естественное охлаждение круглый год. Verne предоставляет услуги некоторым местным колокейшн-клиентам, но в основном обслуживает рабочие нагрузки HPC, уделяя все большее внимание ИИ-приложениям.

Постоянный URL: http://servernews.ru/1048436
02.09.2021 [00:51], Владимир Мироненко

ИИ для слежки? АНБ подписало с HPE облачный HPC-контракт на $2 млрд

Агентство национальной безопасности США (АНБ) заключило с Hewlett Packard Enterprise 10-летний контракт стоимостью $2 млрд на предоставление услуг в области высокопроизводительных вычислений (HPC). По условиям контракта, АНБ будет использовать полностью управляемую платформу HPC-as-a-Service в рамках HPE GreenLake.

HPE предоставит системы HPE Apollo и ProLiant, настроенные для поддержки приёма и обработки больших объёмов информации для рабочих нагрузок агентства по глубокому обучению и анализу данных. Вычислительная инфраструктура разместится защищённом дата-центре QTS и будет управляться HPE. Ожидается, что специализированная вычислительная служба для АНБ будет запущена в 2022 году.

HPE называет GreenLake самым быстрорастущим бизнес-подразделением компании. Его портфель услуг продолжает расширяться. В декабре 2020 года HPE предложила клиентам набор готовых сервисов, которые, по её утверждению, могут на 75 % ускорить развёртывание HPC-проектов и снизить капитальные затраты на 40 % (согласно исследованию Forrester Consulting, профинансированному HPE). Управляемые сервисы GreenLake могут быть развёрнуты локально или на колокейшн-площадке, сочетая таким образом экономику, похожую на облачную, с доступом, безопасностью и производительностью локальных систем.

У АНБ есть гигантский ЦОД в Юте (США) стоимостью $1,5 млрд, который был введён в эксплуатацию в 2014 году. Кроме того, у агентства есть другие центры обработки данных в США и по всему миру, в том числе в Великобритании и Дании. В прошлом месяце АНБ заключило облачный контракт на $10 млрд с AWS под кодовым названием WildandStormy, но он в настоящее время приостановлен в ожидании судебного разбирательства с Microsoft.

У АНБ огромные потребности в хранении данных программ массового наблюдения, которые по-прежнему осуществляются, несмотря на разоблачения Эдварда Сноудена (Edward Snowden) в 2013 году. После пятилетнего расследования Совет по надзору за конфиденциальностью и гражданскими свободами (PCLOB), независимый правительственный наблюдатель, заявил, что программа АНБ XKeyscore выполнялась без надлежащего надзора, хотя XKeyscore — это лишь одна из многочисленных программ по слежке.

Постоянный URL: http://servernews.ru/1048116
28.08.2021 [00:16], Владимир Агапов

Кластер суперчипов Cerebras WSE-2 позволит тренировать ИИ-модели, сопоставимые по масштабу с человеческим мозгом

В последние годы сложность ИИ-моделей удваивается в среднем каждые два месяца, и пока что эта тенденция сохраняется. Всего три года назад Google обучила «скромную» модель BERT с 340 млн параметров за 9 Пфлоп-дней. В 2020 году на обучение модели Micrsofot MSFT-1T с 1 трлн параметров понадобилось уже порядка 25-30 тыс. Пфлоп-дней. Процессорам и GPU общего назначения всё труднее управиться с такими задачами, поэтому разработкой специализированных ускорителей занимается целый ряд компаний: Google, Groq, Graphcore, SambaNova, Enflame и др.

Особо выделятся компания Cerebras, избравшая особый путь масштабирования вычислительной мощности. Вместо того, чтобы печатать десятки чипов на большой пластине кремния, вырезать их из пластины, а затем соединять друг с другом — компания разработала в 2019 г. гигантский чип Wafer-Scale Engine 1 (WSE-1), занимающий практически всю пластину. 400 тыс. ядер, выполненных по 16-нм техпроцессу, потребляют 15 кВт, но в ряде задач они оказываются в сотни раз быстрее 450-кВт суперкомпьютера на базе ускорителей NVIDIA.

В этом году компания выпустила второе поколение этих чипов — WSE-2, в котором благодаря переходу на 7-нм техпроцесс удалось повысить число тензорных ядер до 850 тыс., а объём L2-кеша довести до 40 Гбайт, что примерно в 1000 раз больше чем у любого GPU. Естественно, такой подход к производству понижает выход годных пластин и резко повышает себестоимость изделий, но Cerebras в сотрудничестве с TSMC удалось частично снизить остроту этой проблемы за счёт заложенной в конструкцию WSE избыточности.

Благодаря идентичности всех ядер, даже при неисправности некоторых их них, изделие в целом сохраняет работоспособность. Тем не менее, себестоимость одной 7-нм 300-мм пластины составляет несколько тысяч долларов, в то время как стоимость чипа WSE оценивается в $2 млн. Зато система CS-1, построенная на таком процессоре, занимает всего треть стойки, имея при этом производительность минимум на порядок превышающую самые производительные GPU. Одна из причин такой разницы — это большой объём быстрой набортной памяти и скорость обмена данными между ядрами.

Тем не менее, теперь далеко не каждая модель способна «поместиться» в один чип WSE, поэтому, по словам генерального директора Cerebras Эндрю Фельдмана (Andrew Feldman), сейчас в фокусе внимания компании — построение эффективных систем, составленных из многих чипов WSE. Скорость роста сложности моделей превышает возможности увеличения вычислительной мощности путём добавления новых ядер и памяти на пластину, поскольку это приводит к чрезмерному удорожанию и так недешёвой системы.

Инженеры компании рассматривают дезагрегацию как единственный способ обеспечить необходимый уровень производительности и масштабируемости. Такой подход подразумевает разделение памяти и вычислительных блоков для того, чтобы иметь возможность масштабировать их независимо друг от друга — параметры модели помещаются в отдельное хранилище, а сама модель может быть разнесена на несколько вычислительных узлов CS, объединённых в кластер.

На Hot Chips 33 компания представила особое хранилище под названием MemoryX, сочетающее DRAM и флеш-память суммарной емкостью 2,4 Пбайт, которое позволяет хранить до 120 трлн параметров. Это, по оценкам компании, делает возможным построение моделей близких по масштабу к человеческому мозгу, обладающему порядка 80 млрд. нейронов и 100 трлн. связей между ними. К слову, флеш-память размером с целую 300-мм пластину разрабатывает ещё и Kioxia.

Для обеспечения масштабирования как на уровне WSE, так и уровне CS-кластера, Cerebras разработала технологию потоковой передачи весовых коэффициентов Weight Streaming. С помощью неё слой активации сверхкрупных моделей (которые скоро станут нормой) может храниться на WSE, а поток параметров поступает извне. Дезагрегация вычислений и хранения параметров устраняет проблемы задержки и узости пропускной способности памяти, с которыми сталкиваются большие кластеры процессоров.

Это открывает широкие возможности независимого масштабирования размера и скорости кластера, позволяя хранить триллионы весов WSE-2 в MemoryX и использовать от 1 до 192 CS-2 без изменения ПО. В традиционных системах по мере добавления в кластер большего количества вычислительных узлов каждый из них вносит всё меньший вклад в решение задачи. Cerebras разработала интерконнект SwarmX, позволяющий подключать до 163 млн вычислительных ядер, сохраняя при этом линейность прироста производительности.

Также, компания уделила внимание разрежённости, то есть исключения части незначимых для конечного результата весов. Исследования показали, что должная оптимизации модели позволяет достичь 10-кратного увеличения производительности при сохранении точности вычислений. В CS-2 доступна технология динамического изменения разрежённости Selectable Sparsity, позволяющая пользователям выбирать необходимый уровень «ужатия» модели для сокращение времени вычислений.

«Крупные сети, такие как GPT-3, уже изменили отрасль машинной обработки естественного языка, сделав возможным то, что раньше было невозможно и представить. Индустрия перешла к моделям с 1 трлн параметров, а мы расширяем эту границу на два порядка, создавая нейронные сети со 120 трлн параметров, сравнимую по масштабу с мозгом» — отметил Фельдман.

Постоянный URL: http://servernews.ru/1047735
25.08.2021 [15:40], Сергей Карасёв

«Тренировочный» суперкомпьютер Polaris получит 560 процессоров AMD EPYC и 2240 ускорителей NVIDIA A100

Аргоннская национальная лаборатория Министерства энергетики США анонсировала проект высокопроизводительного вычислительного комплекса Polaris. Созданием этого суперкомпьютера займутся специалисты Hewlett Packard Enterprise (HPE), а его ввод в эксплуатацию запланирован на начало следующего года.

В основу системы лягут 280 узлов HPE Apollo 6500 Gen10 Plus. Говорится об использовании 560 процессоров AMD EPYC второго и третьего поколений, а также 2240 ускорителей NVIDIA A100. Узлы будут объединены интерконнектом HPE Slingshot, а мониторинг и управление системой будет осуществляться HPE Performance Cluster Manager.

Пиковое быстродействие комплекса составит приблизительно 44 Пфлопс на FP64-операциях. Теоретическая производительность при работе с ИИ-задачами будет достигать 1,4 Эфлопс. Использовать суперкомпьютер планируется при решении ряда сложных задач. Среди них названы исследования в космической сфере, изучение биологии вирусов, проекты в области чистой энергии, производства и пр.

Аргоннская национальная лаборатория

Аргоннская национальная лаборатория

Отмечается, что создание Polaris поможет подготовиться, потренировавшись в переносе и оптимизации ПО, к появлению вычислительной системы Aurora экзафлопсного уровня, выход которой неоднократно откладывался. Это совместный проект Аргоннской национальной лаборатории, компаний Intel и HPE. Данная система обеспечит в четыре раза более высокое быстродействие по сравнению с нынешними суперкомпьютерами лаборатории. Первой экзафлопсной системой в США станет суперкомпьютер Frontier на базе AMD EPYC и Instinct.

Постоянный URL: http://servernews.ru/1047542
20.08.2021 [23:36], Андрей Галадей

AMD запустила новый open source портал Infinity Hub

Компания AMD запустила Infinity Hub, новый портал для проектов с открытым исходным кодом, которые используются в HPC. Это не первая инициатива компании в данной области, но, пожалуй, пока самая интересная и многообещающая. Infinity Hub ориентирован на решения для высокопроизводительных вычислений (HPC), которые будут работать в первую очередь на ускорителях AMD Instinct, а не на Radeon.

Портал «заточен» на перенос существующего ПО на платформу Radeon Open Compute (ROCm), а не разработку новых решений с нуля. Сейчас на портале есть инструкции о том, как получить и использовать версии пакетов AMBER, Chroma, CP2K, GROMACS, NAMD, OpenMM, PyTorch, SPECFEM3D и TensorFlow, оптимизированных для ROCm. Некоторые из этих проектов уже имеют поддержку ROCm, так что в этом случае просто описываются технические аспекты.

Хотя ROCm может работать и с некоторыми потребительскими ускорителями Radeon, всё-так больше внимания уделяется именно Instinct. Как отмечается, AMD стремится сделать Infinity Hub ресурсом, который упростит развертывание рабочих нагрузок HPC на ускорителях вычислений. Эта инициатива также позволяет объединить все необходимые данные в одном месте.

Постоянный URL: http://servernews.ru/1047238
19.08.2021 [16:00], Игорь Осколков

Intel анонсировала ускорители Xe HPC Ponte Vecchio: 100+ млрд транзисторов, микс 5/7/10-нм техпроцессов Intel и TSMC и FP32-производительность 45+ Тфлопс

Как и было обещано несколько лет назад, основным «строительным блоком» для графики и ускорителей Intel станут ядра Xe, которые можно будет гибко объединять и сочетать с другими аппаратными блоками для получения заданной производительности и функциональности. Компания уже анонсировала первые «настоящие» дискретные GPU серии Arc, а на Intel Architecture Day она поделилась подробностями о серверных ускорителях Xe HPC и Ponte Vecchio.

Основой Xe HPC является вычислительное ядро Xe Core, которое включает по восемь векторных и матричных движков для данных шириной 512 и 4096 бит соответственно. Они делят между собой L1-кеш объёмом 512 Кбайт, с которым можно общаться на скорости 512 байт/такт.

Заявленная производительность для векторного движка (бывший EU), ориентированного на «классические» вычисления, составляет 256 операций/такт для FP32 и FP64 или 512 — для FP16. Матричный движок нужен скорее для ИИ-нагрузок, поскольку работает только с данными TF32, FP16, BF16 и INT8 — 2048, 4096, 4096 и 8192 операций/такт соответственно. Данный движок работает с инструкциями XMX (Xe Matrix eXtensions), которые в чём-то схожи с AMX в Intel Xeon Sapphire Rapids.

Отдельные ядра объединяются в «слайсы» (slice) — по 16 Xe-Core в каждом, которые дополнены 16 блоков аппаратной трассировки лучей. Именно слайс является базовым функциональным блоком. Он изготавливается на TSMC по 5-нм техпроцессу в рамках инициативы Intel IDM 2.0. Слайсы объединяются в стеки — по 4 шт. в каждом.

Стек включает также базовую (Base) «подложку» (или тайл), четыре контроллерами памяти HBM2e (сама память вынесена в отдельные тайлы), общим L2-кешем объёмом 144 Мбайт, один медиа-движок с аппаратными кодеками, а также тайл Xe Link и контроллер PCIe 5. Base-тайл изготовлен по техпроцессу Intel 7 и использует EMIB для объединения всех блоков.

Тайлы Xe Link, изготавливаемые по 7-нм техпроцессу TSMC, включают 8 интерфейсов для стеков/ускорителей вкупе с 8-портовыми коммутатором и используют SerDes-блоки класса 90G. Всё это позволяет объединить до 8 стеков по схеме каждый-с-каждым, что, в целом, напоминает подход NVIDIA, хотя у последней NVSwitch всё же (пока) является внешним компонентом.

В самом ускорителе в зависимости от конфигурации стеков может быть один или два. В случае Ponte Vecchio их как раз два, и Intel приводит некоторые данные о его производительности: более 45 Тфлопс в FP32-вычислениях, более 5 Тбайт/с пропускной способности внутренней фабрики памяти и более 2 Тбайт/с — для внешних подключений. Для сравнения, у NVIDIA A100 заявленная FP32-производительность равняется 19,5 Тфлопс, а AMD Instinct MI100 — 23,1 Тфлопс.

Также Intel показала результаты бенчмарка ResNet-50 в обучении и инференсе: 3400 и 43000 изображений в секунду соответственно. Эти результаты являются предварительными, поскольку получены не на финальной версии «кремния». Но надо учитывать, что Ponte Vecchio есть ещё одно преимущество — отдельный Rambo-тайл с дополнительным сверхбыстрым кешем, который, вероятно, можно рассматривать в качестве L3-кеша.

В целом, Ponte Vecchio — это один из самых сложны чипов на сегодняшний день. Он объединяет с помощью EMIB и Foveros 47 тайлов, изготовленных по пяти разным техпроцессам, а общий транзисторный бюджет превышает 100 млрд. Данные ускорители будут доступны в форм-факторе OAM и виде готовых плат с четырьмя ускорителями на борту (на ум опять же приходит NVIDIA HGX). И именно такие платы в паре с двумя процессорами Sapphire Rapids войдут в состав узлов суперкомпьютера Aurora. Ещё одной машиной, использующей связку новых CPU и ускорителей Intel станет SuperMUC-NG (Phase 2).

Официальный выход Ponte Vecchio запланирован на 2022 год, но и выход следующих поколений ускорителей AMD и NVIDIA, с которыми и надо будет сравнивать новинки, тоже не за горами. Пока что Intel занята не менее важным делом — развитием программной экосистемы, основой которой станет oneAPI, набор универсальных инструментов разработки приложений для гетерогенных (CPU, GPU, IPU, FPGA и т.д.) приложений, который совместим с оборудованием AMD и NVIDIA.

Постоянный URL: http://servernews.ru/1047111
Система Orphus