Материалы по тегу: llnl

22.10.2021 [20:03], Руслан Авдеев

Для обеспечения работы суперкомпьютера El Capitan потребуется 28 тыс. тонн воды и 35 МВт энергии

К моменту ввода в эксплуатацию в 2023 году суперкомпьютер El Capitan на базе AMD EPYC Zen4 и Radeon Instinct, как ожидается, будет иметь самую высокую в мире производительность — более 2 Эфлопс. А это означает, что ему потребуются гигантские мощности для питания и охлаждения. Ливерморская национальная лаборатория (LLNL), в которой и будет работать El Capitan, поделилась подробностями о масштабном проекте, призванном обеспечить HPC-центр необходимой инфраструктурой.

В основе плана модернизации лежит проект Exascale Computing Facility Modernization (ECFM) стоимостью около $100 млн. В его рамках будет обновлена уже существующая в LLNL инфраструктура. Для реализации проекта необходимо получить очень много разрешений от местных регуляторов и очень тесно взаимодействовать с местными поставщиками электроэнергии. Тем не менее, LLNL заявляет, что проект «почти готов», по некоторым оценкам — на 93%. Функционировать новая инфраструктура должна с мая 2022 года (с опережением графика).

Сам проект стартовал ещё в 2019 году и, согласно планам, должен быть полностью завершён в июле 2022 года. В его рамках модернизируют территорию центра, введённого в эксплуатацию в 2004 году, общей площадью около 1,4 га. Если раньше центр, в котором работали системы вроде лучшего для 2012 года суперкомпьютера Sequoia (ныне выведенного из эксплуатации), обеспечивал подачу до 45 МВт, то теперь инфраструктура рассчитана уже на 85 МВт.

Конечно, даже для El Capitan такие мощности будут избыточны — ожидается, что суперкомпьютер будет потреблять порядка 30-35 МВт. Однако LLNL заранее думает о «жизнеобеспечении» преемника El Capitan. Следующий суперкомпьютер планируется ввести в эксплуатацию до того, как его предшественник будет отключён в 2029 году. Кроме того, для новой системы потребуется установка нескольких 3000-тонных охладителей. Если раньше общая ёмкость системы охлаждения составляла 10 000 т воды, то теперь она вырастет до 28 000 т.

Постоянный URL: http://servernews.ru/1051952
30.04.2021 [12:39], Андрей Галадей

LLNL, IBM и Red Hat разработают стандартизированный интерфейс управления ресурсами HPC

Ливерморская национальная лаборатория имени Лоуренса (LLNL), IBM и Red Hat объединяют усилия для разработки передовых методов работы с системами высокопроизводительных вычислений (HPC) и облачными платформами. По словам специалистов LLNL, облачные технологии всё чаще задают тренды для вычислительных экосистем. Поэтому взаимодействие HPC и облаков уже назрело, и это позволит обеспечить устойчивость таких систем в принципе.

В соответствии с недавно подписанным меморандумом о взаимопонимании (MOU) исследователи намерены внедрить инфраструктуру планирования LLNL Flux в корпоративную платформу Kubernetes — Red Hat OpenShift. Это позволит HPC использовать облачные и контейнерные технологии, а также удовлетворить растущий спрос на ресурсоёмкие задачи.

Фреймворк для планирования Flux позволяет развёртывать новые типы ресурсов, планировщики и сервисы по мере развития центров обработки данных, включая переход на эксафлопсных мощности. Возможности и большие ресурсы Flux делает его вполне подходящим для облегчения оркестровки с использованием таких инструментов, как Red Hat OpenShift, на крупномасштабных кластерах HPC, которые, по прогнозам исследователей LLNL, получат большее распространение в ближайшие годы. Объединение фреймворка Flux с фреймворками облачной оркестрации, такими как Red Hat OpenShift и Kubernetes, позволит в будущем объединить HPC и облачные технологии, что даст возможность быстрого масштабирования при необходимости.

Толчком к решению использовать Flux в качестве подключаемого модуля планировщика Kubernetes послужил успешный прототип, появившийся в результате сотрудничества Ок-Риджской национальной лаборатории (Oak Ridge National Laboratory, ORNL), Аргоннской национальной лаборатории (ANL), Ливерморской национальной лаборатория им. Э. Лоуренса (LLNL), и проекта центров передового опыта между LLNL и IBM для того, чтобы понять природу формирования рака. По словам исследователей, плагин позволил обеспечить более сложное планирование рабочих процессов Kubernetes, что убедило их в том, что они смогут интегрировать Flux с Red Hat OpenShift.

В целом, в индустрии высокопроизводительных вычислений (HPC) и анализа данных уже давно растёт интерес к использованию контейнеров для упрощения оркестрации и, как следствие более, полному и безопасному использованию ресурсов систем. Кроме того, стали появляться и первые гибридные системы, сочетающие локально установленный суперкомпьютер с облачными ресурсами.

Постоянный URL: http://servernews.ru/1038546
13.11.2020 [12:30], Владимир Мироненко

Supermicro развернула в LLNL суперкомпьютерный кластер Ruby для борьбы с COVID-19

Компания Super Micro Computer, Inc. (Supermicro), специализирующаяся на разработке решений в области корпоративных вычислений, хранения данных, сетевого оборудования и, с недавних пор, технологий экологически чистых вычислений, объявила о развёртывании дополнительного кластера в Ливерморской национальной лаборатории имени Э. Лоуренса (LLNL) с целью расширения существующих вычислительных возможностей, доступных для национальной безопасности, и оказания помощи в разработке лекарств против коронавируса SARS-CoV-2, вызывающего заболевание COVID-19.

В кластере под названием Ruby используются серверы Supermicro TwinPro 2U с четырьмя узлами на базе процессоров Intel Xeon Platinum второго поколения, имеющие 192 Гбайт памяти на борту. Узлы объединены интерконнектом Cornelis Networks Omni-Path. Кластер включает в общей сложности почти 85 000 ядер, максимальная производительность которых достигает примерно шести Пфлопс.

С более чем 1500 узлами в 26 стойках и 16 серверами TwinPro 2U в каждой стойке (64 узла), системы используют прямое жидкостное охлаждение (direct-to-chip). Плотно размещённые стойки в сочетании с жидкостным охлаждением позволяют значительно сократить занимаемую серверами площадь в центре обработки данных и снизить затраты на электроэнергию. Жидкостное охлаждение позволяет обеспечить экономию до 40–50 % совокупной стоимости владения за счёт сокращения использования кондиционеров и охлаждающих вентиляторов. Supermicro организовала, протестировала и обеспечила интеграцию систем на уровне стойки и предоставила укомплектованные plug-n-play-системы для LLNL.

«Усовершенствованные двухпроцессорные серверы TwinPro и Ultra 2U компании Supermicro были выбраны из-за их исключительной плотности, поддержки больших вычислительных нагрузок и гибкого подхода Building Block Solutions для серверов, так что LLNL может построить наилучшую кластерную конфигурацию с учётом её требований, — сообщил Чарльз Лян (Charles Liang), президент и генеральный директор Supermicro. — Мы признаём важность работы LLNL по поддержке исследований, связанных с разрушительной глобальной пандемией, и помощи в разработке вакцины против COVID-19».

Суперкомпьютерный кластер будет использоваться для незасекреченных исследований в поддержку миссии управления запасами Национального управления по ядерной безопасности США (NNSA), разработок LLNL, а также поиска терапевтических препаратов и антител против коронавируса.

«Ruby обеспечивает значительный вычислительный ресурс в нашей зоне открытого сотрудничества, спрос на который резко вырос из-за увеличения объёмов удалённой работы и роста внешнего сотрудничества, — сообщил Крис Клаус (Chris Clouse), исполняющий обязанности директора программы LLNL ASC. — Такой ресурс, как Ruby, предоставляет площадку для использования опыта и инструментов открытого сообщества в областях, важных для наших программных миссий».

Постоянный URL: http://servernews.ru/1025267
22.04.2020 [12:19], Владимир Мироненко

Corona против коронавируса: AMD и Penguin Computing обновят суперкомпьютер LLNL

Ливерморская национальная лаборатория им. Э. Лоуренса (Lawrence Livermore National Laboratory, LLNL) заключила соглашение с AMD и Penguin Computing с целью апгрейда суперкомпьютера под названием Corona (Корона), чтобы расширить его возможности в борьбе с новым коронавирусом.

Компьютерная система, установленная в лаборатории в 2018 году в рамках контракта с Penguin Computing и названная в честь полного солнечного затмения 2017 года, после модернизации почти удвоит пиковую производительность до 4,5 Пфлопс.

Компьютерная система Corona базируется на процессорах AMD EPYC 7401 вместе с графическими ускорителями AMD Radeon Instinct MI25, и использует платформу Penguin Computing Tundra Extreme Scale.

Согласно соглашению, AMD поставит для системы Corona ускорители Radeon Instinct MI50 без оплаты со стороны Национальной администрации по ядерной безопасности (NNSA), за что взамен в будущем получит неуказанное количество вычислительных циклов суперкомпьютера Министерства энергетики.

Как сообщили в AMD, эти вычислительные циклы будут использоваться для «разнообразных целей», в том числе для исследований, одобренных консорциумом COVID-19 HPC Consortium, а также для коммерческих разработок AMD.

С помощью суперкомпьютера Corona исследователи лаборатории оценивают конструкции терапевтических антител, которые могли бы улучшить связывающее взаимодействие SARS-CoV-2 с белковым антигеном. Исследователи полагают, что обновление удвоит количество выполняемых ценных вычислительных симуляций, что повысит вероятность определения эффективной конструкции антител.

«Добавление этих новых современных графических процессоров на Corona расширит возможности команд, работающих над COVID-19», — отметил Джим Брейс (Jim Brase), заместитель помощника директора программ LLNL.

Постоянный URL: http://servernews.ru/1009087
04.03.2020 [21:00], Алексей Степин

Два экзафлопса, El Capitan! — Cray создаст суперкомпьютер на базе AMD EPYC Zen4 и Radeon Instinct

Старые суперкомпьютеры уходят на покой, как ветеран GPU-вычислений Titan, но им на смену идут ещё более мощные и совершенные системы. Не столь давно по меркам ИТ-индустрии петафлопс казался огромной цифрой, а буквально сейчас начато покорение очередной вершины — экзафлопсной. Если точнее, то уже двухэкзафлопсной.  

Ливерморская национальная лаборатория имени Э. Лоуренса (LLNL) совместно с Cray и HPE объявила о начале работ по проекту El Capitan. Этот суперкомпьютер обещает стать если не самой быстрой машиной в мире, то уж точно одной из самых быстрых. Для LLNL это важный шаг, потому что лаборатория впервые за многие годы отказывается от решений IBM

Грядущий суперкомпьютер El Capitan будет обладать более привычной для нового десятилетия гетерогенной архитектурой на платформе Cray Shasta, сочетающей в себе процессоры x86 и ускорители на базе GPU. Конкретно в El Capitan будут применены новейшие процессоры AMD EPYC Genoa, четвёртого поколения Zen. Дополнять их будут ускорители Radeon Instinct, также с новой архитектурой, памятью HBM и поддержкой вычислений смешанной точности. К аждый ЦП будет связан с четырьмя ускорителями посредством шины AMD Infinity Fabric третьего поколения. 

Что важно, новая шина предложит когерентность и унифицированный доступ к памяти CPU и GPU — это не только сыграет на руку производительности, но и упростит процесс программирования. В качестве основной платформы будет использоваться ROCm. Разработчики хотят сделать новую машину как можно более универсальной, способной работать и с классическими расчётными нагрузками, и с ИИ или, скорее, уже когнитивными системами. Кроме того, изменится и подход к управлению задачами — больший упор будет сделан на контейнеры.

Для связи узлов между собой будет использоваться интерконнект Cray Slingshot, а для хранения данных будет использован комплекс ClusterStor. В рамках подготовки к новой эпохе суперкомпьютинга LLNL уже обновила свою ленточную библиотеку для холодных и архивных данных, получив почти 300 Пбайт пространства

В итоге от El Capitan ожидают шестнадцатикратного превосходства над Sierra (второе место в нынешнем списке TOP500), а в абсолютных значениях новый суперкомпьютер должен развивать свыше двух экзафлопс. Конструкция узлов Shasta спроектирована с заделом на модернизацию и рассчитана на установку вычислителей с TDP вплоть до 1 кВт. Благодаря унифицированной архитектуре система получит серьёзный запас прочности: по предварительным прогнозам, срок службы El Capitan составит не менее 10 лет. 

Точные характеристики нового суперкомпьютера — число узлов, процессоров, ускорителей, потребляемая мощность — будут объявлены позже. Ввод в эксплуатацию намечен на 2023 год.

Постоянный URL: http://servernews.ru/1005162
04.03.2020 [00:19], Андрей Созинов

Почти 300 Пбайт на ленте: LLNL получила крупнейшую СХД Spectra Logic TFinity

Ленточные накопители используются в компьютерах примерно с середины прошлого века, и несмотря на это, они всё ещё востребованы для архивации и длительного хранения данных. Поэтому в Ливерморской национальной лаборатории им. Э. Лоуренса (Lawrence Livermore National Laboratory, LLNL) в США была создана крупнейшая в мире система хранения данных Spectra TFinity на ленточных накопителях.

Вычислительные мощности Ливерморской лаборатории, среди которых и второй по производительности в мире суперкомпьютер Sierra, ежедневно производят около 30 Тбайт данных. И заметная доля их должна храниться неопределённое время, да к тому же большая их часть должна быть засекречена и надёжно защищена. Собственно, поэтому Ливерморской лаборатории и требуется большая система для архивации данных.

Но, как и любая компьютерная система, ленточная библиотека время от времени нуждается в обновлении, поэтому Ливерморская лаборатория раз в 10–20 лет полностью меняет свою ленточную СХД. И новой системой для архивации стала Spectra TFinity.

В качестве преимуществ новой системы отмечается возможность более плотного хранения данных. Обеспечивается это в первую очередь тем, что кассеты с лентами здесь хранятся в общих упаковках по десять штук, за счёт чего система TFinity физически занимает куда меньше места, чем её предшественница. Также важной особенностью нового архива является то, что он размещён в стандартных серверных стойках, что позволит в будущем легко расширить объём хранилища при необходимости.

На данный момент TFinity состоит из 23 стоек, в которых размещены 128 ленточных накопителей IBM TS1155, что даёт в сумме 19 575 слотов для кассет. Дополнительно есть ещё шесть стоек с ленточными накопителями более низкого класса для создания резервных копий данных. Всего новая система Spectra TFinity способна хранить 294 Пбайта в несжатом виде. Колоссальный объём данных!

IBM TS1155

IBM TS1155

Представители Ливерморской лаборатории отмечают, что ленточные накопители являются самым экономичным носителем данных, в них встречается наименьшее число ошибок в битах данных, а также они потребляют наименьшее количество энергии по сравнению с другими устройствами хранения данных на сегодняшний день. Главным минусом же ленточных накопителей является невысокая скорость доступа к данным. Поэтому их и используют для архивации данных с не очень частым доступом к ним.

Постоянный URL: http://servernews.ru/1005105
Система Orphus