Материалы по тегу: isc 2018
29.06.2018 [13:00], Геннадий Детинич
Опубликованы финальные спецификации CCIX 1.0: разделяемый кеш и PCIe 4.0Чуть больше двух лет назад в мае 2016 года семёрка ведущих компаний компьютерного сектора объявила о создании консорциума Cache Coherent Interconnect for Accelerators (CCIX, произносится как «see six»). В число организаторов консорциума вошли AMD, ARM, Huawei, IBM, Mellanox, Qualcomm и Xilinx, хотя платформа CCIX объявлена и развивается в рамках открытых решений Open Compute Project и вход свободен для всех. В основе платформы CCIX лежит дальнейшее развитие идеи согласованных (когерентных) вычислений вне зависимости от аппаратной реализации процессоров и ускорителей, будь то архитектура x86, ARM, IBM Power или нечто уникальное. Скрестить ежа и ужа — вот едва ли не буквальный смысл CCIX. ![]() Варианты топологии CCIX На днях консорциум сообщил, что подготовлены и представлены финальные спецификации CCIX первой версии. Это означает, что вскоре с поддержкой данной платформы на рынок может выйти первая совместимая продукция. По словам разработчиков, CCIX позволит организовать новый класс подсистем обмена данными с согласованием кеша с низкими задержками для следующих поколений облачных систем, искусственного интеллекта, больших данных, баз данных и других применений в инфраструктуре ЦОД. Следующая ступенька в производительности невозможна без эффективных гетерогенных (разнородных) вычислений, которые смешают в одном котле исполнение кода общего назначения и спецкода для ускорителей на базе GPU, FPGA, «умных» сетевых карт и энергонезависимой памяти. ![]() Решение CCIX IP компании Synopsys Базовые спецификации CCIX Base Specification 1.0 описывают межчиповый и «бесшовный» обмен данными между вычислительными ресурсами (процессорными ядрами), ускорителями и памятью во всём её многообразии. Все эти подсистемы объединены разделяемой виртуальной памятью с согласованием кеша. В основе спецификаций CCIX 1.0, добавим, лежит архитектура PCI Express 4.0 и собственные наработки в области быстрой коррекции ошибок, что позволит по каждой линии обмениваться данными со скоростью до 25 Гбайт/с. ![]() Тестовая платформа с поддержкой CCIX Synopsys на FPGA матрице Но главное, конечно, не скорость обмена, хотя это важная составляющая CCIX. Главное — в создании программируемых и полностью автономных процессов по обмену данными в кешах процессоров и ускорителей, что реализуется с помощью новой парадигмы разделяемой виртуальной памяти для когерентного кеша. Это радикально упростит создание программ для платформ CCIX и обеспечит значительный прирост в ускорении работы гетерогенных платформ. Вместо механизма прямого доступа к памяти (DMA), со всеми его тонкостями для обмена данными, на платформе CCIX достаточно будет одного указателя. Причём обмен данными в кешах будет происходить без использования драйвера на уровне базового протокола CCIX. Ждём в готовой продукции. Кто первый, AMD, ARM или IBM?
28.06.2018 [10:50], Иван Грудцын
ISC 2018: эволюция векторных ускорителей NECСуперкомпьютерная выставка ISC 2018 во Франкфурте-на-Майне запомнится в том числе специализированными векторными процессорами SX-Aurora Tsubasa японской компании NEC, способными ускорять выполнение ресурсоёмких задач на языках C, C++ и Фортран. Внешне устройства с 16-нм архитектурой NEC Aurora можно принять за обычные ускорители на основе графических процессоров, однако решения NEC не будут напрямую конкурировать с NVIDIA Tesla и AMD Radeon Instinct. ![]() По сравнению с прошлогодними экспонатами SX-Aurora/Vector Engine 0.1, новые устройства радуют разнообразием систем охлаждения. Векторные процессоры объединены брендом Vector Engine 1.0 и могут играть первую скрипку как в однопроцессорных рабочих станциях, так и серверах и суперкомпьютерах. Ускорители SX-Aurora Tsubasa состоят из восьмиядерного кристалла с 16 Мбайт разделяемой кеш-памяти, тактовой частотой от 1,4 до 1,6 ГГц и пиковой производительностью 2,15 или 2,45 Тфлопс (FP64), а также шести микросхем буферной памяти HBM2 общим объёмом 24 или 48 Гбайт. Пропускная способность подсистемы памяти достигает внушительных 1,2 Тбайт/с. ![]() Для работы процессоров достаточно питания от слота PCI Express x16, а также от 8-контактного разъёма PCI-E Power. Таким образом, их энергопотребление не превышает 225 Вт. ![]() Наличие центробежного вентилятора у двухслотового Vector Engine 1.0 предусмотрено только в младшей версии Type 10C с быстродействием 2,15 Тфлопс и 24 Гбайт памяти HBM2. Данное устройство подходит для рабочих станций или совсем небольших серверов. Отсутствие вентилятора — верный признак «серверности». Такие ускорители могут базироваться на различных кристаллах, включая модификации 10A и 10B с 48 Гбайт памяти. ![]() ![]() Наиболее продвинутый вариант Vector Engine 1.0 предусматривает установку водоблока и, соответственно, жидкостное охлаждение. Фронтальная усилительная пластина-радиатор охлаждает элементы питания и вспомогательные микросхемы. Применение СЖО призвано снизить нагрев, уровень шума и энергопотребление. ![]() Без чего векторные ускорители NEC SX-Aurora Tsubasa не могут обойтись, так это без центрального процессора — в этой роли выступают модели Intel Xeon Gold 6100 Series и Xeon Silver 4100 Series. Системы в сборе содержат от 1-й до 64-х карт Vector Engine 1.0 и потребляют в нагрузке от 0,6 до 30 кВт.
27.06.2018 [16:00], Иван Грудцын
ISC 2018: PNY продемонстрировала ИИ-сервер AIRIВыставка ISC 2018 в Германии стала площадкой для показа компанией PNY интегрированного серверного решения AIRI, предназначенного для ресурсоёмких вычислений в рамках глубинного обучения, хранения и оперирования большими объёмами данных. Сервер, название которого расшифровывается как «AI-ready infrastructure», представляет собой плод совместных усилий специалистов NVIDIA, Pure Storage и Arista, причём вклад той или иной компании в AIRI виден невооружённым глазом. ![]() Роль PNY применительно к AIRI — приём и обслуживание заказов Узлы AIRI могут размещаться в стойке различным образом, но по умолчанию сверху находится блок коммутаторов Arista (2 × 100 Гбит/с), ниже — узел FlashBlade с SSD-накопителями, а в самом низу — четыре узла NVIDIA DGX-1 поколения Volta. В корпусе FlashBlade размещены накопители суммарным объёмом 255 Тбайт, характеризующиеся пиковой производительностью 1,5 млн IOPS. Теоретически объём AIRI можно увеличить в три раза за счёт более ёмких SSD. ![]() Узлы NVIDIA DGX-1 на базе ускорителей Tesla V100 обладают производительностью 1 Пфлопс в матричных (Tensor) вычислениях. В корпусе одного DGX-1 объединены ресурсы восьми карт на чипах Volta GV100, двух процессоров Intel Xeon E5-2698 v4 и других компонентов. Исходя из максимального энергопотребления квартета DGX-1 в 12,8 кВт в сочетании с 1,8 кВт узла FlashBlade и питанием коммутаторов, можно предположить, что для всей системы понадобится не менее 15 кВт мощности в пике нагрузки. Наряду с AIRI компания PNY продемонстрировала на ISC 2018 barebone-сервер форм-фактора 4U, который также предназначен для вычислений, связанных с глубинным обучением. «Начинкой» модели Single Root Complex Purley 4U GPU Server (артикул PNYSRA4X000000-100) по умолчанию являются: материнская плата Tyan S7119GMRE, четыре 1600-Вт блока питания с резервированием по схеме «3 + 1» и солидным уровнем энергоэффективности (сертификат 80 PLUS Platinum), набор 120-мм вентиляторов с резервированием «5 + 1» и райзер для подключения дискретного SAS-контроллера. Кроме того, в комплект поставки сервера включены два процессорных кулера LGA3647 и монтажный набор. ![]() ![]() Система допускает установку двух CPU Intel Xeon Scalable (Skylake-SP) с тепловыделением до 205 Вт, 24 модулей оперативной памяти RDIMM/RDIMM 3DS/LRDIMM/LRDIMM 3DS DDR4, как минимум 11 HPC-ускорителей на базе GPU, 14 накопителей с разъёмом подключения SATA 6 Гбит/с, четырёх NVMe SSD с интерфейсом U.2 (требуется приобретение дополнительного «внешнего» контроллера) и других компонентов. ![]() ![]()
27.06.2018 [12:30], Иван Грудцын
ISC 2018: серверный узел «РСК Торнадо» с СЖО и накопителями OptaneРоссийская группа компаний РСК представила на суперкомпьютерной выставке ISC 2018 во Франкфурте-на-Майне (Германия) гиперконвергентное HPC-решение на основе серверной архитектуры «РСК Торнадо» и накопителей Intel SSD DC P4511 и Optane SSD DC P4800X. Новый серверный узел призван стать основой высокоэффективных систем хранения данных различного масштаба. Конкурентоспособность решения в числе прочего обеспечивается использованием кластерной архитектуры, процессоров Intel Xeon Gold, системы жидкостного охлаждения, работающей в режиме «горячая вода», 100-Гбит сетевого интерфейса и относительно компактным исполнением. «Мы рады работать со специалистами РСК над развитием их инновационной гиперковергентной HPC-платформы "РСК Торнадо". Решения РСК, благодаря использованию преимуществ и расширенной функциональности продуктов на базе технологий Intel Optane и 3D NAND, обеспечивают бóльшую гибкость, — отметил Джеймс Майерс (James Myers), директор подразделения Storage Solutions Architect компании Intel. — Технология Intel Optane с IMDT в сочетании с Intel 3D NAND помогает предлагать заказчикам решения для более эффективной работы с различными приложениями и задачами, обеспечивая при этом более высокую плотность и энергетическую эффективность». Габариты «РСК Торнадо» достаточно малы для того, чтобы разместить 153 масштабируемых узла в одном шкафу типоразмера 42U. Производительность компонентов одного узла оценивается в 3,46 Тфлопс. Основой HPC-решения являются два 18-ядерных процессора Xeon Gold 6154 (Skylake-SP) с TDP-рейтингом 200 Вт, материнская плата семейства Intel S2600BP, 256 Гбайт оперативной памяти DDR4-2666 с контролем ошибок (ECC), играющие роль буферной памяти накопители Optane SSD DC P4800X и максимум двенадцать M.2/NVMe-накопителей Intel SSD DC P4511 общим объёмом 12 Тбайт. ![]() Сетевой коммутатор Intel Omni-Path Edge Switch содержит два порта с пропускной способностью 100 Гбит/с. Система жидкостного охлаждения не использует чиллеры и может работать в режиме 24/7 при температуре окружающей среды до +50 °C и температуре жидкости на входе до +63 °C. Современное охлаждение обеспечивает высокий коэффициент эффективности использования электроэнергии — 1,06, что особенно важно для HPC-индустрии. Высокая доступность, отказоустойчивость и простота использования вычислительных систем «РСК Торнадо» HPC-класса в том числе обеспечивается применением продвинутой системой управления и мониторинга на базе интегрированного программного стека «РСК БазИС». Она представляет собой открытую и легко расширяемую платформу, созданную на базе ПО с открытым исходным кодом и микроагентной архитектуры.
26.06.2018 [16:26], Сергей Карасёв
ISC 2018: новая платформа ASRock Rack поддерживает десять ускорителей NVIDIA Tesla V100Компания ASRock Rack на конференции ISC High Performance 2018 продемонстрировала ряд новейших решений для облачных систем, центров обработки данных и платформ высокопроизводительных вычислений. ![]() В частности, показана серверная платформа 3U10G-F/C621. Эта система, выполненная в форм-факторе 3U, допускает установку десяти ускорителей NVIDIA Tesla V100 с 32 Гбайт памяти. ![]() Платформа наделена 16 слотами для модулей оперативной памяти DDR4, шестью посадочными местами для 2,5-дюймовых SATA-накопителей с возможностью «горячей» замены и двумя сетевыми портами 10G Ethernet. ![]() ![]() Кроме того, продемонстрирован сервер 2U4G-EPYCD8, поддерживающий установку одного процессора AMD семейства EPYC 7000. Для модулей оперативной памяти предусмотрены восемь слотов. ![]() Сервер 2U4G-EPYCD8 соответствует формату 2U. Он может быть оснащён четырьмя графическими ускорителями, четырьмя 2,5-дюймовыми SATA-накопителями и двумя твердотельными модулями М.2. ![]() ![]() Наконец, представлена серверная платформа 3U8G+/C621, допускающая установку восьми карт NVIDIA Tesla V100. Эта система может быть оборудована 16 модулями оперативной памяти DDR4. ![]() ![]()
26.06.2018 [13:00], Алексей Степин
ISC 2018: новые накопители Intel Optane DC P4801X и DC P4511Накопители на базе флеш-памяти давно стали привычным атрибутом любого мало-мальски производительного ПК или рабочей станции, активно проникают они и в серверную сферу. В сравнении с традиционными жёсткими дисками они всем хороши, однако есть и недостаток — ресурс памяти типа NAND конечен и напрямую зависит как от количества уровней записи, так и от «толщины» техпроцесса. На этом фоне настоящим прорывом выглядит технология 3D XPoint, не столь давно представленная альянсом Intel и Micron. Память, основанная на этом принципе, работает совсем иначе, нежели классическая NAND — в ней используется некий материал, способный изменять и сохранять своё сопротивление. Что это за материал и как именно он работает — пока остаётся коммерческой тайной. Главное, что такая память не просто на порядки надёжнее, но и может похвастаться существенно меньшим уровнем задержек; также 3D XPoint не страдает от падения производительности в режиме записи. Накопители на базе данной технологии Intel поставляет на рынок под брендом Optane, и пара моделей таких SSD уже побывала в нашей тестовой лаборатории. ![]() Общие принципы работы 3D XPoint Если кеширующие недорогие модели Intel Optane Memory оставили неоднозначное впечатление, то тесты Intel Optane SSD 900P показали, что 3D XPoint очень сильна там, где подавляющее большинство традиционных SSD испытывает затруднения, а именно, в сценариях смешанной нагрузки, а также при чтении малыми блоками. Ни один из существующих SSD, даже новейший Samsung 970 PRO, не может противостоять Optane просто в силу иного принципа действия энергонезависимой памяти. На линейных операциях же первые модели серьёзных накопителей Intel Optane лидерами не стали в силу использования сравнительно простого контроллера, который не имеет даже буфера DRAM. Форм-фактор PCI Express подходит не всем, но из-за сравнительно невысокой ёмкости чипов 3D XPoint до недавнего времени создать более-менее ёмкую версию накопителя в формате M.2 компании не удавалось, а представленная модель 800P была доступна в ёмкостях всего 58 и 118 Гбайт. К тому же, она использовала только 2 линии PCIe 3.0, что ограничивало скоростной потенциал. ![]() Новое семейство Intel Optane предназначено для высокоскоростных СХД Но Intel не собирается сидеть на месте. На мероприятии ISC High Performance 2018, которое проходит сейчас во Франкфурте и продлится до 28 июня, компания показала новинки, правда, пока только серверные. Начать следует с новых моделей серии SSD DC — новые накопители P4801X теперь доступны и в формате M.2, хотя форм-фактор используется и не совсем привычный, 22110 вместо классического 2280. Но при этом задействованы все 4 линии PCI Express, а максимальная ёмкость увеличена до 375 Гбайт (имеются также модели ёмкостью 100 и 200 Гбайт). Это уже достаточно много для использования в серьёзных приложениях, требующих низкой латентности и высокой производительности при запросах с малой глубиной очереди. Интересно, что версия U.2 в корпусе формата 2,5″ будет иметь максимальную ёмкость всего 100 Гбайт. Вероятно, это вызвано тем, что Intel активно продвигает в серверной сфере новый форм-фактор твердотельных накопителей, так называемую «линейку», она же EDSFF. ![]() EDSFF на бумаге... ![]() ...в жизни... ![]() ...и в составе новых систем Supermicro Выглядят новые Optane достаточно любопытно. Они унаследовали от 800P синий цвет печатной платы, но в отличие от предшественников, «заселены» куда более плотно. Контроллер используется тот же, что и в серии 905P, анонсированной на Computex 2017. Он отличается от установленного в 900P типом упаковки — открытый кристалл против чипа с защитной крышкой. По всей видимости, и уровень производительности предполагается аналогичный, порядка 2,6 Гбайт/с при чтении и 2,2 Гбайт/с при записи, то есть, рекордов на линейных операциях P4801X явно ставить не собирается, но это и не является его целевой задачей. Параметр наработки на отказ, вероятнее всего, не ниже, нежели у потребительских моделей серии 905P, а у них он заявлен на уровне 1,6 миллиона часов. Сколько циклов перезаписи способна выдержать сама 3D XPoint, пока неизвестно; мы пытаемся это выяснить эмпирическим путем — накопитель 900P ёмкостью 280 Гбайт уже успел перевалить за отметку 6 Пбайт и по-прежнему демонстрирует статус «good», хотя официальный ресурс для этой модели с 20-нм памятью 3D XPoint составляет 5,11 Пбайт. Ресурс резерва израсходован на 77 %, но память нового типа выдержала уже более 20 тысяч циклов перезаписи, что намного выше показателей любой современной «тонкой» NAND. ![]() ![]() У Intel SSD DC P4801X развитая система питания У Intel SSD DC P4801X по-прежнему нет DRAM-кеша, в котором накопители этого типа не очень-то и нуждаются, но весьма развитой выглядит подсистема питания. Несколько крупных танталовых конденсаторов, расположенных на обратной стороне печатной платы даже заставляют предположить наличие некоей защиты от случайного отключения питания, хотя 3D XPoint в такой защите и не нуждается. Имеются и другие элементы, наличие которых не позволило накопителю уместиться в формат 2280. Чипов памяти на борту P4801X семь, по числу каналов контроллера; эта особенность была описана ещё в обзоре Optane SSD 900P. Прогресс, однако, велик: если в P4800X использовалась старая однокристальная версия 3D XPoint, то здесь установлены новые сборки с четырьмя кристаллами, что и позволило создать достаточно ёмкий накопитель формата M.2. Напоминаем, ранее при том же объёме требовалось 28 чипов памяти, что, конечно, не позволяло использовать данный форм-фактор. ![]() Intel SSD DC P4801X (внизу) и новый ёмкий DC P4511 Также на ISC 2018 были представлены новые модели более традиционных твердотельных накопителей серии DC P4511. В них применена новейшая 64-слойная память типа 3D TLC, созданная альянсом Intel и Micron. Главное достоинство новых накопителей — низкий уровень энергопотребления при высоких ёмкостях, что позволит снизить и общее энергопотребление крупных ЦОД и ЦХД. Здесь защита по питанию выглядит более чем оправданной, как, впрочем, и наличие выделенного DRAM-кеша. На снимке фигурирует модель типа M.2 22110 ёмкостью 1 Тбайт, но семейство DC P4511 этой цифрой не ограничится. Intel планирует представить на рынке в первой половине текущего года модели и с более высокой ёмкостью в вышеупомянутом формате EDSFF, как в длинной, так и в короткой версии. В стандартном 19-дюймовом стоечном корпусе высотой 1U максимальная ёмкость подсистемы хранения данных за счёт установки 32 накопителей может достигнуть 1 Пбайт — невиданный ранее показатель для столь компактной системы. ![]() Intel SSD DC P4511, вид сзади Группа РСК, о которой мы уже рассказывали нашим читателям, российский разработчик производительных платформ и суперкомпьютеров, активно приветствует новые технологии Intel. Надо сказать, что энтузиазм в отношении Optane и 3D XPoint РСК демонстрирует ничуть не меньший, а может быть, даже и больший, нежели зарубежные разработчики систем того же класса — на ISC 2018 были продемонстрированы вполне работоспособные прототипы новых вычислительных модулей Tornado. Один такой узел в новой версии теперь сможет приютить до 12 накопителей. Для этого пришлось пожертвовать габаритами, и модули стали двойной высоты. В случае с P4801X итоговая ёмкость сравнительно невелика, всего 4,5 Тбайт, но производительность в соответствующих сценариях нагрузки обещает быть великолепной, тем более, что накопители подключены напрямую к процессорам, без использования коммутаторов. Планируются к выпуску модели с накопителями EDSFF, итоговая ёмкость, соответственно, будет выше. ![]() Модуль RSC Tornado вмещает до 12 накопителей Optane Также любые модули RSC теперь будут поставляться и в версии с накопителями Optane. Для систем, у которых одним из главных преимуществ заявлена поддержка NVMe Over Fabric это логично: быстрым накопителям — быстрые сетевые технологии. Вычислительная мощь у RSC Tornado вполне солидная для модуля, предназначенного к использованию в гиперкорвергентных системах: до 3,46 Тфлопс. Каждый модуль может вместить два процессора серии Xeon Gold 6154. Новинки RSC Tornado используют интегральную систему жидкостного охлаждения, причём, поддерживается и «горячий» режим с температурой теплоносителя до 63 градусов. На снимках хорошо видны стандартные фитинги с подключёнными шлангами контура СЖО. С учётом тепловыделения порядка 10 ватт на накопитель (формата M.2) жидкостное охлаждение приходится весьма к месту. Сетевая подсистема, столь важная для кластерных систем, представлена двумя портами InfiniBand 100G или OmniPath, так что с межузловой связью проблем быть не должно. ![]() Коммутатор OmniPath класса 100G Очевидно, что новый тип твердотельной памяти с нами надолго. Он уже демонстрирует ряд непревзойдённых характеристик. Если сегмент рынка, требующий максимальной ёмкости, останется за традиционными SSD, то приложения, требующие минимальных задержек, лучше всего будут чувствовать себя именно в паре с памятью типа 3D XPoint, альтернатив которой пока не видно. Существующие технологии, такие, как STT-MRAM, обладают слишком малой удельной ёмкостью, всего 32 Мбайт на корпус. Кеширующие накопители на базе этой памяти быстрее Optane (1,5 миллиона IOPS против 550 тысяч) и обладают практически тем же уровнем латентности, но пока могут похвастаться объёмом всего 2 Гбайт, что на два порядка меньше, нежели у решений Intel. Память типа SOT-MRAM уже возможно выпускать в промышленных масштабах, но проблема с удельной ёмкостью ещё не решена. |
|