Материалы по тегу: cxl

29.08.2022 [18:34], Алексей Степин

AMD представила DPU-платформу 400G Adaptive Exotic SmartNIC

На конференция Hot Chips 34 AMD представила новую платформу 400G Adaptive Exotic SmartNIC. В самой концепции формально нет ничего нового, поскольку DPU уже снискали популярность в среде гиперскейлеров, но вариант AMD сочетает достоинства не двух, а трёх миров: классического ASIC, программируемой логики на базе FPGA и Arm-процессора общего назначения.

На деле процессор (PSX) новинки AMD устроен ещё интереснее: он делится на два домена. В первом домене имеется шестнадцать ядер Arm Cortex-A78, организованных в четыре кластера по четыре ядра. Сюда же входят аппаратные движки для ускорения TLS 1.3. Второй домен состоит из четырёх ядер Arm Cortex-R52 и различных контроллеров низкоскоростных шин, таких как UART, USB 2.0, I2C/I3C, SPI, MIO и прочих.

 Изображения: AMD (via ServeTheHome)

Изображения: AMD (via ServeTheHome)

Посредством высокоскоростной программируемой внутренней шины блок PSX соединён с другими компонентами: модулем взаимодействия с хост-системой (CPM5N), подсистемой памяти, сетевым модулем HNICX и блоком программируемой логики. CPM5N реализует поддержку PCIe 5.0/CXL 2.0, причём доступен режим работы в качестве корневого (root) комплекса PCIe. Тут же находится настраиваемый DMA-движок.

Блок фиксированных сетевых функций представляет собой классический ASIC, обслуживающий пару портов 200GbE. Подсистема памяти представлена 8 каналами DDR5/LPDDR5 с поддержкой 32-бит DDR5-5600 ECC или 160-бит LPDDR5-6400, но говорится и совместимости с другими вариантами памяти, в то числе SCM. Здесь же имеется блок шифрования содержимого памяти с поддержкой стандартов AES-GCM/AES-XTS.

400G Adaptive Exotic SmartNIC имеет развитую поддержку VirtIO и OVS. Также поддерживается виртуализация NVMe-устройств, тоже с шифрованием. Особое внимание AMD уделила тесному взаимодействию всех частей Adaptive Exotic SmartNIC: наличие выделенных линков между блоками хост-контроллера, PSX и FPGA обеспечивает работу на полной скорости в средах, действительно требующих прокачки данных на скоростях в районе 400 Гбит/с.

Благодаря наличию FPGA-части 400G новинка можно легко адаптировать к новым требованиям со стороны заказчиков. В частности, решения на базе ПЛИС Xilinx активно поставляются в Китай, где требования к шифрованию существенно отличаются от предъявляемых к аппаратному обеспечению в Европе или США, но наличие блока FPGA позволяет решить эту проблему. У Intel уже есть в сём-то похожая платформа, но более скромная по техническим характеристикам — Oak Springs Canyon (C6000X).

Постоянный URL: http://servernews.ru/1072858
25.08.2022 [10:00], Сергей Карасёв

Консорциум CXL и JEDEC подписали меморандум о взаимопонимании

Комитет инженеров в области электронных устройств JEDEC Solid State Technology Association и консорциум CXL (Compute Express Link) объявили о подписании меморандума о взаимопонимании. Цель — сотрудничество в области DRAM и технологий постоянной памяти.

JEDEC специализируется на разработке стандартов компьютерной памяти. В работе комитета принимают участие такие известные компании, как AMD, Elpida, Hynix, IBM, Infineon, Micron, Samsung, Toshiba, Texas Instruments и другие.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

В свою очередь, консорциум CXL продвигает одноимённую технологию — высокоскоростной интерконнект, обеспечивающий взаимодействие хост-процессора с акселераторами, буферами памяти, умными устройствами ввода/вывода и пр.

По условиям договора, JEDEC и CXL сформируют совместную рабочую группу, которая будет отвечать за обмен информацией, требованиями и рекомендациями. Это поможет обеим организациям в разработке стандартов, которые будут дополнять друг друга.

«При поддержке со стороны десятков ведущих отраслевых компаний данное сотрудничество позволит обеим сторонам оптимизировать разработку стандартов и поможет JEDEC в создании отдельных стандартов, предназначенных для модулей памяти и компонентов CXL», — говорится в совместном заявлении.

Постоянный URL: http://servernews.ru/1072895
09.08.2022 [18:09], Игорь Осколков

Китайская компания Biren представила ИИ-ускоритель BR100, который обгоняет по производительности NVIDIA A100

Шанхайская компания Biren Technology, основанная в 2019 году и уже получившая более $280 млн инвестиций, официально представила серию ускорителей BR100, которые способные потягаться с актуальными решениями от западных IT-гигантов. Утверждается, что это первое изделие подобного класса, созданное в Поднебесной. Компания уже подписала соглашение о сотрудничестве с ведущим производителем серверов Inspur.

Новинка содержит 77 млрд транзисторов, использует чиплетную компоновку, изготавливается по 7-нм техпроцессу на TSMC и имеет 2.5D-упаковку CoWoS. Для сравнения — грядущие NVIDIA H100 имеют такую же упаковку, но включают 80 млрд транзисторов и изготавливаются по более современному техпроцессу TSMC N4. При этом BR100 примерно вдвое производительнее 7-нм NVIDIA A100 и примерно вдвое же медленнее H100. Впрочем, Biren приводит только данные о вычислениях пониженной точности, да и в целом говорит о том, что новинка предназначена в первую очередь для ИИ-нагрузок.

 Изображения: Biren

Изображения: Biren

В серию входят два решения: BR100 и BR104. Оба варианта оснащаются интерфейсом PCIe 5.0 x16 с поддержкой CXL. Первый вариант имеет OAM-исполнение с TDP на уровне 550 Вт. Он позволяет объединить до восьми ускорителей на UBB-плате, связав их между собой фирменным интерконнектом BLink (512 Гбайт/с) по схеме каждый-с-каждым. BR100 полагается 300 Мбайт кеш-памяти и 64 Гбайт HBM2e (4096 бит, 1,64 Тбайт/c).

 BR100

BR100

Также он способен одновременно кодировать до 64 потоков FullHD@30 HEVC/H.264, а декодировать — до 512. Кроме того, доступно создание до 8 аппаратно изолированных инстансов Secure Virtual Instance (SVI) по аналогии с NVIDIA MIG. Заявленная производительность составляет 256 Тфлопс для FP32-вычислений, 512 Тфлопс для TF32+ (по-видимому, подразумевается некая совместимость с фирменным форматом NVIDIA TF32), 1024 Тфлопс для BF16 и, наконец, 2048 Топс для INT8.

 BR104

BR104

BR104 представляет более традиционную FHFL-карту с TDP на уровне 300 Вт. По производительности она ровно вдвое медленнее старшей версии BR100, способна обрабатывать вдвое меньшее количество видеопотоков и предлагает только до 4 SVI-инстансов. BR104 имеет 150 Мбайт кеш-памяти, 32 Гбайт HBM2e (2048 бит, 819 Гбайт/c) и три 192-Гбайт/с интерфейса BLink. Для работы с ускорителями компания предлагает собственную программную платформу BIRENSUPA, совместимую с популярными фреймворками PyTorch, TensorFlow и PaddlePaddle.

Постоянный URL: http://servernews.ru/1071862
04.08.2022 [21:43], Алексей Степин

BittWare анонсировала первые ускорители с интерфейсом CXL на базе FPGA Intel Agilex

Производители аппаратного обеспечения в последнее время особенно активно анонсируют продукты, разработанные для экосистемы CXL. Пока это, в основном, модули памяти, накопители или контроллеры для самого интерконнекта CXL, но компания BittWare, дочернее предприятие Molex, представила нечто иное — по ряду параметров первые в своём роде ускорители с поддержкой CXL, пусть пока и опциональной.

Объединяет серию новинок то, что построены они на базе FPGA Intel Agilex. Всего представлено три новых модели: IA-860m, IA-640i и IA-440i. Возглавляет семейство ускоритель IA-860m, использующий самую мощную ПЛИС Agilex AGM 039, оснащённую собственным банком памяти HBM2e объёмом 16 Гбайт, но версия с поддержкой CXL может комплектоваться уже 32 Гбайт такой памяти. Помимо этого, ускоритель имеет два канала DDR5 для DIMM-модулей и три QSFP-DD (до 400GbE).

 Источник: BittWare

Источник: BittWare

Эта модель предназначена для сценариев, требующих высокой пропускной способности одновременно от сетевых каналов и подсистемы памяти. Интересной особенностью является наличие внутренних портов расширения MCIO, каждый из которых представляет собой по два корневых комплекса PCIe 4.0 x4.

 Источник: BittWare

Блок-схема IA-860m. Источник: BittWare

Модель IA-640i проще, что видно даже по более скромной однослотовой пассивной системе охлаждения. Здесь устанавливается ПЛИС Intel Agilex AGI 019 или AGI 023, 400GbE-порт QSFP-DD только один, интерфейс MCIO тоже один, памяти HBM нет, а DDR4 заменила DDR5. Поддержка CXL также опциональна, как и в старшей версии, она пока ограничена версией 1.1. Фактически при желании можно просто докупить соответствующий IP-блок.

 Источник: BittWare

Блок-схема IA-640i. Источник: BittWare

Наконец, версия IA-440i предназначена для использования в компактных серверах, она имеет низкопрофильный конструктив, остальные же её характеристики практически аналогичны IA-640i, за исключением того, что из внутренних интерфейсов у этой модели остался только USB. Все ускорители сопровождаются набором фирменного ПО: драйверами, SDK BittWare, библиотеками и утилитами мониторинга. Новинки поддерживают стандарт Intel oneAPI.

 Источник: BittWare

Блок-схема IA-440i. Источник: BittWare

Возможности, предоставляемые новыми ускорителями, ограничены только физическими возможностями набортных логических матриц и фантазией разработчиков. Они могут стать основой для инференс-систем, ускорителей работы с базами данных, «вычислительных накопителей», поддержки сетей 5G, обработки потоков данных с массивов различных датчиков в «умной» промышленности и для многого другого.

Первые поставки младших моделей запланированы на заключительный квартал этого года с последующим выходом на массовое производство в I квартале 2024 года. А вот первых IA-860m следует ждать не раньше II квартала следующего года, тогда как массовые поставки, согласно опубликованным планам, стартуют лишь годом позже, во II квартале 2024 года.

Постоянный URL: http://servernews.ru/1071587
03.08.2022 [20:20], Алексей Степин

Microchip представила контроллеры памяти SMC 2000: два канала DDR4-3200/DDR5-4800 и 16 линий CXL

Экосистема CXL продолжает формироваться: идея дезагрегации ресурсов встретила тёплый отклик рынка, всё чаще появляются новые решения с поддержкой данного стандарта. Развивается и сам стандарт — буквально на днях были приняты и опубликованы спецификации CXL 3.0. А компания Microchip Technology представила новые контроллеры памяти с поддержкой CXL и двух каналов DDR4-3200 или DDR5-4800.

Коммутаторы и контроллеры для среды CXL компания выпускала и ранее, но серия SMC 2000 является новинкой, которая послужит мостом между памятью DDR4/DDR5 и CXL-шиной. В новой серии представлены контроллеры с конфигурацией 8×32G (PM8701) и 16×32G (PM8702), отвечающие набору спецификаций CXL 2.0 (Type 3) и 1.1. Вариант 16×32G к тому же является самым производительным в индустрии на сегодняшний день: он поддерживает сразу 16 линий CXL, способных работать на скорости 32 ГТ/с (PCIe 5.0).

 Источник: Microchip Technology

Источник: Microchip Technology

Это серьёзный шаг вперёд по сравнению с контроллером SMC 1000 первого поколения, чьи возможности были ограничены формулой 8×25G. Данный чип специально разрабатывался для модулей Open Memory Interface (OMI), но данная технология практически не «взлетела», оказавшись ограниченной рамками платформы IBM POWER. В итоге все наработки по OMI и OpenCAPI были переданы в руки консорциума CXL.

 CXL позволит легко наращивать объёмы памяти. Источник: SK hynix

CXL позволит легко наращивать объёмы памяти. Источник: SK hynix

Серию SMC 2000 явно ждёт более успешная судьба: новые чипы позволят создавать высокоскоростные двухканальные модули объёмом от 512 Гбайт. К тому же они поддерживают стекирование микросхем DRAM — до четырёх слоёв на канал. А это открывает дорогу к ещё более серьёзным объёмам. Более подробно о SMC 2000 можно узнать на сайте производителя.

Постоянный URL: http://servernews.ru/1071495
03.08.2022 [18:56], Игорь Осколков

Samsung анонсировала Memory-Semantic SSD: DRAM + NAND + CXL

Samsung анонсировала новые решения для корпоративного сектора, которые, по словам компании, «трансформируют перемещение, хранение, обработку и управление данными в эпоху Big Data». Впрочем, подробные характеристики новинок компания не предоставила, ограничившись общими словами.

Первым в списке значится петабайтное хранилище (Petabyte Storage). Под этим компания подразумевает возможность формирования СХД ёмкостью от 1 Пбайт на базе единственного узла. Высота и компоновка такого узла не уточняются, но это не так и важно, поскольку аналогичные, пусть и поначалу специализированные, решения от других вендоров были представлены ещё два с лишним года назад. Упомянула Samsung и о возможностях расширенной телеметрии, отслеживающей состояние DRAM, NAND, контроллера и прошивки в составе SSD и позволяющей зарнее выявить потенциальные проблемы.

 Изображения: Samsung

Изображения: Samsung

Следующий анонс касается т.н. Memory-Semantic SSD, который, по словам компании, сочетает преимущества обычных накопителей и оперативной памяти. В этом можно было бы увидеть намёк на SCM-решение, подходящее в качестве замены почивших Optane, но в данном случае прямо говорится о наличии DRAM-кеша, который позволяет до 20 раз улучшить показатели скорости и задержки на случайных операциях чтения по сравнению с обычными SSD.

Новый SSD оптимизирован для мелкоблочных чтения и записи, что, по словам Samsung, крайне важно для ИИ-нагрузок и машинного обучения. Кроме того, прямо говорится о поддержке CXL. Анонсированные вчера спецификации CXL 3.0 как раз позволяют в полной мере задействовать все возможности такого гибридного SSD в составе CXL-фабрики и GFAM. Но до массового распространения этого стандарта пока ещё очень далеко.

Наконец, компания объявила о доступности накопителей PM1743 и PM1653 — первых SSD с поддержкой PCIe 5.0 и SAS-4 соответственно. Кроме того, компания напомнила о втором поколении своих SmartSSD с FPGA на борту и CXL-модулях DDR5. Однако сейчас для Samsung, пожалуй, важнее представить новое поколение NAND, чтобы догнать Micron, SK Hynix и даже YMTC.

UPD 08.08.2022: ресурс Blocks & Files поделился некоторыми подробностями о новинках Samsung. Так, в рамках проекта Petabyte Storage компания показала 128-Тбайт SSD на базе QLC-памяти и с поддержкой ZNS. Samsung смогла уместить в SFF-корпус сразу две платы с чипами памяти. Так что новинка значительно компактнее, ёмче и быстрее предыдущего рекордсмена — 100-Тбайт Nimbus ExaDrive.

Прототип Memory-Semantic SSD базируется на PM9A3 с CXL-интерфейсом и 8-Гбайт DRAM-кешем. Он действительно предлагает как NVMe-доступ (CXL.io), так и load/store (CXL.mem). Наличие DRAM-буфера позволяет работать с блоками размером от 64 байт. Заявленная пиковая производительность для последовательного чтения достигает 139 Гбайт/с, а для случайного — 22 млн IOPS.

Постоянный URL: http://servernews.ru/1071491
02.08.2022 [16:00], Алексей Степин

Опубликованы спецификации Compute Express Link 3.0

Мало-помалу стандарт Compute Express Link пробивает себе путь на рынок: хотя процессоров с поддержкой ещё нет, многие из элементов инфраструктуры для нового интерконнекта и базирующихся на нём концепций уже готово — в частности, регулярно демонстрируются новые контроллеры и модули памяти. Но развивается и сам стандарт. В версии 1.1, спецификации на которую были опубликованы ещё в 2019 году, были только заложены основы.

Но уже в версии 2.0 CXL получил массу нововведений, позволяющих говорить не просто о новой шине, но о целой концепции и смене подхода к архитектуре серверов. А сейчас консорциум, ответственный за разработку стандарта, опубликовал свежие спецификации версии 3.0, ещё более расширяющие возможности CXL.

 Источник: CXL Consortium

Источник: CXL Consortium

И не только расширяющие: в версии 3.0 новый стандарт получил поддержку скорости 64 ГТ/с, при этом без повышения задержки. Что неудивительно, поскольку в основе лежит стандарт PCIe 6.0. Но основные усилия разработчиков были сконцентрированы на дальнейшем развитии идей дезагрегации ресурсов и создания компонуемой инфраструктуры.

Сама фабрика CXL 3.0 теперь допускает создание и подключение «многоголовых» (multi-headed) устройств, расширены возможности по управлению фабрикой, улучшена поддержка пулов памяти, введены продвинутые режимы когерентности, а также появилась поддержка многоуровневой коммутации. При этом CXL 3.0 сохранил обратную совместимость со всеми предыдущими версиями — 2.0, 1.1 и даже 1.0. В этом случае часть имеющихся функций попросту не будет активирована.

Одно из ключевых новшеств — многоуровневая коммутация. Теперь топология фабрики CXL 3.0 может быть практически любой, от линейной до каскадной с группами коммутаторов, подключенных к коммутаторам более высокого уровня. При этом каждый корневой порт процессора поддерживает одновременное подключение через коммутатор устройств различных типов в любой комбинации.

Ещё одним интересным нововведением стала поддержка прямого доступа к памяти типа peer-to-peer (P2P). Проще говоря, несколько ускорителей, расположенных, к примеру, в соседних стойках, смогут напрямую общаться друг с другом, не затрагивая хост-процессоры. Во всех случаях обеспечивается защита доступа и безопасность коммуникаций. Кроме того, есть возможность разделить память каждого устройства на 16 независимых сегментов.

При этом поддерживается иерархическая организация групп, внутри которых обеспечивается когерентность содержимого памяти и кешей (предусмотрена инвалидация). Теперь помимо эксклюзивного доступа к памяти из пула доступен и общий доступ сразу нескольких хостов к одному блоку памяти, причём с аппаратной поддержкой когерентности. Организация пулов теперь не отдаётся на откуп стороннему ПО, а осуществляется посредством стандартизированного менеджера фабрики.

Сочетание новых возможностей выводит идею разделения памяти и вычислительных ресурсов на новый уровень: теперь возможно построение систем, где единый пул подключенной к фабрике CXL 3.0 памяти (Global Fabric Attached Memory, GFAM) действительно существует отдельно от вычислительных модулей. При этом возможность адресовать до 4096 точек подключения скорее упрётся в физические лимиты фабрики.

Пул может содержать разные типы памяти — DRAM, NAND, SCM — и подключаться к вычислительным мощностями как напрямую, так и через коммутаторы CXL. Предусмотрен механизм сообщения самими устройствами об их типе, возможностях и прочих характеристиках. Подобная архитектура обещает стать востребованной в мире машинного обучения, в котором наборы данных для нейросетей нового поколения достигают уже поистине гигантских размеров.

В настоящее время группа CXL уже включает 206 участников, в число которых входят компании Intel, Arm, AMD, IBM, NVIDIA, Huawei, крупные облачные провайдеры, включая Microsoft, Alibaba Group, Google и Meta*, а также ряд крупных производителей серверного оборудования, в том числе, HPE и Dell EMC.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1071323
01.08.2022 [23:00], Игорь Осколков

Великое объединение: спецификации и наработки OpenCAPI и OMI планируется передать консорциуму CXL

Консорциумы OpenCAPI Consortium (OCC) и Compute Express Link (CXL) подписали соглашение, которое подразумевает передачу в пользу CXL всех наработок и спецификаций OpenCAPI и OMI. Если будет получено одобрения всех участвующих сторон, то это будет ещё один шаг в сторону унификации ключевых системных интерфейсов и возможности реализации новых архитектурных решений. Во всяком случае, на бумаге.

Консорциумы OpenCAPI (Open Coherent Accelerator Processor Interface) был сформирован в 2016 году с целью создание единого, универсального, скоростного и согласованного интерфейса для связи CPU с ускорителями, сетевыми адаптерами, памятью, контроллерами и устройствами хранения и т.д. Причём в независимости от типа и архитектуры самого CPU. На тот момент новый интерфейс был определённо лучше распространённого тогда PCIe 3.0. С течением времени дела у OpenCAPI шли ни шатко ни валко, однако фактически его использование было ограничено только POWER-платформами от IBM.

 Источник: OpenCAPI

Источник: OpenCAPI

Тем не менее, в недрах OpenCAPI родился ещё один очень интересный стандарт — Open Memory Interface (OMI). OMI, если коротко, предлагает некоторую дезагрегацию путём добавления буферной прослойки между CPU и RAM. С одной стороны у OMI есть унифицированный последовательный интерфейс для подключения к CPU, с другой — интерфейсы для подключения какой угодно памяти, на выбор конкретного производителя.

 Источник: Open Memory Interface (OMI)

Источник: Open Memory Interface (OMI)

OMI позволяет поднять пропускную способность памяти, не раздувая число контактов и физические размеры и самого CPU, и модулей. Однако и в данном случае массовая поддержка OMI по факту есть только в процессорах IBM POWER10. Концептуально CXL в части работы с памятью повторяет идею OMI, только в данном случае в качестве физического интерфейса используется распространённый PCIe.

 Изображение: SK Hynix

Изображение: SK Hynix

Существенная разница c OMI в том, что начальная поддержка CXL будет в грядущих процессорах AMD и Intel. А Samsung и SK Hynix уже готовят соответствующие DDR5-модули. Да и в целом поддержка CXL в индустрии намного шире. Так что консорциуму CXL, по-видимому, осталось поглотить только ещё один конкурирующий стандарт в лице CCIX, как это уже произошло с Gen-Z.

Комментируя соглашение, президент консорциума CXL отметил, что сейчас наиболее удачное время для объединения усилий, которое принесёт пользу всей IT-индустрии. Участники OpenCAPI имеют богатый опыт, который поможет улучшить грядущие спецификации CXL и избежать ошибок.

Постоянный URL: http://servernews.ru/1071325
01.08.2022 [18:41], Игорь Осколков

SK hynix вслед за Samsung представила CXL-модули DDR5

SK hynix Inc. представила свои первые образцы DDR5-модулей в форм-факторе EDSFF E3.S. Новинки оснащены интерфейсом PCIe 5.0 x8 и контроллерами CXL 2.0. Массовое производство таких модулей начнётся в 2023 году. Одновременно компания представила и open source набор HMSDK для разработки решений на базе новой памяти. Он будет доступен в IV квартале 2022 года.

Первые образцы обладают довольно скромной ёмкостью (всего 96 Гбайт), но построены они на базе современных 24-Гбит чипов, изготовленных по техпроцессу 1α. Есть и ещё один нюанс — поскольку, по словам компании, массовых серверных платформ с поддержкой E3.S x8 всё ещё нет, некоторые образцы адаптирована для использования в имеющихся аппаратных платформах.

 Изображения: SK Hynix

Изображения: SK Hynix

Тем не менее, интерес к новинками в том или ином виде уже выразили AMD, Dell, Intel и Montage. SK hynix, как и другие участники консорциума CXL, отмечает, что гетерогенный подход к архитектуре памяти в серверах откроет возможности для создания компонуемой инфраструктуры, а также позволит гибко выбирать необходимые уровень производительности и ёмкость DRAM. Впрочем, в полном объёме вся гибкость работы с памятью будет доступна только на платформах с поддержкой CXL 2.0, которую грядущие серверные процессоры AMD и Intel предложить не смогут.

SK hynix отмечает, что даже простое сочетание DIMM и CXL-модулей в рамках одного узла позволит существенно нарастить суммарную пропускную способность DRAM — с 260–320 Гбайт/c до 360–480 Гбайт/с. Ёмкость, правда, согласно расчётам SK hynix, вырастет с 768 Гбайт до 1,15 Тбайт. Samsung же ещё этой весной анонсировала выход 512-Гбайт CXL-модулей DDR5, а в прошлом году представила платформу Poseidon V2 с поддержкой PCIe 5.0, CXL и E3.S-модулей.

Постоянный URL: http://servernews.ru/1071314
20.07.2022 [14:23], Алексей Степин

Корейский институт передовых технологий показал прототип пула памяти DirectCXL

Идея дезагрегации памяти интересует не только владельцев крупных облачных ЦОД, но и специалистов по суперкомпьютерным системам, которые также способны много выиграть от использования подобных технологий. В числе прочих, активно ведёт работы в данном направлении Корейский институт передовых технологий (KAIST), продемонстрировавший недавно работоспособный прототип технологии под названием DirectCXL, передаёт The Next Platform.

 Источник: KAIST/CAMELab

Источник: KAIST/CAMELab

Нетрудно понять из названия, что основой является протокол CXL. Основные принципы, заложенные в DirectCXL лаборатория KAIST CAMELab раскрыла ещё на мероприятии USENIX Annual Technical Conference, они изложены в брошюре, доступной для скачивания с сайта лаборатории.

 Источник: KAIST/CAMELab

Источник: KAIST/CAMELab

Исследователи также провели сравнительное тестирование технологий CXL и RDMA, для чего была использована не самая новая версия InfiniBand FDR (56 Гбит/с) на базе Mellanox ConnectX-3. Как выяснилось, RDMA всё ещё обеспечивает более низкие задержки, однако прогресс в этой области остановился, тогда как у CXL имеется потенциал.

 сточник: KAIST/CAMELab

Источник: KAIST/CAMELab

Избавление от «лишних» протоколов в цепочке между вычислительными узлами и узлами памяти позволило превзойти показатели RDMA over Fabrics. Прототип CXL-пула CAMELab состоял из четырёх плат с разъёмами DIMM и контроллерами на базе FPGA, отвечающими за создание линков PCIe и реализацию протокола CXL 2.0, четырёх хост-систем и коммутатора PCI Express. Для сравнения RDMA с CXL была применена система Facebook* DLRM.

Как показали тесты, CXL-система CAMELab тратит на инициализацию существенно меньше тактов, нежели RDMA, и в некоторых случаях выигрыш составляет свыше восьми раз, но в среднем равен 2–3,7x, в зависимости от сценария. Некоторое отставание от классической локальной DRAM есть, но оно не так значительно и им в данном случае можно пренебречь, особенно с учётом всех преимуществ, обеспечиваемых CXL 2.0.

 CXL тратит на пересылку пакета данных чуть более 300 циклов, RDMA — более 2700. Источник: KAIST/CAMELab

CXL тратит на пересылку пакета данных чуть более 300 циклов, RDMA — более 2700. Источник: KAIST/CAMELab

Стоит учитывать, что поддержки адресации CXL-памяти нет пока ни в одной доступной системе, и здесь CAMELab проделали серьезную работу, создав стек DirectCXL, работающий, судя по всему, непосредственно на FPGA: как и в NUMA-системах, при адресации в режиме load/store первичная обработка данных происходит «на месте», сами данные лишний раз никуда не пересылаются. Также стоит отметить, что драйвер DirectCXL существенно проще созданного Intel для пулов Optane Pmem.

 Источник: KAIST/CAMELabs

Источник: KAIST/CAMELabs

Над аналогичными проектами работают также Microsoft с технологией zNUMA и Meta* Platforms, разрабатывающая протокол Transparent Page Placement и технологию Chameleon. А Samsung, которая первой представила CXL-модули DDR5, объединилась с Liqid и Tanzanite для развития аппаратных CXL-платформ. Ожидается, что в ближайшее время мы увдим множество разработок на тему использования технологий дезагрегации и создания унифицированных пулов памяти, подключаемых к хост-системам посредством интерконнекта CXL.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1070460
Система Orphus