Материалы по тегу: pci express 5.0
03.06.2023 [14:10], Алексей Степин
ADATA продемонстрировала память следующего поколения: CAMM, CXL и MR-DIMMНа ежегодной выставке Computex 2023 компания ADATA продемонстрировала свои первые модули памяти нового поколения, которые будут использоваться в современных вычислительных системах: CAMM, CXL и MR-DIMM. Для серверных систем компания продемонстрировала решение на базе стандарта CXL 1.1 с интерфейсом PCI Express 5.0 x4, выполненное в форм-факторе E3.S. Модуль несёт на борту контроллер Montage Technology и предназначен для расширения основного объёма оперативной памяти, подобно решениям DCPMM. При этом у Samsung, например, уже есть DRAM с поддержкой CXL 2.0. Интересно выглядит также другое серверное решение — MR-DIMM (multi-ranked buffered DIMM). Это новое поколение буферизированной памяти, поддержка которой появится в следующих поколениях процессоров AMD и Intel. По сути, такой модуль объединяет два RDIMM в одном, что позволяет поднять ёмкость и производительность «малой кровью». Скорость этих последних новинок стартует с отметки 8400 Мт/с, максимальное значение пока составляет 17600 Мт/с. Модули MR-DIMM Adata будут поставляться в объёмах 16, 32, 64, 128 и 192 Гбайт. Одним из инициаторов создания стандарта MR-DIMM (или MRDIMM) стала AMD. Intel, Renesas и SK hynix работают над похожим решением — MCR DIMM. Наконец, у компании уже есть готовый дизайн модуля CAMM в форм-факторе, который призван заменить SO-DIMM в компактных, сверхкомпактных и переносных системах. Интересно, что каждый модуль CAMM на базе LPDDR5 изначально будет поддерживать работу в двухканальном режиме. Правда, спецификации CAMM будут завершены только во второй половине этого года, так что некоторые характеристики могут измениться.
23.05.2023 [15:01], Сергей Карасёв
Intel выпустила первые FPGA Agilex 7 с поддержкой PCIe 5.0 и CXLКорпорация Intel в ходе суперкомпьютерной конференции ISC 2023 сообщила о начале производства программируемых вентильных матрицах (FPGA) семейства Agilex 7, предназначенных для ускорения выполнения различных задач, связанных с обработкой данных. Часть семейства Agilex 7 были анонсирована в марте нынешнего года. Решения имеют гетерогенную многокристальную архитектуру, в центре которой находится микросхема FPGA, соединённая с трансиверами посредством моста Intel Multi-Die Interconnect Bridge (EMIB). Каждый чиплет (в Intel их называют «плитками») отвечает за выполнение определённых функций. Intel приступила к выпуску версий Agilex 7, в состав которых входит «плитка» R-Tile. Она включает блоки PCIe 5.0 x16 и CXL 1.1/2.0, обеспечивая высокую гибкость при использовании в сетях передачи данных, в составе облачных платформ, ЦОД, систем НРС и пр. Достигается быстродействие до 32 GT/s в расчёте на одну линию. При производстве применятся 10-нм технология. ![]() Источник изображений: Intel ![]() Отмечается, что настраиваемая и масштабируемая архитектура Agilex 7 позволяет заказчикам быстро разворачивать платформы в соответствии со своими специфичными потребностями. Это обеспечивает оптимальную производительность дата-центров и позволяет сократить затраты. Изделия Agilex 7 могут применяться в серверах на основе процессоров Intel Xeon Sapphire Rapids.
12.05.2023 [13:33], Сергей Карасёв
Samsung разработала первую в отрасли память DRAM с поддержкой CXL 2.0Компания Samsung Electronics объявила о создании первой в отрасли памяти DRAM ёмкостью 128 Гбайт с поддержкой стандарта Compute Express Link (CXL) 2.0. Массовое производство изделий планируется организовать до конца текущего года. Напомним, CXL — это высокоскоростной интерконнект, обеспечивающий взаимодействие хост-процессора с акселераторами, буферами памяти, устройствами ввода/вывода и пр. Финальные спецификации CXL 2.0 были обнародованы в конце 2020 года. Память Samsung DRAM на базе CXL 2.0 использует PCle 5.0 x8 и обеспечивает пропускную способность до 35 Гбайт/с. В разработке изделия принимали участие специалисты Intel. Отмечается, что с целью создания технологий интерфейсов следующего поколения Samsung сотрудничает с рядом ЦОД, а также с производителями серверов и чипов с момента создания консорциума CXL в 2019 году. ![]() Источник изображения: Samsung Одним из партнёров является Montage Technology: эта компания планирует организовать массовое производство контроллеров с поддержкой CXL 2.0. Стандарт CXL 2.0 позволяет формировать пулы памяти и хостам динамически выделять память по мере необходимости. Новая технология позволит клиентам повысить эффективность использования ресурсов при одновременном снижении эксплуатационных расходов.
24.03.2023 [20:28], Алексей Степин
Kioxia анонсировала серверные SSD на базе XL-FLASH второго поколенияПо мере внедрения новых версий PCI Express растут и линейные скорости SSD. Не столь давно 3-4 Гбайт/с было рекордно высоким показателем, но разработчики уже штурмуют вершины за пределами 10 Гбайт/с. Компания Kioxia, крупный производитель флеш-памяти и устройств на её основе, объявила на конференции 2023 China Flash Market о новом поколении серверных накопителей, способных читать данные со скоростью 13,5 Гбайт/с. Новые высокоскоростные SSD будут построены на базе технологии XL-FLASH второго поколения. Первое поколение этих чипов компания (тогда Toshiba) представила ещё в 2019 году. В основе лежат наработки по BiCS 3D в однобитовом варианте, что позволяет устройствам на базе этой памяти занимать нишу Storage Class Memory (SCM) и служить заменой ушедшей с рынка технологии Intel Optane. Как уже сообщалось ранее, XL-FLASH второго поколения использует двухбитовый режим MLC, но в любом случае новые SSD Kioxia в полной мере раскроют потенциал PCI Express 5.0. Они не только смогут читать данные на скорости 13,5 Гбайт/с и записывать их на скорости 9,7 Гбайт/с, но и обеспечат высокую производительность на случайных операциях: до 3 млн IOPS при чтении и 1,06 млн IOPS при записи. Время отклика для операций чтения заявлено на уровне 27 мкс, против 29 мкс у XL-FLASH первого поколения. Kioxia полагает, что PCI Express 5.0 и CXL 1.x станут стандартами для серверных флеш-платформ класса SCM надолго — господство этих интерфейсов продлится минимум до конца 2025 года, лишь в 2026 году следует ожидать появления первых решений с поддержкой PCI Express 6.0. Активный переход на более новую версию CXL ожидается в течение 2025 года. Пока неизвестно, как планирует ответить на активность Kioxia другой крупный производитель флеш-памяти, Samsung Electronics, которая также располагает высокопроизводительной разновидностью NAND под названием Z-NAND.
11.03.2023 [21:38], Алексей Степин
Intel представила FPGA Agilex 7 с высокоскоростными трансиверами F-TileFPGA остаются популярными как гибкие решения, пригодные для реализации широкого круга задач по ускорению обработки данных. Однако с ростом пропускной способности современных сетей растут соответствующие требования и к FPGA. Ответом на вызовы в этом сегменте стал выпуск новой серии ПЛИС Intel Agilex 7 с самыми быстрыми в мире FPGA трансиверами F-Tile. F-Tile — двухрежимный последовательный интерфейс, предлагающий схемы модуляции PAM4 и NRZ. Он может работать на скоростях до 116 Гбит/с. Также предлагается реализация Ethernet вплоть до 400GbE. Каждый тайл такого типа может содержать до четырёх высокоскоростных каналов FHT с поддержкой PAM4 и до 16 менее скоростных каналов FGT, ограниченных 58 Гбит/с в режиме PAM4 и 32 Гбит/с в режиме NRZ. Количество F-тайлов в составе Agilex 7 зависит от конкретной модели чипа. Наличие столь высокопроизводительных трансиверов в составе Agilex 7 делает новые ПЛИС Intel отлично подходящими для поддержки высокоскоростных сетей (в качестве DPU), в том числе беспроводных, или для ИИ-ускорителей. Производительностью Agilex 7 не обделены — для старшей серии M говорится о 38 Тфлопс, правда, в режиме FP16. Базируются новые ПЛИС на уже не слишком новом 10-нм техпроцессе Intel 7 Enhanced SuperFin, и в старшей серии M могут предоставить в распоряжение разработчику 3,85 млн логических элементов, 12300 блоков DSP и 370 Мбайт быстрой интегрированной памяти, а также до 32 Гбайт памяти в HBM2e-сборках. Также в составе присутствует квартет ядер Arm Cortex-A53. Agilex 7 поддерживают интерфейс PCI Express 5.0 и CXL 1.1 (посредством R-Tile). Таким образом, программируемые матрицы Intel Agilex 7 благодаря сочетанию быстрых трансиверов и интерфейсов HBM2e и LPDDR5 найдут применение в любых сценариях, где требуется обработка существенных массивов данных: в периферийных системах первичной обработки данных, решениях искусственного интеллекта, при развёртывании сетей 5G и даже в сфере HPC.
07.03.2023 [17:05], Владимир Мироненко
Supermicro анонсировала высокопроизводительные и высокоплотные All-Flash СХД: PCIe 5.0 + EDSFF E3.S/E1.SSupermicro сообщила о пополнении семейства высокопроизводительных и высокоплотных All-Flash СХД петабайтного класса. Новые системы Supermicro поддерживают NVMe SSD в форм-факторе EDSFF E3.S/E1.S и предлагают 16 или 32 отсека для накопителей PCIe 5.0. Первые системы получат поддержку до 0,5 Пбайт дискового пространства в 1U-шасси с 16 отсеками. Чуть позже появятся 1-Пбайт 2U-системы с 32 отсеками на базе современных платформ Intel и AMD с поддержкой PCIe 5.0. Отмечается, что новинки позволят заказчикам сократить количество стоечных систем, необходимых для удовлетворения требований к хранению данных на «горячем» и «тёплом» уровнях, и снизить совокупную стоимость владения. «Новые хранилища компактны и энергоэффективны и обеспечат нашим пользователям самую низкую задержку и самую высокую пропускную способность в отрасли. Производительность и ёмкость этих новых систем позволяют клиентам задействовать передовые ИИ-технолгии. Используя нашу модульную архитектуру, мы можем быстрее выводить новейшие технологии на рынок, предоставляя пользователям передовые системы», — отметил президент и гендиректор Supermicro Чарльз Лян (Charles Liang). ![]() Источник изображения: Supermicro Новые системы на базе Intel оснащены двумя процессорами Intel Xeon Sapphire Rapids с TDP до 270 Вт и содержат до 32 модулей DDR5-4800 (суммарно до 8 Тбайт). В свою очередь, платформы на базе AMD EPYC включают CPU с TDP до 350 Вт и 24 модуля DDR5-4800. Данные системы предназначены для приложений с интенсивными вычислениями, высокими требованиями к IO-подсистеме и объёму оперативной памяти. Кроме того, новые платформы предложат два слота PCIe 5.0 x16 для FHHL-карт расширения и два AIOM-слота (OCP 3.0), тоже PCIe 5.0 x16. Это позволит оснастить СХД ИИ-ускорителями, а также DPU/SmartNIC для NVMe-oF. Supermicro отмечает, что новая симметричная NUMA-архитектура сокращает задержку обращения к накопителями, обеспечивает баланс пропускной способности и увеличивает гибкость сетевого подключения. А симметричный дизайн шасси улучшает поток воздуха, позволяя использовать более мощные процессоры. В серию войдут платформы SSG-121E-NE316R (1U16, E3.S), SSG-221E-NE324R (2U32, E3.S) и SSG-121E-NES24R (1U24, E1.S) на базе Intel, а также две AMD-платформы: ASG-1115S-NE316R (1U16, E3.S) и ASG-2115S-NE332R (2U32, E3.S).
16.01.2023 [22:51], Алексей Степин
Unifabrix: использование CXL повышает эффективность работы многоядерных системИзраильский стартап UnifabriX показал, что разработанный его силами пул Smart Memory Node с поддержкой CXL 3.0 может не только расширять объём доступной системам оперативной памяти, но и повышать эффективность её использования, а также общую производительность серверных платформ. На конференции SC22, прошедшей в конце прошлого года, компания продемонстрировала работу Smart Memory Node в комплексе с несколькими серверами на базе Sapphire Rapids. ![]() UnifabriX Smart Memory Node. Использование E-EDSFF E3 позволяет легко наращивать объём пула (Источник здесь и далее: Blocks & Files) UnifabriX делает основной упор не на непосредственном увеличении доступного объёма оперативной памяти с помощью CXL, а на том, что эта технология повышает общую пропускную способность подсистемы памяти, что позволяет процессорным ядрам использовать её более эффективно. Как показывает приведённый график, со временем число ядер в современных процессорах активно росло, но доступная каждому ядру ПСП снижалась. ![]() По мере увеличения количества ядер, каждому ядру достаётся всё меньше памяти. На SC22 компания провела тестирование с помощью HPC-бенчмарка HPCG (High Performance Conjugate Gradient), который оценивает не только «голую» производительность вычислений, но и работу с памятью, что не менее важно в современных нагрузках. Без использования пула Smart Memory Node максимальная производительность была достигнута при загрузке процессорных ядер не более 50 %, то есть вычислительные ресурсы у системы ещё были, но для их использования катастрофически не хватало пропускной способности памяти! ![]() Подключение пулов CXL позволило поднять производительность на 26 %. В реальных сценариях выигрыш может оказаться ещё больше Компания считает, что в случае с такими процессорами, как AMD EPYC Genoa, использование только локальной DRAM выведет систему «на плато» уже при 20 % загрузке. Подключение же пулов Smart Memory Node позволило, как минимум, на 26 % повысить загрузку процессорных ядер, поскольку предоставило в их распоряжение дополнительную пропускную способность. К локальным 300 Гбайт/с, обеспечиваемым DDR5, добавилось ещё 256 Гбайт/с, «прокачиваемых» через PCIe 5.0/CXL. ![]() Схема тестовой платформы, показанной на SC22 В тестовом сценарии на SC22 были использованы системы на базе Xeon Max. UnifabriX Smart Memory Node имеет в своём составе сопроцессор RPU (Resource Processing Unit), дополненный фирменным ПО. Устройство использует модули EDSFF E3 (такие есть у Samsung и SK hynix), максимальная совокупная ёмкость памяти может достигать 128 Тбайт. UnifabriX умеет отслеживать загрузку каналов памяти каждого процессора из подключённых к нему систем, и в случае обнаружения нехватки ПСП перенаправляет дополнительные ресурсы туда, где они востребованы. Каждое такое устройство оснащено 10 портами CXL/PCIe 5.0. ![]() Smart Memory Node имеет 10 портов CXL, совместимых с PCI Express 5.0/6.0 Таким образом, UnifabriX наглядно указала на основное узкое место современных NUMA-систем и показала, что использование CXL позволяет обойти накладываемые ограничения и использовать многоядерные комплексы более эффективно. Речь идёт как об обеспечении каждого ядра в системе дополнительной ПСП, так и о повышении эффективности подсистем хранения данных, ведь один пул Smart Memory Node может содержать 128 Тбайт данных.
12.12.2022 [19:27], Алексей Степин
Консорциум PICMG утвердил формат модулей COM-HPC Mini с поддержкой PCIe 4.0 и 5.0Недостатки старого формата промышленных вычислительных модулей COM Express — наличие лишь 440 контактов и невозможность обеспечения стабильной работы интерфейса PCIe 4.0 и новее — привели к созданию нового семейства форматов под общим названием COM-HPC (High Performance Computing), сообщает CNX-Software. До недавнего времени стандарт описывал типоразмеры модулей с габаритами 95 × 120 мм (размер A) до 160 × 120 мм (размер C), а также более крупные серверные типы D и E (160 × 160 и 200 × 160 мм соответственно). Но на днях консорциум PICMG, отвечающий за развитие COM-HPC, утвердил стандарт более компактных модулей COM-HPC Mini. ![]() Источник: CNX Software Габариты модулей нового типа составляют всего 95 × 60 мм. Этого удалось добиться путём отказа от одного из разъёмов, так что контактов у COM-HPC Mini всего 400. По коммутационным возможностям это 90% от возможностей COM Express Type 6 (125 × 96 мм). На данный момент размеры и распиновка COM-HPC Mini финализированы, минимальные изменения в стандарт могут быть внесены в I и II кварталах 2023 года. ![]() Источник: www.picmg.org У COM-HPC Mini есть преимущество в виде официальной поддержки более высоких скоростей передачи данных, соответствующих стандартам PCI Express 4.0 и 5.0. Правда, разработчики говорят, что новый стандарт вытеснит господствующий сейчас в своём габаритном классе COM Express Mini (84 × 55 мм) не сразу. Модули COM-HPC Mini найдут применение в различных встраиваемых приложениях. В группу разработки нового стандарта входит 15 компаний-производителей промышленных ПК, в частности, ADLINK, Kontron и Сongatec, которые вскоре начнут разработку модулей нового стандарта. Сам по себе набор спецификаций COM-HPC открытый, но бесплатным он не является и стоит $750.
29.08.2022 [18:34], Алексей Степин
AMD представила DPU-платформу 400G Adaptive Exotic SmartNICНа конференция Hot Chips 34 AMD представила новую платформу 400G Adaptive Exotic SmartNIC. В самой концепции формально нет ничего нового, поскольку DPU уже снискали популярность в среде гиперскейлеров, но вариант AMD сочетает достоинства не двух, а трёх миров: классического ASIC, программируемой логики на базе FPGA и Arm-процессора общего назначения. На деле процессор (PSX) новинки AMD устроен ещё интереснее: он делится на два домена. В первом домене имеется шестнадцать ядер Arm Cortex-A78, организованных в четыре кластера по четыре ядра. Сюда же входят аппаратные движки для ускорения TLS 1.3. Второй домен состоит из четырёх ядер Arm Cortex-R52 и различных контроллеров низкоскоростных шин, таких как UART, USB 2.0, I2C/I3C, SPI, MIO и прочих. Посредством высокоскоростной программируемой внутренней шины блок PSX соединён с другими компонентами: модулем взаимодействия с хост-системой (CPM5N), подсистемой памяти, сетевым модулем HNICX и блоком программируемой логики. CPM5N реализует поддержку PCIe 5.0/CXL 2.0, причём доступен режим работы в качестве корневого (root) комплекса PCIe. Тут же находится настраиваемый DMA-движок. Блок фиксированных сетевых функций представляет собой классический ASIC, обслуживающий пару портов 200GbE. Подсистема памяти представлена 8 каналами DDR5/LPDDR5 с поддержкой 32-бит DDR5-5600 ECC или 160-бит LPDDR5-6400, но говорится и совместимости с другими вариантами памяти, в то числе SCM. Здесь же имеется блок шифрования содержимого памяти с поддержкой стандартов AES-GCM/AES-XTS. 400G Adaptive Exotic SmartNIC имеет развитую поддержку VirtIO и OVS. Также поддерживается виртуализация NVMe-устройств, тоже с шифрованием. Особое внимание AMD уделила тесному взаимодействию всех частей Adaptive Exotic SmartNIC: наличие выделенных линков между блоками хост-контроллера, PSX и FPGA обеспечивает работу на полной скорости в средах, действительно требующих прокачки данных на скоростях в районе 400 Гбит/с. Благодаря наличию FPGA-части 400G новинка можно легко адаптировать к новым требованиям со стороны заказчиков. В частности, решения на базе ПЛИС Xilinx активно поставляются в Китай, где требования к шифрованию существенно отличаются от предъявляемых к аппаратному обеспечению в Европе или США, но наличие блока FPGA позволяет решить эту проблему. У Intel уже есть в сём-то похожая платформа, но более скромная по техническим характеристикам — Oak Springs Canyon (C6000X).
09.08.2022 [18:09], Игорь Осколков
Китайская компания Biren представила ИИ-ускоритель BR100, который обгоняет по производительности NVIDIA A100Шанхайская компания Biren Technology, основанная в 2019 году и уже получившая более $280 млн инвестиций, официально представила серию ускорителей BR100, которые способные потягаться с актуальными решениями от западных IT-гигантов. Утверждается, что это первое изделие подобного класса, созданное в Поднебесной. Компания уже подписала соглашение о сотрудничестве с ведущим производителем серверов Inspur. Новинка содержит 77 млрд транзисторов, использует чиплетную компоновку, изготавливается по 7-нм техпроцессу на TSMC и имеет 2.5D-упаковку CoWoS. Для сравнения — грядущие NVIDIA H100 имеют такую же упаковку, но включают 80 млрд транзисторов и изготавливаются по более современному техпроцессу TSMC N4. При этом BR100 примерно вдвое производительнее 7-нм NVIDIA A100 и примерно вдвое же медленнее H100. Впрочем, Biren приводит только данные о вычислениях пониженной точности, да и в целом говорит о том, что новинка предназначена в первую очередь для ИИ-нагрузок. В серию входят два решения: BR100 и BR104. Оба варианта оснащаются интерфейсом PCIe 5.0 x16 с поддержкой CXL. Первый вариант имеет OAM-исполнение с TDP на уровне 550 Вт. Он позволяет объединить до восьми ускорителей на UBB-плате, связав их между собой фирменным интерконнектом BLink (512 Гбайт/с) по схеме каждый-с-каждым. BR100 полагается 300 Мбайт кеш-памяти и 64 Гбайт HBM2e (4096 бит, 1,64 Тбайт/c). Также он способен одновременно кодировать до 64 потоков FullHD@30 HEVC/H.264, а декодировать — до 512. Кроме того, доступно создание до 8 аппаратно изолированных инстансов Secure Virtual Instance (SVI) по аналогии с NVIDIA MIG. Заявленная производительность составляет 256 Тфлопс для FP32-вычислений, 512 Тфлопс для TF32+ (по-видимому, подразумевается некая совместимость с фирменным форматом NVIDIA TF32), 1024 Тфлопс для BF16 и, наконец, 2048 Топс для INT8. ![]() BR104 BR104 представляет более традиционную FHFL-карту с TDP на уровне 300 Вт. По производительности она ровно вдвое медленнее старшей версии BR100, способна обрабатывать вдвое меньшее количество видеопотоков и предлагает только до 4 SVI-инстансов. BR104 имеет 150 Мбайт кеш-памяти, 32 Гбайт HBM2e (2048 бит, 819 Гбайт/c) и три 192-Гбайт/с интерфейса BLink. Для работы с ускорителями компания предлагает собственную программную платформу BIRENSUPA, совместимую с популярными фреймворками PyTorch, TensorFlow и PaddlePaddle. |
|