Материалы по тегу: dpu

08.07.2022 [23:38], Алексей Степин

Ускорители Pliops XDP Extreme прописались в облаке phoenixNAP

В прошлом году компания Pliops представила свой вариант «сопроцессора данных», ускоритель под названием XDP Extreme. Это решение не относится к классу «умных NIC», оно целиком ориентировано на ускорение работы KV-хранилищ с флеш-массивами. А сегодня компания объявила о сотрудничестве с крупным провайдером облачных услуг phoenixNAP.

Данный поставщик услуг теперь предлагает bare-metal системы, оснащённые ускорителями XDP Extreme. Развёртывание таких инстансов занимает считанные минуты. Данный DPU позволяет практически полностью устранить все «бутылочные горлышки», связанные с обслуживанием подсистемы хранения данных. В некоторых случаях выигрыш достигает 10x, а в случае сбоя RAID5/6 реконструкция массива проходит в 5 раз быстрее. Кроме того, DPU повышает защищённость хранилища.

 Преимущества XDP Extreme. Источник: Pliops

Преимущества XDP Extreme. Источник: Pliops

Также возросла надёжность использования флеш-накопителей, и даже для QLC заявлено увеличение срока службы: по сравнению с системой без DPU XDP оно может вырасти в некоторых случаях в 7 раз. Использование фирменных API и утилит облегчит управление нагрузками. Новая услуга доступна по модели pay-per-use, с возможностью резервирования на срок от месяца до года.

Постоянный URL: http://servernews.ru/1069805
04.07.2022 [22:25], Алексей Степин

Ускоритель Silicom M20E3ISLB: чипсет Intel Lewisburg в необычном форм-факторе

Шифрование трафика на высоких скоростях требует достаточно серьёзных вычислительных ресурсов и при отсутствии специфических движков в составе процессора и прочих криптоускорителей способно отъесть немалую долю производительности. Нередко такие движки входят в состав современных процессоров, а ускорители имеют на борту собственный процессор и оперативную память. Но в случае с Silicom M20E3ISLB всё иначе.

 Silicom M20E3ISLB. Источник: Silicom

Silicom M20E3ISLB. Источник: Silicom

Этот ускоритель базируется на технологии Intel QuickAssist, которая в современных реализациях способна работать с протоколами TLS и туннелями IPSec на скоростях 100–150 Гбит/с, и даже в сложных случаях шифрования развивать пропускную способность 50 Гбит/с. Но под радиатором этого ускорителя, выполненного в форм-факторе U.2, скрывается вовсе не ПЛИС, не Arm с собственной памятью и не ASIС, а обычный чипсет Intel С620 (Lewisburg).

Источник: Intel

В процессорах с более высокой степенью интеграции функциональность QAT входит в состав чипа, и, как ни странно, это не флагманские Xeon Scalable, а процессоры серии Atom C2000/C3000/C5000, а также ряд моделей Xeon D, включая D-2100 и D-2700. Но именно в старшей платформе QAT вынесена за пределы процессора. Поэтому большая часть PCIe-ускорителей с поддержкой данной технологии представляют собой чипсет Lewisburg или более ранний Coleto Creek (Intel 8925) с системой питания и интерфейсом PCI Express, в котором они способны работать в режиме Endpoint.

Источник: Intel

Хабы серии Lewisburg не новы, они увидели свет вместе со стартом платформы LGA3647 и процессорами Xeon Scalable с архитектурой Skylake. В младшем варианте C621 криптоускорители отключены, но C627 и обновлённая версия C629 полностью поддерживают QAT и могут работать в режиме x16. Ускоритель Silicom M20E3ISLB ограничен режимом x4, максимальным для формата U.2. Именно по причине QAT тепловыделение этих чипсетов достаточно высоко и достигает почти 30 Вт.

Любопытно, что устройство полностью поддерживает режим «горячей замены» и позволяет быстро и просто оснастить практически любой сервер поддержкой ускорения криптографических операций и сжатия/распаковки сетевого трафика на лету. Современные DPU обладают существенно более высокими характеристиками и универсальностью, но решения на базе Lewisburg доступнее, а возможности при этом вполне достаточны для ряда сценариев и скоростей сетевых каналов.

Постоянный URL: http://servernews.ru/1069451
21.06.2022 [23:22], Алексей Степин

Linux Foundation считает, что время DPU пришло: запущен проект Open Programmable Infrastructure

На свет «умные» сетевые адаптеры появились не вчера — технология возмужала и доросла до концепции DPU, сопроцессора данных, могущего взять на себя не только обработку трафика, но и многое другое, вплоть до обслуживания гипервизора. Текущие реализации DPU базируются на проприетарных технологиях, но организация Linux Foundation хочет положить этому конец и сделать такие сопроцессоры по-настоящему популярными.

На этой неделе организация объявила о старте инициативы Open Programmable Infrastructure (OPI), целью которой является разработка открытых программных стандартов для DPU, IPU и SmartNIC. Проект уже получил поддержку от многих ведущих разработчиков аппаратного и программного обеспечения, включая NVIDIA, Intel, Marvell, F5, Keysight, Dell Tech и Red Hat. Стоит ожидать дальнейшего увеличения количества участников.

 Изображение: opiproject.org

Изображение: opiproject.org

За счёт унификации и открытости OPI, считает Linux Foundation, темпы внедрения «умных» сетевых ускорителей существенно вырастут. Для гиперскейлеров и крупных облачных провайдеров проприетарное ПО обычно не проблема, но куда сложнее ситуация выглядит для менее крупных компаний.

Проект OPI положит конец ситуации, когда разработчики DPU порой не могут договориться даже о единой терминологии. На первой стадии участники проекта создадут стандартизированные определения для технологий и функций, выполняемых DPU, затем начнётся разработка универсальных API и программных архитектур и фреймворков, не зависящих от «железа» конкретного разработчика.

Такой крупный игрок на рынке DPU, как NVIDIA, приветствует инициативу, и в рамках проекта OPI уже открыла доступ к SDK DOCA разработчикам ПО и аппаратных сетевых средств. Компания и ранее обещала сделать DOCA для сетевых ускорителей тем же, чем стал стандарт CUDA для GPU, но теперь, к счастью, стандарт не будет закрытым: библиотеки и прочие средства, а также документация, уже доступны, а открытая лицензия позволит использовать наработки NVIDIA не только для ускорителей BlueField, но и для решений других производителей. Сайт проекта OPI находится здесь, также имеется репозиторий на GitHub.

Постоянный URL: http://servernews.ru/1068540
19.06.2022 [13:32], Алексей Степин

Alibaba Cloud представила свой вариант DPU — Cloud Infrastructure Processing Unit (CIPU)

С учётом стремительно наступающей эры DPU/IPU не вызывает удивления, что такой китайский гигант, как Alibaba Cloud, представил своё видение «универсального сетевого сопроцессора», использовав схожий термин Cloud Infrastructure Processing Unit (CIPU).

На ежегодном саммите компании Alibaba Cloud анонсировала новый чип, являющийся дальнейшим развитием идей, ранее воплощённых в умном сетевом адаптере X-Dragon, разрабатывавшемся как аналог AWS Nitro. Пока об архитектуре Alibaba CIPU известно не так много, но физически это обычная двухслотовая плата расширения с интерфейсом PCI Express.

 Источник: @ogawa_tter

Источник: @ogawa_tter

Судя по имеющимся данным, в основе лежит четвёртое поколение архитектуры X-Dragon, обеспечившее 20% прирост производительности в сравнении с предыдущим поколением этих процессоров. Что более интересно, в основе новой итерации X-Dragon лежит дуэт технологий Elastic RDMA (eRDMA) и Shared Memory Communications over RDMA (SMC-R).

Он позволяет новому ускорителю обращаться к памяти хост-системы напрямую на уровне ядра фирменных ОС Alibaba Cloud Linux 3 и Anolis OS. Для приложений, использующих TCP, всё выглядит прозрачно, но латентность при этом удалось понизить до 5 мкс.

 Источник: @ogawa_tter

Источник: @ogawa_tter

Новые сопроцессоры полностью совместимы со стеком технологий RDMA over Converged Ethernet (RoCE), причём поддерживается даже iWARP, довольно редкий вариант, встречавшийся ранее в адаптерах Intel и Chelsio. Реализации iWARP могут быть сложнее RoCE, т.к. используют многослойную архитектуру и ряд твиков, а в итоге нередко показывают менее высокую производительность. Но благодаря поддержке обеих технологий новое решение Alibaba получилось поистине универсальным.

 Источник: @ogawa_tter

Источник: @ogawa_tter

Результаты тестов весьма обнадёживают: в частности, для Redis ускорители CIPU за счёт SMC-R позволили поднять количество обрабатываемых запросов на 50%, а в сценариях с данными, чувствительными к латентности, прирост составил 20%. Исходя из опубликованных в японском блоге Tadashi Ogawa, это действительно полноценный IPU, могущий стать мостом между сетью, подсистемами хранения данных, CPU, GPU и прочими ускорителями.

Компания активно развивает собственную аппаратную инфраструктуру и в прошлом году уже представила 128-ядерный 5-нм процессор Yitian 710 на базе набора инструкций Armv9 c 8 каналами DDR5, поддержкой PCIe 5.0 (96 линий) и при этом способный работать на частотах до 3,2 ГГц.

Постоянный URL: http://servernews.ru/1068285
10.06.2022 [23:31], Алексей Степин

Решения Xilinx и Pensando помогут AMD завоевать рынок ЦОД

О грядущих серверных APU MI300, сочетающих архитектуры Zen 4 и CDNA 3, и сразу нескольких сериях процессоров EPYC мы уже рассказали, но на мероприятии Financial Analyst Day 2022 компания поделилась и другими планами относительно серверного рынка, которые весьма обширны. Они включают в себя использование разработок и технологий Xilinx и Pensando.

Фактически AMD теперь владеет полным портфолио аппаратных решений для ЦОД и рынка HPC: процессорами EPYC, ускорителями Instinct, SmartNIC и DPU на базе чипов Xilinx и Pensando и, наконец, FPGA всё той же Xilinx. Долгосрочные перспективы рынка ЦОД AMD оценивает в $125 млрд, из них на долю ускорителей приходится $64 млрд, а классические процессоры занимают лишь второе место с $42 млрд; остальное приходится на DPU, SmartNIC и FPGA.

 Источник: AMD

Источник: AMD

Теперь у AMD есть полный спектр «умных» сетевых решений практически для любой задачи, включая сценарии, требующие сверхнизкой латентности. Эту роль берут на себя адаптеры Solarflare. Более универсальные ускорители Xilix Alveo обеспечат поддержку кастомных сетевых функций и блоков ускорения, а также высокую производительность обработки пакетов. Ускорители могут быть перепрограммированы, что потенциально позволит существенно оптимизировать затраты на сетевую инфраструктуру крупных ЦОД.

 Источник: AMD

Источник: AMD

Гиперскейлерам они уже поставляются, в текущем виде они имеют до двух 200GbE-портов и совокупную скорость обработки до 400 млн пакетов в секунду. Следующее поколение должно увидеть свет в 2024 году, здесь AMD придерживается двухгодичного цикла. Выпускается и 7-нм DPU Pensando Elba, также предоставляющий пару 200GbE-портов. В отличие от Alveo, это более узкоспециализированное устройство, содержащее 144 P4-программируемых пакетных движка. Помимо них имеются выделенные аппаратные движки ускорения криптографии и сжатия/декомпрессии данных.

Уникальный программно-аппаратный стек Pensando, унаследованный AMD, обеспечивает ряд интересных возможностей, востребованных в крупных системах виртуализации на базе ПО VMware — например, полноценную поддержку виртуализации NVMe, поддержку NVMe-oF/RDMA, в том числе и NVMe/TCP, а также полноценное шифрование и туннели IPSec на полной линейной скорости 100 Гбит/с с временем отклика 3 мкс и джиттером в районе 35 нс.

Источник: AMD

Разработки Pensando уже используются такими крупными поставщиками сетевого оборудования и СХД, как Aruba (коммутаторы с DPU) и NetApp (системы хранения данных). Таким образом, AMD вполне вправе говорить о том, что современный высокопроизводительный ЦОД может быть целиком построен на базе технологий компании, от процессоров и ускорителей до интерконнекта и специфических акселераторов.

Современный безопасный ЦОД может быть целиком построен на базе технологий AMD. Источник: AMD

Поддержка доверенных вычислений, включая полное шифрование содержимого памяти делает такие ЦОД и более безопасными, что немаловажно в современном мире, полном кибер-угроз. В том же направлении движутся NVIDIA BlueField и Intel IPU, а также целый ряд других игроков.

Постоянный URL: http://servernews.ru/1067763
29.05.2022 [20:15], Игорь Осколков

Европейские Arm-процессоры SiPearl получат поддержку ускорителей и DPU NVIDIA

SiPearl, европейский разработчик высокопроизводительные и энергоэффективных процессоров для суперкомпьютеров, в том числе экзафлопсного класса, и NVIDIA объявили о сотрудничестве, в рамках которого предложат заказчикам совместные решения, включающие HPC-продукты и сетевые компоненты NVIDIA и CPU SiPearl (первым станет Rhea). Сотрудничество направленно на объединение портфолио аппаратных и программных решений обеих компаний, а также на совместную работу в области разработки продуктов и развития бизнеса.

 Источник: NVIDIA

Источник: NVIDIA

NVIDIA и SiPearl создадут прокси-платформу для переноса и анализа рабочих нагрузок, которая позволит наилучшим образом задействовать сильные стороны продуктов обеих компаний, например, HBM-память в процессорах SiPearl и массивно-параллельную архитектуру ускорителей NVIDIA. Кроме того, планируется совместная работа со сторонними европейскими исследовательскими институтами над открытыми инструментами для моделирования SoC и NoC. Компании намерены добиться полной совместимости на уровне «железа», а также совместно развивать программную экосистему для HPC-решений на базе платформы Arm.

 Источник: SiPearl

Источник: SiPearl

Ранее аналогичное соглашение о сотрудничестве было заключено между SiPearl и Intel. И в том и в другом случае SiPearl, штат которой, к слову, недавно вырос до более чем ста сотрудников, говорит о возможности предоставить европейским заказчикам наиболее оптимальное решение для их задач. Несмотря на то, что Европа стремится стать независимой от США в области высокопроизводительных вычислений (HPC), на первом этапе этого, судя по всему, исключительно своими силами обойтись будет нельзя.

Постоянный URL: http://servernews.ru/1066902
17.05.2022 [16:31], Владимир Мироненко

Meta* переманила из Intel руководителя разработки сетевого «кремния» для дата-центров

Meta* наняла Джона Даму (Jon Dama), специалиста по сетевым чипам Intel, чтобы он возглавил программу по проектированию полупроводников в группе разработки аппаратного обеспечения для инфраструктуры компании. Дама получил должность директора данного направления в этом месяце. Согласно профилю на LinkedIn, он «отвечает за несколько проектных групп, внедряющих инновации» в области масштабирования ЦОД.

Дама сообщил, что у Meta* уже сформирована соответствующая команда, и он надеется с её помощью добиться значительного прогресса в ускорении обработки данных. Дама проработал в Intel более 10 лет, куда он попал после приобретения в 2011 году технологическим гигантом производителя сетевых ASIC Fulcrum Microsystems. В Intel Дама занимался разработкой полупроводниковых решений для различного сетевого оборудования для ЦОД и рынка телекоммуникаций, включая и IPU/DPU.

 Изображения: Intel

Изображения: Intel

Вполне возможно, что интерес Мета* к Джону Даму объясняется именно тем, что в течение двух лет он руководил со стороны Intel совместной с Google разработкой нового класса устройств IPU Mount Evans (на базе ASIC), ориентированных на ЦОД гиперскейлеров. Фактически он занимал пост директора по полупроводниковым решениям для облаков и IPU в техническом департаменте Intel Connectivity Group.

После этого он перешёл на должность исполнительного директора по разработке полупроводниковых компонентов в Connectivity Group, где отвечал за «полный жизненный цикл разработки микросхем» для продуктов группы, теперь входящей в недавно появившееся бизнес-подразделение Intel Network and Edge Group (NEX). Дама, в частности, занимался ASIC коммутаторов Tofino 2 и Tofino 3, которые были получены в результате поглощения Barefoot Networks в 2019 году. Он также курировал разработку новых IP-блоков для программируемой обработки сетевого трафика и Ethernet, с упором на повышение их энергоэффективности.

Похоже, Мета* планирует повысить свою независимость от производителей чипов для ЦОД. Ресурс The Information сообщил в прошлом месяце, что Meta* стремится «контролировать ключевые технологии и уменьшить свою зависимость от поставщиков готовых микросхем». И хотя собственная разработка полупроводников требует значительных вложений, она потенциально позволит со временем снизить затраты.

Также несколько месяцев назад в СМИ сообщалось, что Meta* разрабатывает собственные серверные чипы, один из которых предназначен для повышения производительности машинного обучения для рекомендательных систем, а другой — для повышения производительности транскодирования видео для стриминга. Дальше всех в деле обретения независимости от сторонних поставщиков продвинулась облачная платформа AWS, у которой уже есть собственные CPU и SSD, ИИ-ускорители для обучения и инференса и собственно DPU Nitro, которые явно вдохновили другие компании на создание аналогичных решений.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1066091
12.05.2022 [01:20], Алексей Степин

Intel опубликовала планы по развитию IPU: 400GbE в 2024 г., 800GbE в 2026 г.

На мероприятии Vision 2022 компания Intel продолжает рассказывать о текущих и грядущих новинках, и на этот раз речь пойдет о так называемых об IPU (или DPU терминах других производителей). Новые планы Intel простираются до 2026 года и включают в себя создание ускорителей, рассчитанных на работу в сетях 400GbE и 800GbE.

Первое поколение IPU (100/200GbE) Mount Evans использует ASIC и ядра Arm Neoverse N1. Mount Evans разрабатывается совместно с Google и Microsoft. Есть и серия Oak Springs Canyon, в которой компания применила Xeon D и FPGA Agilex. На смену им в будущем придут Mount Morgan (ASIC) и Hot Springs Canyon (FPGA). Оба варианта ожидаются в 2023–24 гг. и позволят Intel освоить скорость 400 Гбит/с. Добраться до 800 Гбит/с планируется в 2025–2026 гг., и тоже при помощи ASIC и FPGA. О развитии «обычных» SmartNIC на базе FPGA компании рассказывать пока не стала.

 Изображение: Intel

Изображение: Intel

Для разработки предлагается использовать открытый фреймворк Infrastructure Programmer Development Kit (IPDK), который можно использовать для IPU/DPU, коммутаторов и даже обычных CPU. В ближайшее время IPU Intel будут «сопровождать» коммутаторы на базе Tofino 3, которые тоже поддерживаются IPDK, что позволит создать сквозную цепочку работы с сетевым трафиком. И наличие развитой программной экосистемы может сыграть решающую роль, поскольку занять свою нишу пытается целый ряд компаний: AMD (Pensando и Xilinx), Chelsio, Fungible, Kalray, Marvell, Nebulon, NVIDIA.

Постоянный URL: http://servernews.ru/1065731
28.04.2022 [22:54], Алексей Степин

Chelsio представила седьмое поколение сетевых чипов Terminator: 400GbE и PCIe 5.0 x16

Компания Chelsio Communications анонсировала седьмое поколение своих сетевых процессоров Terminator с поддержкой 400GbE. От предшественников T7 отличает более развитая вычислительная часть общего назначения, включающая в себя до 8 ядер Arm Cortex-A72, так что их уже можно назвать DPU. Всего представлено пять вариантов 5 чипов (T7, N7, D7, S74 и S72), которые различаются между собой набором движков и ускорителей. Референсная платформа T7 будет доступна в мае, первых же адаптеров на базе новых DPU следует ожидать в III квартале 2022 года.

Для задач сжатия, дедупликации или криптографии есть отдельные сопроцессоры. Никуда не делся и привычный для серии Unified Wire встроенный L2-коммутатор. Для подключения к хосту T7 теперь использует шину PCIe 5.0 x16, причём он же содержит и root-комплекс. Более того, имеется и набортный коммутатор+мост PCIe 4.0, и NVMe-интерфейс, и даже поддержка эмуляции NVMe. Всё это, к примеру, позволяет легко и быстро создать NVMe-oF хранилище или мост NVMe-NVMe для компрессии и шифрования данных на лету. Новинка предлагает ускорение работы RoCEv2 и iWARP, FCoE и NVMe/TCP, iSCSI и iSER, а также RAID5/6. Сетевая часть поддерживает разгрузку Open vSwitch и Virt-IO.

 Блок-схема старшего варианта T7 (Изображения: Chelsio Communcations)

Блок-схема старшего варианта T7 (Изображения: Chelsio Communcations)

Впрочем, поддержки P4 тут нет — Chelsio продолжает использовать собственные движки для обработки трафика. Но наработки, сделанные для серий T5 и T6, будет проще перенести на новое поколение чипов. Кроме того, появилась и практически обязательная нынче «глубокая» телеметрия всего проходящего через DPU трафика для повышения управляемости и его защиты. Если и этого окажется мало, то к T7 (и D7) можно напрямую подключить FPGA, а набортную память расширить банками DDR4/5. В пресс-релизе также отмечается, что T7 сможет стать достойной заменой InfiniBand в HРC-системах.

Вариант D7 наиболее близок к T7, но предлагает только 200GbE-подключение, лишён некоторых функций и второстепенных интерфейсов, да и в целом рассчитан на создание СХД. N7, напротив, лишён Arm-ядер и всех функций для работы с хранилищами, нет у него и PCIe-коммутатора и моста. Предлагает он только 200GbE-интерфейсы. Наконец, чипы серии S7 лишены целого ряда второстепенных функций и предоставляют только 100/200GbE-подключение. Они относятся скорее к SmartNIC, поскольку начисто лишены Arm-ядер и некоторых функций. Но зато они и недороги.

Кроме того, в седьмом поколении Termintator появилась возможность обойтись без набортной DRAM с сохранением всей функциональности. Так что использование памяти хоста позволит дополнительно снизить стоимость конечных решений, которые будут создавать OEM-производители. Сами чипы производятся с использованием техпроцесса TSMC 12-нм FFC, так что даже у старшей версии чипов типовое энергопотребление не превышает 22 Вт.

Постоянный URL: http://servernews.ru/1064908
26.04.2022 [21:39], Алексей Степин

GRAID SupremeRAID SR-1010 — возможно, самый быстрый RAID-контроллер на базе GPU для NVMe SSD

GRAID Technology продолжает развитие своих RAID-ускорителей на базе GPU для формирования NVMe(-oF)-хранилищ — компания анонсировала новый адаптер GRAID SupremeRAID SR-1010, использующий видеокарту NVIDIA RTX A2000, младшего представителя семейства Ampere. От обычной RTX A2000 плата GRAID отличается только отсутствием видеовыходов, поскольку в данном случае они не нужны.

Как и прежде, SSD и ускоритель подключаются к одной и той же PCIe-шине, а виртуальный драйвер перенаправляет всю «тяжёлую» нагрузку по обслуживанию массива накопителей на GPU. Пропускной способности PCIe 4.0 достаточно для обслуживания 32-х NVMe SSD в 4-х группах с линейными скоростями до 110 Гбайт/с при чтении и 22 Гбайт/с при записи. Для случайных операций заявлена пиковая скорость 19 млн IOPS и 1,5 млн IOPS соответственно.

 Изображения: Graid

Изображения: Graid

Это, как отмечают создатели, существенно больше того, что могут предложить лучшие аппаратные RAID-контроллеры с поддержкой NVMe в режимах RAID 5/6. Неудивительно, поскольку производительность чипа NVIDIA GA106 (3328 ядер CUDA) заведомо выше любых процессоров на борту классических RAID-адаптеров. Решение использует программный стек GRAID Technology, который компания представила вместе со своим первым продуктом, SupremeRAID SR-1000 на базе NVIDIA T1000.

 Принципиальная схема технологии SupremeRAID

Принципиальная схема технологии SupremeRAID

SupremeRAID SR-1010 поддерживает формирование массивов RAID0/1/5/6/10. Фирменное ПО совместимо с популярными дистрибутивами Linux, но может также работать и в среде Windows Server 2019/2022. Энергопотребление ускорителя составляет 70 Вт. Старт продаж SupremeRAID SR-1010 начнётся 1 мая. Приобрести новинку можно у самой компании или её OEM-партнёров.

Постоянный URL: http://servernews.ru/1064734
Система Orphus