Материалы по тегу: smartnic

16.10.2020 [23:17], Юрий Поздеев

DPU в стиле Intel: сетевые адаптеры с Xeon D, FPGA, HBM и SSD

Мир сетевых карт становится умнее. Это следующий шаг в дезагрегации ресурсов центров обработки данных. Наличие расширенных возможностей сетевых карт позволяет разгрузить центральный процессор, при этом специализированные сетевые адаптеры обеспечивают более совершенные функции и безопасность. В этой новости мы познакомим вас сразу с двумя адаптерами: Silicom SmartNIC N5010 и Inventec SmartNIC C5020X.

Silicom FPGA SmartNIC N5010 предназначена для систем крупных коммуникационных провайдеров. Операторы все чаще стремятся заменить проприетарные форм-факторы от поставщиков телекоммуникационного оборудования на более стандартные варианты. В рамках этого мы видим, что производители ПЛИС не прочи освоить и эту нишу.

В Silicom FPGA SmartNIC N5010 используется Intel Stratix 10 DX с 8 Гбайт памяти HBM. Поскольку пропускная способность памяти становится все большим аспектом производительности системы, HBM будет продолжать распространяться за пределы графических процессоров и FPGA. В SmartNIC и DPU память HBM может использоваться для размещения индексных таблиц поиска и других функций для интенсивных сетевых нагрузок. Помимо HBM SmartNIC N5010 имеет еще 32 Гбайт памяти DDR4 ECC.  SmartNIC N5010 потребляет до 225 Вт, что предполагает несколько вариантов исполнения карты, в том числе и с активным охлаждением.

Самая интересная особенность новой карты — 4 сетевых порта по 100 Гбит/с. На плате SmartNIC N5010 установлены две базовые сетевые карты Intel E810 (Columbiaville). На приведенной схеме можно заметить, что используется интерфейс PCIe Gen4 x16, причем их тут сразу два. Для работы четырех 100GbE-портов уже недостаточно одного интерфейса PCIe 4.0 x16. Второй порт PCIe 4.0 x16 может быть подключен через дополнительный кабель к линиям второго процессора, чтобы избежать межпроцессорного взаимодействия для передачи данных.

Вторая новинка, Inventec FPGA SmartNIC C5020X, совмещает на одной плате процессор Intel Xeon D и FPGA Intel Stratix 10. Этот адаптер предназначен для разгрузки центрального процессора в серверах крупных облачных провайдеров. На плате установлен процессор Intel Xeon D-1612 с 32-Гбайт SSD и 16 Гбайт DDR4, подключение к ПЛИС Intel Stratix 10 DX 1100 осуществляется через PCIe 3.0 x8. Нужно отметить, что FPGA Stratix имеет свои собственные 16 Гбайт памяти DDR4, а также обеспечивает сетевые подключения 25/50 Гбит/с и оснащен интерфейсом PCIe 4.0 x8, через который адаптер подключается к хосту.

У Inventec уже есть решение на базе Arm (Inventec X250), которое использует ПЛИС Arria 10 GX660 вместе с сетевым адаптером Broadcom Stingray BCM8804, которое имеет аналогичный форм-фактор и TPD не более 75 Вт. Однако для некоторых организаций наличие единой x86 платформы, включая SmartNIC, упрощает развертывание, поэтому вариант C5020X для таких компаний более предпочтителен.

Решение получилось очень интересным, однако вряд ли его можно назвать адаптером для массового рынка, как Intel Columbiaville. На примере этого адаптера Intel показала, что может объединить элементы своего портфеля для создания комплексных решений. Inventec FPGA SmartNIC C5020X является хорошей альтернативой предложению на базе Broadcom, что позволит крупным облачным провайдерам диверсифицировать свои платформы.

Несмотря на то, что обе новинки классифицируются как «умные» сетевые адаптеры SmartNIC, вторая, пожалуй, уже ближе к DPU, если сравнивать её с адаптерами NVIDIA DPU, в которых сетевая часть дополнена Arm-процессором и GPU-ускорителем. В данном случае есть и x86-ядра общего назначения, и ускоритель, хотя и на базе ПЛИС. Впрочем, устоявшегося определения DPU и списка критериев соответствия этому классу процессоров пока нет.

Постоянный URL: http://servernews.ru/1023157
29.09.2020 [19:57], Алексей Степин

VMware возложит часть нагрузки vSphere на DPU и SmartNIC

Когда-то архитектура x86 была очень простой, хотя её CISC-основа и была сложнее пути, по которому пошли процессоры RISC. Но за всё время своей эволюции она постоянно усложнялась и на процессоры возлагались всё новые и новые задачи, требующие дополнительных расширений, а то и перекладывались задачи с плеч специализированных чипов. Эта тенденция сохраняется и поныне, однако один из лидеров в мире виртуализации, компания VMware, имеет иное видение.

Сложность приложений и сценариев растёт, x86 может не успевать за возрастающей нагрузкой

Сложность приложений и сценариев растёт, x86 может не успевать за возрастающей нагрузкой

Перекладывание на x86 несвойственных этой архитектуре задач началось с внедрения расширений MMX. Сегодня современные серверные процессоры умеют практически всё и продолжают усложняться — достаточно вспомнить Intel VNNI, подмножество AVX-512, ускоряющее работу с всё более популярными задачами машинного обучения. Однако VMware считает, что x86 не успевает за усложнением программного обеспечения и полагает, что будущее ЦОД лежит в дезагрегации вычислительных ресурсов.

С учётом того, что задачи перед серверами и ЦОД встают всё более и более сложные, неудивительно, что наблюдается расцвет всевозможных ускорителей и сопроцессоров, от умных сетевых адаптеров и уже ставших привычными ГП-ускорителей до относительно экзотических идей, вроде «процессора обработки данных» (DPU). Последнюю концепцию на конференции VMworld 2020 поддержал такой гигант в сфере виртуализации, как VMware.

Но ряд задач можно переложить на плечи ускорителей типа SmartNIC или DPU

Но ряд задач можно переложить на плечи ускорителей типа SmartNIC или DPU

Переработкой своей основной платформы виртуализации vSphere компания занимается уже давно, и в проекте прошлого года под кодовым названием Pacific переработано было многое. В частности, в основу системы управления была окончательно положена контейнерная модель на базе коммерческой системы для Kubernetes под названием Tanzu. Проект этого года, получивший имя Monterey, ознаменовал дальнейшее движение в этом направлении.

Теперь Kubernetes стал не дополнением, пусть и включенным изначально, но единственным движком для управления как виртуальными машинами первого поколения, так и более современными контейнерами. Но из этого следует дальнейшее повышение вычислительной нагрузки на серверы.

Новая версия платформы vSphere проще, но она эффективнее использует имеющиеся вычислительные ресурсы

Новая версия платформы vSphere проще, но она эффективнее использует имеющиеся вычислительные ресурсы

В частности, как отмечает VMware, обработка данных ввода-вывода становится всё сложнее. Как мы уже знаем, это привело к зарождению таких устройств, как «умные сетевые адаптеры» (SmartNIC) и даже специализированных чипов DPU. Как первые, так и вторые, как правило, содержат ядра на базе архитектуры ARM, и именно их-то и предлагает использовать для разгрузки основных процессоров VMware. Информация о том, что компания работает над переносом гипервизора ESXi на архитектуру ARM официально подтвердилась.

Важной частью ESXi, как известно, является виртуализация сетевой части — «коммутаторов» и «микро-файрволлов», и в Project Monterey появилась возможность запускать сетевую часть ESXi полностью на ресурсах DPU или SmartNIC, благо современные ускорители этих классов имеют весьма солидную производительность, а иногда и превосходят в этом плане классические центральные процессоры.

Новое видение кластера по версии VMware: каждый процессор и сопроцессор занят своим делом

Новое видение кластера по версии VMware: каждый процессор и сопроцессор занят своим делом

Сама идея ускорения сетевой части, в частности, задач обеспечения сетевой безопасности в серверах за счёт SmartNIC не нова. Новизна подхода VMware заключается в другом: теперь реализация ESXi-on-ARM позволит не просто снять нагрузку в этих сценариях с плеч основных процессоров, но и представить за счёт виртуализации все сетевые ресурсы безопасно, в виде единого унифицированного пула и вне зависимости от типа процессоров, занятых в этих задачах. Среди уже существующих на рынке устройств, совместимых с новой концепцией VMware числятся, к примеру, и NVIDIA BlueField-2 — «умный сетевой адаптер», разработанный Mellanox — и решения Intel.

Как считает VMware, такой подход кардинально изменит архитектуру и экономику ЦОД нового поколения. На это есть основания, ведь если объединить пару 64-ядерных процессоров AMD EPYC второго поколения с сетевым ускорителем или DPU, работающим под управлением ESXi в составе единой платформы vSphere, то эту систему можно будет с полным правом назвать «ЦОД в коробке». Такое сочетание позволит запускать множество виртуальных машин с достаточным уровнем производительности, ведь основным x86-процессорам не придётся вывозить на себе виртуализацию сети, функционирование файрволлов и задачи класса data storage.

Демонстрация ESXi-on-ARM выглядит скромно, но это только начало

Демонстрация ESXi-on-ARM выглядит скромно, но это только начало

Пока Project Monterey имеет статус «технологического демо», но сама идея дизагрегации серверов, над которой продолжает работу VMware, выглядит логичной и законченной. Каждый процессор будет выполнять ту задачу, к которой он лучше всего приспособлен, но за счёт единой системы виртуализации платформа не будет выглядеть сегментировано, и разработка ПО не усложнится. Кроме того, VMware уже подтвердила возможность запуска на SmartNIC и DPU приложений сторонних разработчиков, так что лёд явно тронулся.

Постоянный URL: http://servernews.ru/1021812
27.05.2020 [20:54], Алексей Степин

Новая ПЛИС Xilinx Virtex UltraScale+ оптимизирована для сетей и СХД

С момента своего появления программируемые логические схемы проделали большой путь. В конце прошлого года рекорд Xilinx, составивший 9 млн. логических ячеек был побит Intel, представившей Stratix 10 GX 10M с 10 миллионами ячеек.

Сейчас один из самых известных разработчиков ПЛИС в мире подтверждает звание лидера, анонсируя новую микросхему в серии Virtex UltraScale+ — VU23P.

Предыдущая модель, Virtex UltraScale+ VU19P, представляла собой высокопроизводительную ПЛИС общего назначения, предназначенную для разработки и прототипирования однокристальных платформ и чипов ASIC. Новая VU23P более специализирована: компания-разработчик нацелила её на использование в производительных сетевых решениях, а также для ускорения крупных систем хранения данных. Специально оговаривается тот факт, что по соотношению LUT и DSP-ячеек новинка уступает VU19P, но превосходит остальные ПЛИС в серии UltraScale+.

Зато коммуникационные возможности у VU32P развиты великолепно: в ней реализованы новейшие PAM4-трансиверы со скоростью 58 Гбит/с, поддержка шины PCI Express 4.0 и интегрированный MAC-контроллер класса 100G; конфигурация в качестве «умного» сетевого процессора допускает использование скоростей 200 Гбит/с. Всё это довольно компактно упаковано: размер кристалла не превышает 35 × 35 мм.

Комплект разработчика на базе старшей ПЛИС с PAM4-трансиверами класса 58G, VU29P

Комплект разработчика на базе старшей ПЛИС с PAM4-трансиверами класса 58G, VU29P

Virtex UltraScale+ VU23P ориентирована не только на работу в качестве сетевого ускорителя. Она с тем же успехом может выполнять и роль акселератора в масштабных сетевых системах хранения данных. Для этого в ней реализована полноценная поддержка технологии NVMe over Fabrics, ведь уже очевидно, что протокол NVMe одержал победу в сфере накопителей и именно за ним будущее.

В VU23P поддерживается ряд сценариев ускорения, востребованных в таких системах: сжатие и декомпрессия данных, их дедупликация, выстраивание очередей (sequencer functionality) и других. Также новинка найдёт своё место в конвергентных сетях, поскольку может работать в качестве шлюза, позволяющего объединять все используемые в такой сети службы в едином интерфейсе без потери производительности.

Информацию о новинке можно найти на веб-сайте компании-разработчика. Там же имеется обзор архитектуры UltraScale в целом и руководство по выбору наиболее подходящей под ваши задачи ПЛИС.

Постоянный URL: http://servernews.ru/1012016
14.05.2020 [19:35], Алексей Степин

NVIDIA представила «умный» сетевой 25GbE-контроллер Mellanox ConnectX-6 Lx

Помимо ускорителей NVIDIA A100 и систем одноимённых систем DGX на их основе компания сегодня официально представила новую разработку принадлежащей ей Mellanox — «умный» сетевой контроллер ConnectX-6 Lx, дополняющий анонсированный в конце февраля ConnectX-6 Dx.

По аналогии с серией ConnectX-4 новый процессор с суффиксом Lx представляет собой несколько упрощённый вариант старшей модели. Если ConnectX-6 Dx рассчитан на работу в сетях со скоростями 100 и 200 Гбит/с, то ConnectX-6 Lx ориентирован на сети 25/50GbE.

Популярность сетей класса 25GbE в последнее время серьёзно растёт, поскольку растут и нагрузки в различных сценариях, от бизнес-приложений и организации удалённых рабочих мест до задач машинного интеллекта и аналитики реального времени. Именно ответом на этот запрос рынка и является анонсConnectX-6 Lx : это основа массовых и доступных по цене, но при этом достаточно производительных, сетевых адаптеров.

Технически чипы ConnectX-6 Lx относится к 11 поколению сетевых процессоров Mellanox и могут обслуживать либо один порт 50GbE, либо два порта 25GbE. В качестве системного интерфейса используется 8 линий PCIe 3.0/4.0. Имеется аппаратная реализация RDMA, латентность не превышает 0,8 мкс. Также поддерживаются технологии NVMe over Fabrics и GPUDirect.

Уделено серьёзное внимание вопросам безопасности: в чипе аппаратно реализован блок Root of Trust и ускоритель шифрования IPSec, а также функция Stateful Packet Inspection, полезная для организации коммутации. ConnectX-6 Lx поддерживает аппаратное ускорение обработки и коммутации пакетов ASAP2 и технологии SR-IOV/VirtIO для работы в виртуализованных и контейнерных средах.

В настоящее время образцы ConnectX-6 Lx уже доступны, массовые поставки должны начаться в третьем квартале текущего года. На базе нового процессора будут выпускаться сетевые адаптеры в различных форм-факторах, включая низкопрофильный PCIe и OCP 3.0 с интерфейсами SFP28 или QSFP28.

Постоянный URL: http://servernews.ru/1010954
Система Orphus