Материалы по тегу: dpu

29.09.2020 [19:57], Алексей Степин

VMware возложит часть нагрузки vSphere на DPU и SmartNIC

Когда-то архитектура x86 была очень простой, хотя её CISC-основа и была сложнее пути, по которому пошли процессоры RISC. Но за всё время своей эволюции она постоянно усложнялась и на процессоры возлагались всё новые и новые задачи, требующие дополнительных расширений, а то и перекладывались задачи с плеч специализированных чипов. Эта тенденция сохраняется и поныне, однако один из лидеров в мире виртуализации, компания VMware, имеет иное видение.

Сложность приложений и сценариев растёт, x86 может не успевать за возрастающей нагрузкой

Сложность приложений и сценариев растёт, x86 может не успевать за возрастающей нагрузкой

Перекладывание на x86 несвойственных этой архитектуре задач началось с внедрения расширений MMX. Сегодня современные серверные процессоры умеют практически всё и продолжают усложняться — достаточно вспомнить Intel VNNI, подмножество AVX-512, ускоряющее работу с всё более популярными задачами машинного обучения. Однако VMware считает, что x86 не успевает за усложнением программного обеспечения и полагает, что будущее ЦОД лежит в дезагрегации вычислительных ресурсов.

С учётом того, что задачи перед серверами и ЦОД встают всё более и более сложные, неудивительно, что наблюдается расцвет всевозможных ускорителей и сопроцессоров, от умных сетевых адаптеров и уже ставших привычными ГП-ускорителей до относительно экзотических идей, вроде «процессора обработки данных» (DPU). Последнюю концепцию на конференции VMworld 2020 поддержал такой гигант в сфере виртуализации, как VMware.

Но ряд задач можно переложить на плечи ускорителей типа SmartNIC или DPU

Но ряд задач можно переложить на плечи ускорителей типа SmartNIC или DPU

Переработкой своей основной платформы виртуализации vSphere компания занимается уже давно, и в проекте прошлого года под кодовым названием Pacific переработано было многое. В частности, в основу системы управления была окончательно положена контейнерная модель на базе коммерческой системы для Kubernetes под названием Tanzu. Проект этого года, получивший имя Monterey, ознаменовал дальнейшее движение в этом направлении.

Теперь Kubernetes стал не дополнением, пусть и включенным изначально, но единственным движком для управления как виртуальными машинами первого поколения, так и более современными контейнерами. Но из этого следует дальнейшее повышение вычислительной нагрузки на серверы.

Новая версия платформы vSphere проще, но она эффективнее использует имеющиеся вычислительные ресурсы

Новая версия платформы vSphere проще, но она эффективнее использует имеющиеся вычислительные ресурсы

В частности, как отмечает VMware, обработка данных ввода-вывода становится всё сложнее. Как мы уже знаем, это привело к зарождению таких устройств, как «умные сетевые адаптеры» (SmartNIC) и даже специализированных чипов DPU. Как первые, так и вторые, как правило, содержат ядра на базе архитектуры ARM, и именно их-то и предлагает использовать для разгрузки основных процессоров VMware. Информация о том, что компания работает над переносом гипервизора ESXi на архитектуру ARM официально подтвердилась.

Важной частью ESXi, как известно, является виртуализация сетевой части — «коммутаторов» и «микро-файрволлов», и в Project Monterey появилась возможность запускать сетевую часть ESXi полностью на ресурсах DPU или SmartNIC, благо современные ускорители этих классов имеют весьма солидную производительность, а иногда и превосходят в этом плане классические центральные процессоры.

Новое видение кластера по версии VMware: каждый процессор и сопроцессор занят своим делом

Новое видение кластера по версии VMware: каждый процессор и сопроцессор занят своим делом

Сама идея ускорения сетевой части, в частности, задач обеспечения сетевой безопасности в серверах за счёт SmartNIC не нова. Новизна подхода VMware заключается в другом: теперь реализация ESXi-on-ARM позволит не просто снять нагрузку в этих сценариях с плеч основных процессоров, но и представить за счёт виртуализации все сетевые ресурсы безопасно, в виде единого унифицированного пула и вне зависимости от типа процессоров, занятых в этих задачах. Среди уже существующих на рынке устройств, совместимых с новой концепцией VMware числятся, к примеру, и NVIDIA BlueField-2 — «умный сетевой адаптер», разработанный Mellanox — и решения Intel.

Как считает VMware, такой подход кардинально изменит архитектуру и экономику ЦОД нового поколения. На это есть основания, ведь если объединить пару 64-ядерных процессоров AMD EPYC второго поколения с сетевым ускорителем или DPU, работающим под управлением ESXi в составе единой платформы vSphere, то эту систему можно будет с полным правом назвать «ЦОД в коробке». Такое сочетание позволит запускать множество виртуальных машин с достаточным уровнем производительности, ведь основным x86-процессорам не придётся вывозить на себе виртуализацию сети, функционирование файрволлов и задачи класса data storage.

Демонстрация ESXi-on-ARM выглядит скромно, но это только начало

Демонстрация ESXi-on-ARM выглядит скромно, но это только начало

Пока Project Monterey имеет статус «технологического демо», но сама идея дизагрегации серверов, над которой продолжает работу VMware, выглядит логичной и законченной. Каждый процессор будет выполнять ту задачу, к которой он лучше всего приспособлен, но за счёт единой системы виртуализации платформа не будет выглядеть сегментировано, и разработка ПО не усложнится. Кроме того, VMware уже подтвердила возможность запуска на SmartNIC и DPU приложений сторонних разработчиков, так что лёд явно тронулся.

Постоянный URL: http://servernews.ru/1021812
23.09.2020 [20:35], Алексей Степин

Fungible приобрела разработчика ПО для облачных систем Cloudistics

О компании Fungible и её видении будущего систем хранения данных мы рассказывали неоднократно. Этот разработчик решил довести идею ускорения работы с данными до логического завершения, представив отдельный класс процессоров DPU (Data Processing Unit). Но аппаратная часть лишь половина задачи, и для решения второй, программной части, компания приобрела Cloudistics, разработчика ПО для систем хранения данных.

Блок-схема DPU разработки Fungible

Блок-схема DPU разработки Fungible

Специализированный процессор может быть лучше и энергоэффективнее, нежели используемые в СХД процессоры общего назначения; о «начинке» DPU Funglible F1 можно прочесть в посвящённой ему заметке. Компания не без оснований считает, что DPU может стать столь же важной частью любого ЦОД, как CPU и GPU. Также Fungible отмечает, что для достижения этой цели ей потребуется создать комплекс программного обеспечения, способный объединять DPU-серверы в кластеры, каждый из которых будет наилучшим образом выполнять поставленную перед ним задачу.

Cloudistics Ignite включает в себя три типа ресурсов: накопительные, вычислительные и сетевые

Cloudistics Ignite включает в себя три типа ресурсов: накопительные, вычислительные и сетевые

Приобретение Cloudistics выглядит в свете этих намерений логичным шагом. Сумма сделки не оглашается, но в официальном заявлении отмечено, что специалисты Cloudistics обладают достаточным для создания дезагрегированных ЦОД и систем хранения данных опытом. Эта компания сравнительно молода, она была основана в 2013 году, и уже в первом раунде (A-round) финансирования ей удалось получить инвестиции на сумму $15 млн.

Главным продуктом Cloudistics стала специализированная операционная система Cloud Platform OS, позволяющая создавать и компоновать пулы хранения и обработки данных для облачных структур. В эти пулы входят три базовых компонента — блок накопителей, блок вычислений и сетевой блок. Из них по мере надобности можно формировать приватное облако и управлять им, как единым целым.

В 2018 году была представлена система Cloudistics Ignite, полностью законченное решение на основе вышеописанной концепции, позволяющее разворачивать полученную инфраструктуру, как услугу (IaaS). ПО Cloudistics уже использовала в своих платформах Lenovo, но теперь, следует ожидать нового поколения таких платформ уже на базе чипов Fungible. Впрочем, самим DPU ещё предстоит окончательно оформиться в отдельный класс устройств.

Постоянный URL: http://servernews.ru/1021356
19.08.2020 [19:04], Илья Коваль

Третий сокет: Fungible представляет новый класс процессоров — DPU

Идея дезагрегации ресурсов, которые в последнее время становятся всё более разнообразными, далеко не нова. Выделенные аппаратные блоки, которые помогают перемещать данные между ресурсами, тоже в том или ином виде развиваются не первый год. Fungible же решила довести эту концепцию до логического конца, создав DPU (Data Processing Unit).

На конференции HotChips 32 компания рассказала о двух процессорах: Fungible F1 и S1. Первому из них и был посвящён основной доклад. F1 ориентирован на работу с хранилищами и безопасную обработку больших потоков данных, которые требуются современным системам ИИ и аналитики.

При взгляде «свысока» F1 представляет собой чип c двумя основными интерфейсами: 8 каналов 100GbE и 4 контроллера PCIe 3.0/4.0 x16. Тем не менее, это не просто очередная реализация RDMA или, допустим, NVMe-oF. Со стороны сети предполагается организация общей фабрики между всем узлами, которую разработчики называют TruFabric.

В отличие от многих других решений для фабрики здесь используется стандартный и относительно дешёвый Ethernet, а не PCIe, InfiniBand, Fibre Channel или какой-то проприетарный интерконнект. Весь трафик шифруется, а для реализации собственных функций разгрузки предлагается P4-подобный язык программирования.

Со стороны PCIe F1 может «представляться» серверу как ещё один адаптер (с SR-IOV), а может предоставлять и собственный root-комплекс для прямого подключения и абстракции других устройств: CPU, GPU, FPGA, NVMe SSD, HDD и так далее.

Fungible F1 помимо Ethernet и PCIe включает общий контроллер памяти, планировщик, управляющий блок и собственно блоки обработки данных. Все они объединены внутренней сверхбыстрой шиной. Контроллеры памяти обслуживают 8 Гбайт набортной HBM (4 Тбит/с) + внешние модули DDR4-2666 ECC с поддержкой NVDIMM-N, суммарный объём которых может достигать 512 Гбайт.

Блоков обработки данных (Data Cluster) в сумме восемь. Каждый из них имеет 6 ядер MIPS-64 общего назначения c SMT4. Их дополняют отдельные аппаратные акселераторы для поиска, передачи и сжатия объёма передаваемых данных, безопасности и защиты информации, а также для аналитики данных. Все ядра и акселераторы имеют общий кеш и менеджер памяти. Суммарно на чип приходится 48 ядер и 192 потока для обработки данных.

Управляет ими отдельный блок (Control Cluster), включающий 4 ядра MIPS-64 с SMT2, а также модули безопасности: изолированный анклав, генератор случайных чисел, аппаратный акселератор для работы с ключами шифрования. MIPS-ядра также имеют блоки FPU/SIMD и поддержку аппаратной виртуализации.

Программная часть представлена мини-ОС FunOS Nucleus, которая обеспечивает самые базовые функции. В блоках Data Cluster «живёт» FunOS, которая обслуживает пять программных стеков: сеть, хранилище, виртуализация, безопасность и аналитика. В Control Cluster работает сверхтонкий гипервизор FunVisor, поверх которого запущен Linux. Для ОС, гипервизора и ВМ, работающим на хост-процессоре x86 или ARM предлагаются драйверы и агенты.

Предварительные тесты действительно показывают значительное ускорение в некоторых нагрузках, а также достаточно высокий уровень производительности самих DPU и TrueFabric. При этом в отличие от SmartNIC и других подобных решений DPU от Fungible обещают быть намного универсальнее и вместе с тем проще в работе.

Fungible даже считает, что DPU должны стать одним из ключевых компонентов современных серверов в дата-центре, заняв третий по счёту сокет в системе после CPU и GPU. Таким образом, можно будет на лету «собирать» оптимизированные под конкретные задачи конфигурации из разрозненных ресурсов, объединённых DPU-хабами в единую фабрику.

Постоянный URL: http://servernews.ru/1018641
01.08.2020 [23:02], Алексей Степин

DPU, «cопроцессоры для данных», набирают популярность, но пока не являются зрелыми

В новости об анонсе сопроцессора для SSD от Pliops, призванного разгрузить от этих задач CPU, упоминалось, что подобного рода решения разрабатывают и другие. Концепция «сопроцессора для данных» (data processing unit, DPU) уже в достаточной степени оформилась, но единства в архитектурном и программном подходе пока нет. Что может предложить современный рынок DPU?

С обработкой данных на стороне сетевого адаптера — самого периферийного устройства в любой серверной системе, активно экспериментировала ещё Mellanox. Сейчас, будучи частью NVIDIA, она продолжает начатую работу. Главной разработкой NVIDIA/Mellanox в этой сфере можно назвать чип BlueField-2, с одной стороны обеспечивающий функциональность типичного SmartNIC (один порт Ethernet класса 200G или два порта класса 100G), а с другой — поддержку NVMe over Fabrics и разгрузку центральных процессоров во всём, что касается задач ввода-вывода.

Это решение содержит как массив ARM-ядер, так и специализированные ASIC-блоки ускорения различных функций. Дополняется это наличием набортных 16 Гбайт оперативной памяти DDR4. NVIDIA видит DPU, такие, как BlueField-2, частью связки «CPU + GPU + DPU». Благодаря использованию архитектуры ARM такой подход универсален и его разделяют, к примеру, аналитики Wells Fargo.

Архитектура AWS Nitro

Архитектура AWS Nitro

Но на рынке существуют и другие игроки, активно внедряющие идеи, заложенные в концепции DPU. К ним можно отнести одного из крупнейших провайдеров облачных услуг — Amazon Web Services. Она разработала собственный DPU-ускоритель, плату Nitro. В общих чертах это решение похоже на NVIDIA/Mellanox BlueField-2, но ASIC там используется другой, собственной разработки AWS.

Инстансы Elastic Compute Cloud запускаются с использованием таких ускорителей, работающих на шине PCI Express. AWS не ограничивает их единственным предложением, а предоставляет различные оптимизированные под задачи заказчика версии — ориентированные на вычисления, машинное обучение, хранение и обработку данных и другие сценарии. AWS Nitro также содержит реализацию NVMe и NVMe-OF; похоже, это станет общим местом всех DPU.

Архитектура Diamanti

Архитектура Diamanti

Над похожим проектом работает компания Diamanti, разрабатывающая линейку выделенных гиперконвергентных серверов, оптимизированных для запуска контейнеров Kubernetes и выполняющих эту задачу лучше стандартных серверов. В серию входят модели D10, D20 и G20, и в общем виде они мало чем отличаются от обычных машин, но машины Diamanti содержат два уникальных компонента — NVMe-контроллер и 40GbE-контроллер Ethernet с поддержкой Kubernetes CNI и SR-IOV.

Решения Diamanti интересы тем, что используют два раздельных ускорителя вместо одного, и это имеет свои преимущества: скажем, скорости сетевого подключения 40 Гбит/с в ближайшее время может оказаться недостаточно, но для соответствия современным требованиям в сервере Diamanti будет достаточно сменить сетевой ускоритель, не трогая плату NVMe-контроллера, отвечающую за общение с дисковой подсистемой.

Fungible предлагает сделать DPU центром всей системы

Fungible предлагает сделать DPU центром всей системы

Также заслуживает упоминания компания Fungible, о которой мы рассказывали читателям в начале этого года. Именно она одной из первых озвучила термин DPU. На момент первого анонса, в феврале 2020 года готового ускорителя на руках у Fungible ещё не было. Но концепция DPU, пожалуй, проработана у Fungible лучше всего: предполагается, что в таких системах весь трафик, от сетевого и содержимого, пересылаемого из памяти в ЦП, до данных, передаваемых графическому процессору, будет проходить через DPU.

«Процессор обработки данных» в представлении Fungible станет звеном, объединяющем все компоненты вычислительной системы, будь то процессоры, GPU, FPGA-ускорители или массивы флеш-памяти. В качестве системы межсоединений компания планирует использовать шину TrueFabric собственной разработки, отличающуюся низким уровнем задержек. Готовое решение Fungible должна представить уже в этом году.

Архитектура Pensando Capri

Наконец, компания Pensando, в конце 2019 года начавшая сотрудничество с известным производителем СХД NetApp, уже поставляет ускорители Distributed Services Card, DSC-100. Они сочетают в едином чипе и одной плате функции, которые Diamanti решает с помощью двух раздельных карт; как уже было сказано, у такого подхода есть и минусы — заменять ускоритель придётся целиком, даже если «ускорительная» часть ещё способна на многое, а ускорить требуется лишь сетевое подключение.

В основе DSC-100 лежит процессор Capri, с сетевой стороны предоставляющий пару портов 100GbE, имеющих общий буфер пакетов. С этим буфером общается полностью программируемый процессор обработки данных, но имеются в составе чипа и классические ARM-ядра, а также «жесткие» ускорители, например, криптографический. Программируемая, «жёсткая» и ARM-части общаются посредством когерентной системы межсоединений, которая подключена к контроллеру PCIe и массиву оперативной памяти. В целом решение напоминает NVIDIA/Mellanox BlueField-2.

К сожалению, ни одно из описанных решений пока не успело стать стандартным для индустрии. Каждое из них имеет свои достоинства и недостатки, а главное — несовместимую между собой программную часть. Это делает внедрение DPU в имеющиеся структуры достаточно сложным процессом: надо не ошибиться в выборе поставщика и разработчика, а кроме того, требуется отдельная покупка, инсталляция и затраты на обслуживание и поддержку.

Лишь такие гиганты, как AWS, могут полностью обеспечить себя идеальным для своих задач DPU. Иными словами, «сопроцессоры данных» пока представляют собой нишевые устройства. Для того, чтобы они стали по-настоящему популярными, нужен единый унифицированный стандарт архитектуры — такой же, какой обеспечил в своё время универсальность и кросс-совместимость графических процессоров.

Постоянный URL: http://servernews.ru/1017218
12.02.2020 [22:00], Алексей Степин

Fungible обещает представить DPU-процессоры для дезагрегации IT-инфраструктуры

Молодая компания Fungible опубликовала планы по покорению IT-рынка с помощью концепции «процессора для данных» или DPU (data processing unit). Чипы DPU должны избавить традиционные серверные CPU от задач по управлению потоками данных.

Готового продукта на руках у Fungible пока нет, но на сайте компании документация и видео, разъясняющие суть технологии. Ожидается, что первый чип этого типа может появиться в середине или конце этого года.

Компания-разработчик называет DPU «полностью программируемым процессором», который, по её задумке, может выполнять роль звена, соединяющего между собой все компоненты вычислительной системы. При этом DPU не является ПЛИС или привычным центральным процессором. 

Чипы DPU будет иметь стандартные PCIe-интерфейсы для подключения накопителей и других устройств (ускорителей, в первую очередь), а общаться друг с другом DPU будет посредством Ethernet-фабрики. На плечи чипа лягут задачи по обработке, компрессии и шифрованию трафика. 

Использование DPU для дезагрегации IT-инфраструктуры позволит на лету компоновать вычислительные системы словно из кубиков, «набирая» ресурсы — CPU, GPU, FPGA, накопители, память — из пулов в соответствии с задачей, которую требуется решить. 

Получится ли у Fungible реализовать своё видение, пока неясно, несмотря на достаточно солидное финансирование — в частности, полученные от фонда SoftBank Vision $200 миллионов. Конкурировать новичку на рынке составных систем придётся практически со всеми крупными игроками и другими стартапами. Например, Liquid уже предлагает PCIe-фабрику Grid для объединения пулов различных ресурсов. 

Постоянный URL: http://servernews.ru/1003560
25.01.2020 [14:48], Геннадий Детинич

Серверная память UPMEM показывает 10-кратное преимущество над DDR4 в ряде задач

Опытная партия памяти UPMEM была представлена летом прошлого года. Разработчик выпустил 8-Гбайт модули DDR4-2400 RDIMM (ECC), каждый из которых опирался на 4-Гбит микросхемы DRAM с 8 встроенными процессорами DPU (data processing unit). То есть каждый модуль такой памяти был вооружён 128 процессорами для первичной обработки данных прямо на кристаллах памяти.

Важно отметить, что память UPMEM полностью совместима с имеющимся оборудованием. Модификации требуют только некоторые программные библиотеки, но они не очень большие, всего несколько сотен строк кода. Зато потом штатные платформы на процессорах Intel Xeon могут получить многократный рост производительности и снижение итогового энергопотребления без увеличения объёма памяти.

Свежим пресс-релизом разработчик поделился бенчмарками работы системы с процессорами Intel Xeon на памяти UPMEM в приложении для анализа генома человека и при индексном поиске. Работа инструмента GATK (Genome Analysis Toolkit) для составления генетической карты и анализа отклонений на массиве памяти UPMEM прошла в 10 раз быстрее, чем на аналогичном по объёму массиве обычной памяти DDR4.

Поскольку фрагменты генома обрабатывались прямо в памяти, это привело к росту пропускной способности в 11 раз. Всё вместе сопровождалось снижением потребления в 6 раз в пересчёте на пропускную способность. При этом надо отметить, что модуль UPMEM потребляет в два раза больше энергии, чем обычный модуль памяти без встроенных процессоров.

Запуск индексного поиска также  показал преимущество встроенной в память первичной обработки данных. На массиве памяти UPMEM запрос распараллеливался по всем чипам и там обрабатывался встроенными процессорами вместо того, чтобы загружать данные в центральный процессор и только там их обрабатывать. Как результат, задержки в обработке снизились в 35 раз, а пропускная способность выросла в 11 раз. Потребление при выполнении этой задачи оказалось также в 6 раз меньше, чем с использованием обычной памяти.

Результаты реальных тестов памяти UPMEM оказались несколько меньше теоретически обоснованных. Ранее разработчик заявлял о 10-кратном снижении потребления, тогда как на деле потребление снизилось в 6 раз. Но даже это выглядит превосходным результатом. При этом скорость работы приложений выросла на порядок, что окажет услугу учёным и человечеству при расшифровке генома и ускорит поиск информации удалёнными клиентами.

Постоянный URL: http://servernews.ru/1002241
Система Orphus