Материалы по тегу: dpu

21.01.2021 [22:52], Алексей Степин

Wistron и Kalray представили новую СХД FURIO1200 с DPU K200

Идея выделенного сопроцессора (Data Processing Unit, DPU), занятого исключительно задачами обслуживания подсистемы хранения данных, проста и логична: специализированный кремний работает эффективнее процессоров общего назначения и демонстрирует более высокую энергоэффективность. Одним из пионеров DPU является Fungible, о решениях которой мы неоднократно рассказывали ранее, но и других интересных разработок в этой области немало.

Wistron, крупный тайваньский производитель электронного оборудования, заключила альянс с Kalray, компанией, специализирующейся на разработке сетевых процессоров и сопроцессоров обработки данных. Плодом этого сотрудничества и стала новая система FURIO1200.

В основе FURIO1200 лежит стандартное шасси Wistron LYMMA 2U с посадочными местами для 24 накопителей NVMe, но таких решений на рынке много. Самое интересное в данном случае сосредоточено в PCIe-адаптере K200, построенном на базе сопроцессора Kalray MPPA Coolidge. Он предназначен для установки в стандартные вычислительные узлы на базе x86 и обеспечивает обслуживание флеш-массива, поддержку NVMe-oF, шифрования, а также разгрузку хост-узлов от задач, связанных с обработкой специфических данных, например, данных, полученных от систем машинного зрения.

В основе MPPA Coolidge лежит фирменная архитектура Massively Parallel Processor Array. Как следует из названия, она представляет собой массив вычислительных ядер. Сами ядра построены на базе архитектуры VLIW, требующей для достижения оптимального параллелизма тщательной оптимизации на уровне компилятора. Таких ядер в составе процессора может быть до 800, частота их работы — от 600 МГц до 1,2 ГГц. Ядра сгруппированы в кластеры, каждый кластер включает в себя 16 ядер общего назначения и 1 управляющее ядро, ответственное также за функции безопасности. На кластер приходится 4 Мбайт выделенного кеша L2 с пропускной способностью 600 Гбайт/с.

5 кластеров в составе Coolidge обеспечивают внушительную производительность: 1,15 Тфлопс на операциях FP32 и 25 Топс для INT8, что делает процессор хорошо подходящим для широкого круга задач, включая ИИ и системы машинного зрения. Имеется двухканальный контроллер DDR4-3200, а для общения с внешним миром предусмотрено 16 линий PCI Express 4.0 и два интерфейса 100GbE/RoCE v2.

Интересно, что процессор может работать как в классическом многоядерном режиме SMP, так и в асимметричном режиме, в котором каждый кластер, по сути, работает как один из 16 отдельных одноядерных ЦП. В FURIO1200 процессор на борту адаптера K200 работает на благо NVMe-oF, но также позволяет запускать пользовательские приложения, для чего в комплекте поставляется открытый SDK.

Архитектура процессора Kalray MPPA Coolidge

Архитектура процессора Kalray MPPA Coolidge

Наличие столь мощного сопроцессора не только обеспечивает FURIO1200 гибкость в обработке данных, но также позволяет добиться внушительных скоростных характеристик. Производительность на случайных операциях у новинки может превышать 12 млн IOPS при латентности в районе 20-50 мс, а на последовательных операциях — достигать 72 Гбайт/с.

Пока FURIO1200 является, скорее, концептом: первые небольшие партии будут доступны заказчикам в первом квартале, а массовое производство запланировано на середину года. Первые клиентские тесты начнутся в течение ближайших недель.

Постоянный URL: http://servernews.ru/1030699
05.12.2020 [13:38], Владимир Мироненко

Основатель Mellanox, покинув NVIDIA, присоединился к стартапу Pliops

В Сети появились сообщения о том, что основатель Mellanox Эяль Вальдман (Eyal Waldman, на фото ниже) вошёл в совет директоров Pliops, израильского стартапа в области технологий хранения данных. Ожидается, что он будет способствовать работе Pliops, оказывая помощь в масштабировании её технологию для новых вариантов использования.

В его обязанности будет входить предоставление консультаций по финансовым вопросам, персоналу и общей стратегии, а также общение с ключевыми клиентами и партнёрами Pliops.

«Pliops — одна из тех компаний, которые способны добиться огромного влияния. Это переломный момент для ЦОД, и я с нетерпением жду возможности поработать с командой Pliops в ходе внедрения её технологии», — сказал Вальдман, бывший генеральный директор компании Mellanox, которая была приобретена в прошлом году NVIDIA за $6,9 млрд. Он покинул NVIDIA в ноябре.

По словам Вальдмана, «Pliops решает самые сложные проблемы, которые волнуют архитекторов центров обработки данных, а именно: противоречивые тенденции стремительного роста объёмов данных, хранящихся на быстрых флеш-носителях, которые в конечном итоге ограничены недостаточными вычислительными ресурсами».

На сегодняшний день Pliops получила $40 млн инвестиций. Компания занимается созданием сопроцессора хранения данных (storage processing unit, SPU), который считается подкатегорией нового класса сопроцессоров для обработки данных (data processing unit, DPU). Первоначально компания планировала запуск продукта на середину 2019 года, но сейчас направила образцы SPU ряду клиентов. Как ожидается, они появятся на рынке в первом квартале 2021 года.

Опыт работы Вальдмана в Mellanox, а также связи и ноу-хау могут помочь Pliops в обостряющейся конкурентной борьбе. В частности, Pliops придётся бороться с VMware и NVIDIA, реализующими проект Project Monterey DPU. На этой неделе NVIDIA также сообщила о планах добавить функции контроллера хранилища в Bluefield.

Кроме того, Pliops SPU похож на концепцию другого стартапа, Nebulon и его SPU, который имеет облачно-управляемую и определяемую архитектуру программного обеспечения (defined software architecture). Nebulon заявила, что привлекла HPE и Supermicro в качестве OEM-партнёров.

Постоянный URL: http://servernews.ru/1027084
01.12.2020 [11:54], Юрий Поздеев

GSI Gemini APU опережает Xeon в 100 раз на операциях поиска подобных элементов

Поиск сходства (Similarity search) в последние годы стал ключевой концепцией в науке, позволяя исследователям анализировать огромные объемы неструктурированных данных, выявляя связи, которые невозможно выявить другими методами. Метод этот очень ресурсоемкий и затратный: для выявления сходства между элементами необходимо проанализировать миллионы или миллиарды записей базы данных, выполняя побитное сравнение. Примером использования подобных методов может служить распознавание лиц, секвенирование ДНК, разработка новых лекарственных препаратов и многое другое.

На данный момент для реализации подобных алгоритмов используются процессоры или графические ускорители, однако они не являются оптимальным решением из-за того, что возникает узкое место между памятью и ядрами процессора или GPU. На CPU алгоритм поиска сходства запускает по одному процессу для каждого ядра, при этом набор данных или его часть считываются в память, а затем ядро ЦП сравнивает каждую запись набора данных с исходным элементом. При поиске схожих изображений база данных может содержать миллиарды записей и поиск занимает достаточно много времени, также не стоит забывать об энергопотреблении серверных процессоров, которые давно перешагнули за отметку в 200 Вт.

С графическими ускорителями дела обстоят несколько лучше: GPU имеет в своем распоряжении тысячи унифицированных ядер, однако они работают недостаточно быстро и поиск похожих элементов все равно занимает значительное время. По словам GSI Technology, ее специализированное решение для алгоритма поиска сходства значительно опережает Intel Xeon и GPU NVIDIA. По сравнению с Intel Xeon специализированный «блок ассоциативной обработки» (APU) Gemini выполняет поиск схожих элементов в 100 раз быстрее, потребляя при этом на 70% меньше электроэнергии.

Архитектура APU Gemini построена таким образом, что вычислительные блоки размещаются вместе с памятью, что позволяет обрабатывать данные параллельно, избегая перемещения данных из памяти в ядро и обратно. Даже в случае оптимизированного обмена с высокоскоростной памятью в GPU, эти накладные расходы все равно оказывают значительное влияние на скорость работы алгоритма.

APU Gemini выпускается в виде карты расширения с интерфейсом PCIe 4.0: на плате размещаются SRAM (Static Random Access Memory) и два миллиона битовых процессоров для вычислений в памяти. GSI совмещает 1-битные блоки обработки информации с линиями чтений-изменения-записи SRAM в одном массивном чипе, причем все 1-битные ядра могут работать параллельно.

Карта GSI обладает двумя блоками SRAM по 96 Мбайт и 16 Гбайт общей памяти. Для сравнения: GPU NVIDIA A100 может обрабатывать 104х4096 бит за тактовый цикл 1,4 ГГц и имеет пропускную способность памяти 7 Тбайт/с, а APU Gemini выполняет два миллиона 1-битных операций за тактовый цикл 400 МГц с пропускной способностью памяти 26 Тбайт/с, имея при этом в разы меньшее энергопотребление.

Решение получилось интересным, однако не нужно забывать о том, что оно очень узкоспециализированное и создано только для одной, пусть и очень ресурсоемкой задачи. Подобные решения все чаще появляются в последние годы из-за внедрения множества алгоритмов ИИ и анализа больших данных, с которыми универсальные процессоры или GPU справляются хуже специализированных решений.

Постоянный URL: http://servernews.ru/1026694
18.11.2020 [12:18], Андрей Галадей

VMware перенесёт файрволы на SmartNIC и DPU для разгрузки CPU

Компания VMware сообщила, что её системы виртуализации будут использоваться в сетевых адаптерах SmartNIC и DPU. Это позволит снизить нагрузку на центральные процессоры серверов.

Адаптеры SmartNIC и DPU оснащены сопроцессорами для обратки данных, так что вполне логично задействовать их для виртуализации. Впервые VMware объявила об этом в сентябре 2020 года. Идея состоит в том, чтобы использовать эти мощности для управления хранилищем и виртуальными сетями, а также для выполнения некоторых функций безопасности. С этой целью VMware портировала свой флагманский гипервизор ESXi на архитектуру Arm, поскольку на ней базируются системы-на-чипе с таких адаптерах.

В компании отметили, что межсетевой экран NSX Services-Defined Firewall теперь будет работать на SmartNIC и предоставлять L4 SPI-файрвол. Кроме того, было заявлено, что те же адаптеры смогут запускать межсетевой экран L7. Всё это позволит ускорить работу серверов и повысить защищённость. Ведь в традиционных сценариях эту нагрузку берёт на себя CPU. Помимо этого, такой подход позволяет создавать шифрованные каналы для работы удалённых сотрудников, не опасаясь перехвата инофрмации.

Отметим, что компания VMware предлагает создавать новые сети, в которой системы сами определяют, какие приложения нужны, и самостоятельно настраиваются соответствующим образом. Проще говоря, речь идёт о распределённых защитных системах. ARM-версия гипервизора ESXi и сетевого экрана NSX Services-Defined Firewall — первые шаги к этому.

Постоянный URL: http://servernews.ru/1025651
13.11.2020 [16:14], Игорь Осколков

FMS20: QLC, EDSFF, NVMe-oF и DPU — четыре столпа хранилищ будущего

На Flash Memory Summit ветеран индустрии Говард Маркс (Howard Marks), ныне работающий в VAST Data, представил традиционный доклад о текущем состоянии сектора корпоративных хранилищ, в котором отметил текущие достижения и тенденции.

Менее чем за полтора десятка лет flash-память в корпоративном секторе превратилось из экзотичного нишевого решения стоимостью как самолёт в массовый продукт. IDC в начале этого года отрапортовала о доминировании all-flash решений над гибридными, а Gartner перестал в некоторых отчётах выделять flash-хранилища в отдельный сегмент, приписав их СХД общего назначения. Кроме того, стали, наконец, появляться относительно дешёвые и доступные all-flash хранилища.

Стоимость гигабайта flash-памяти стремительно снижалась, хотя и неравномерно. Современные дешёвые SSD на базе QLC (в пример приводится первый QLC-диск Micron ION 5210) менее чем в 4 раза дороже современных же HDD. При этом «дорогие» и высокопроизводительные жёсткие диски 10K/15K RPM окончательно заброшены всем производителями. Nearline-накопители растут в объёме, но теряют в скорости работы и IOPS, тогда как на рынке уже появились SSD, обогнавшие их по ёмкости. И, к примеру, последняя новинка Nimbus, ExaDrive NL, стремится к удешевлению (3,5”, 64 Тбайт QLC, но только SATA/SAS).

При этом сами flash-накопители теперь заметно дифференцированы. В корпоративном секторе дорогие, быстрые и надёжные двухпортовые накопители дополняются более простыми и дешёвыми однопортовыми (даже с SATA), а у гиперскейлеров вообще свои требования — больше ёмкости за меньшую цену и никаких излишеств — QLC без SLC-кеша и минимальный DRAM-кеш. Особняком стоит SCM (Storage Class Memory), находящаяся между обычными SSD и DRAM, сочетая преимущества и недостатки обоих типов памяти. Фактически на рынке есть только 3D XPoint, причём массово лишь от Intel, которая потихоньку избавляется от NAND-бизнеса.

Конкуренцию ей могли бы составить (но по факту это не совсем так) Samsung Z-SSD или Toshiba XL-Flash, которые на самом деле являются ещё одной вариацией SLC NAND (быстрой, но дорогой) и опять таки наследуют всё её преимущества и недостатки, из-за чего, к примеру, реальной заменой той же Optane DCPMM (теперь уже PMem) они не являются. Из прочих альтернативных технологий памяти докладчик отмечает только STT-MRAM от Everspin, которая используется как замена DRAM-кеша в SSD.

Ну а массовой, по-видимому, в силу дешевизны со временем станет QLC-память. Причём в сочетании с различными техниками, которые могут нивелировать её минусы в отношении скорости и ресурса. В частности, использование большого промежуточного кеша из DRAM или 3D XPoint позволит переупорядочить данные перед записью в ячейки, а дедупликация и сжатие к тому же помогут приблизить стоимость хранения к HDD. Зонирование и управление со стороны хоста тоже будут этому способствовать. Из подобных систем докладчик отмечает решение «родной» компании VAST Data, Pure Storage FlashArray//C и новые NetApp FAS500f — все с NVMe-накопителями, а первые два ещё и с NVMe-oF.

И именно NVMe-oF станет следующим большим шагом в развитии индустрии хранения данных. Неслучайно его поддержка включена в базовый набор спецификацией NVMe 2.0. «Классические» SAN (на базе FC, например), по мнению инженера HPE, участвующего в разработке нового стандарта для обнаружения и настройки NVMe-пулов в сети (mDNS + DNS-SD), останутся только локально, а в остальных сферах и дальше будет развивать дезагрегация, так что в будущем вполне можно будет подключиться к облачному NVMe-хранилища в рамках гибридного облака.

Массивы хранения смогут быть отделены от контроллеров, которых может быть сразу много, и от потребителей. Особую роль в этом могут сыграть DPU, рынок которых только зарождается. Они могут просто взять на себя часть задачи по обработке и передаче данных, но и могут поменять сам ландшафт СХД. Наличие root-комплекса в таких устройствах позволит избавиться от CPU в принципе — сейчас они заняты и обработкой данных (всё те же сжатие и дедупликация), и дают линии PCIe, которые нужны и накопителям, и сетевым адаптерам. И пропускной способности, во всяком случае для типовых x16, может не хватать для быстрых адаптеров и одновременно большого числа накопителей.

Сами накопители тоже будут меняться. U.2 становится менее популярным, а из новых форм-факторов победу одержал стандарт EDSFF, вытеснив альтернативный NF1. EDSFF актуален в первую очередь для гиперскейлеров, но, похоже, корпоративные системы к нему тоже будут обращаться. «Длинная» версия E1.L подойдёт для плотных СХД, и уже есть решения, вмещающие 1 Пбайт в 1U. Есть и альтернативный форм-фактор E3.S. E1.S доступен в «тонкой» (5,9 мм) и «толстой» (до 25 мм) версиях. Первая предлагает более высокую плотность, вторая — более высокую производительность, но при этом низкие требования к охлаждению.

M.2 тоже будет использоваться, но скорее в качестве локального (или загрузочного) хранилища. А в рамках OCP оба малых форм-фактора используются не только для накопителей, но и для некоторых ускорителей, причём есть варианты и со сдвоенными слотами. Впрочем, это уже вотчина гиперскейлеров, у которых, как и было сказано ранее, особые требования. Facebook, HPE и Microsoft вместе с другими компаниями сейчас разрабатывают новый, единый стандарт облачных SSD, свежий релиз которого выйдет в декабре. Впрочем, как на самом деле будет развиваться flash и индустрия хранения данных, покажет время, и приведённые здесь тенденции и явления могут быть скорректированы.

Постоянный URL: http://servernews.ru/1025325
28.10.2020 [19:21], Алексей Степин

Fungible представила первый в мире DPU-сервер хранения данных: 15 млн IOPS и 60 Гбайт/с в 2U-шасси

Концепция DPU, так называемого «сопроцессора данных», разрабатываемая компанией Fungible, уже описывалась нами ранее. Новый тип процессоров должен, по мнению разработчиков, взять на себя все задачи по работе с системой хранения данных. Сейчас Fungible перешла от теории и опытных моделей к практике — компания представила первый в мире сервер хранения данных на базе DPU, который и должен ознаменовать начало новой революции в мире ЦОД.

Согласно концепции Fungible, DPU должен лечь в основу вычислительных систем нового поколения в качестве центрального, связующего между собой все компоненты звена. Все вычисления, связанные с сохранением, чтением, сжатием и декомпрессией данных этот новый тип процессора берёт на себя. Кроме того, система на основе DPU изначально задумана, как модульная, компоненты в ней связываются между собой посредством стандартных средств Ethernet и NVMe-over-TCP. В своём первом массовом продукте, сервере Fungible FS1600, эта модульность реализована в полной мере.

Новый тип вычислительных систем содержит три основных компонента: это традиционные вычислительные узлы, серверы FS1600 для хранения и работы с данными и узел управления Fungible Composer, служащий для управления и отслеживания параметров всей системы. Последний реализован на базе обычного сервера с архитектурой x86, однако основная новинка, FS1600, в корне отличается от традиционных СХД.

Сервер Fungible FS1600 выполнен в стандартном стоечном корпусе высотой 2U, в передней части этого корпуса расположены 24 слота горячей замены для NVMe SSD. 24 накопителя разделены на два блока, каждый из которых обслуживается своим процессором DPU и имеет по 6 интерфейсов 100GbE. Один такой сервер способен развивать производительность на уровне 15 млн IOPS при максимальном объёме 576 Тбайт и задержке не выше 110 мкс. Также он способен на лету (де-)компрессировать данные со скоростью до 100 Гбайт/с (GZIP, DEFLATE, ZLIB, LZMA).

Для сравнения, классические флеш-массивы такого же формата развивают всего 2-3 млн IOPS. Полная же стойка на базе FS1600 может достигать и 300 млн IOPS. При этом Fungible заявляет, что её система на базе DPU позволяет снизить стоимость развёртывания 1 Пбайт данных в пять раз в сравнении с обычными гиперконвергентными системами хранения данных. Достигается это за счёт более высокой эффективности использования ресурсов флеш-памяти, включая уменьшенный объём избыточных данных.

Fungible FS1600 предлагается в трёх вариантах, различающихся объёмами установленных флеш-накопителей и общим уровнем производительности:

  • Fast — 7,6 Тбайт SSD, 81 IOPS на Гбайт, 236 Мбайт/с на Гбайт;
  • Super Fast — 7,6 Тбайт SSD, 163 IOPS на Гбайт, 651 Мбайт/с на Гбайт;
  • Extreme — 7,6 Тбайт SSD, 326 IOPS на Гбайт, 1302 Мбайт/с на Гбайт.

Поддержка SSD объёмом от 15 Тбайт ожидается позднее. Тогда же будет реализована поддержка дедупликации, снапшотов и NVMe over RoCE. Также компания планирует выпустить и ускорители на базе DPU для обычных серверов. Согласно планам, такие ускорители должны оказаться быстрее технологии GPUDirect, разработанной NVIDIA. В качестве системы интерконнекта Fungible хочет использовать новую сетевую среду TrueFabric. В настоящее время данная технология находится в процессе активной разработки.

В качестве основных партнёров и заказчиков Fungible видит достаточно крупных облачных операторов второго эшелона, к которым компания относит, например, Dropbox и Uber. За счёт технологии DPU они смогут получить прирост производительности своих решений в 2-4 раза в сравнении с аналогичными предложениями AWS и Google Cloud. Тем менее, в инфраструктуру крупных гиперскейлеров Fungible тоже надеется попасть, а вот системы корпоративного класса она пока обходит стороной.

Постоянный URL: http://servernews.ru/1024031
16.10.2020 [23:17], Юрий Поздеев

DPU в стиле Intel: сетевые адаптеры с Xeon D, FPGA, HBM и SSD

Мир сетевых карт становится умнее. Это следующий шаг в дезагрегации ресурсов центров обработки данных. Наличие расширенных возможностей сетевых карт позволяет разгрузить центральный процессор, при этом специализированные сетевые адаптеры обеспечивают более совершенные функции и безопасность. В этой новости мы познакомим вас сразу с двумя адаптерами: Silicom SmartNIC N5010 и Inventec SmartNIC C5020X.

Silicom FPGA SmartNIC N5010 предназначена для систем крупных коммуникационных провайдеров. Операторы все чаще стремятся заменить проприетарные форм-факторы от поставщиков телекоммуникационного оборудования на более стандартные варианты. В рамках этого мы видим, что производители ПЛИС не прочи освоить и эту нишу.

В Silicom FPGA SmartNIC N5010 используется Intel Stratix 10 DX с 8 Гбайт памяти HBM. Поскольку пропускная способность памяти становится все большим аспектом производительности системы, HBM будет продолжать распространяться за пределы графических процессоров и FPGA. В SmartNIC и DPU память HBM может использоваться для размещения индексных таблиц поиска и других функций для интенсивных сетевых нагрузок. Помимо HBM SmartNIC N5010 имеет еще 32 Гбайт памяти DDR4 ECC.  SmartNIC N5010 потребляет до 225 Вт, что предполагает несколько вариантов исполнения карты, в том числе и с активным охлаждением.

Самая интересная особенность новой карты — 4 сетевых порта по 100 Гбит/с. На плате SmartNIC N5010 установлены две базовые сетевые карты Intel E810 (Columbiaville). На приведенной схеме можно заметить, что используется интерфейс PCIe Gen4 x16, причем их тут сразу два. Для работы четырех 100GbE-портов уже недостаточно одного интерфейса PCIe 4.0 x16. Второй порт PCIe 4.0 x16 может быть подключен через дополнительный кабель к линиям второго процессора, чтобы избежать межпроцессорного взаимодействия для передачи данных.

Вторая новинка, Inventec FPGA SmartNIC C5020X, совмещает на одной плате процессор Intel Xeon D и FPGA Intel Stratix 10. Этот адаптер предназначен для разгрузки центрального процессора в серверах крупных облачных провайдеров. На плате установлен процессор Intel Xeon D-1612 с 32-Гбайт SSD и 16 Гбайт DDR4, подключение к ПЛИС Intel Stratix 10 DX 1100 осуществляется через PCIe 3.0 x8. Нужно отметить, что FPGA Stratix имеет свои собственные 16 Гбайт памяти DDR4, а также обеспечивает сетевые подключения 25/50 Гбит/с и оснащен интерфейсом PCIe 4.0 x8, через который адаптер подключается к хосту.

У Inventec уже есть решение на базе Arm (Inventec X250), которое использует ПЛИС Arria 10 GX660 вместе с сетевым адаптером Broadcom Stingray BCM8804, которое имеет аналогичный форм-фактор и TPD не более 75 Вт. Однако для некоторых организаций наличие единой x86 платформы, включая SmartNIC, упрощает развертывание, поэтому вариант C5020X для таких компаний более предпочтителен.

Решение получилось очень интересным, однако вряд ли его можно назвать адаптером для массового рынка, как Intel Columbiaville. На примере этого адаптера Intel показала, что может объединить элементы своего портфеля для создания комплексных решений. Inventec FPGA SmartNIC C5020X является хорошей альтернативой предложению на базе Broadcom, что позволит крупным облачным провайдерам диверсифицировать свои платформы.

Несмотря на то, что обе новинки классифицируются как «умные» сетевые адаптеры SmartNIC, вторая, пожалуй, уже ближе к DPU, если сравнивать её с адаптерами NVIDIA DPU, в которых сетевая часть дополнена Arm-процессором и GPU-ускорителем. В данном случае есть и x86-ядра общего назначения, и ускоритель, хотя и на базе ПЛИС. Впрочем, устоявшегося определения DPU и списка критериев соответствия этому классу процессоров пока нет.

Постоянный URL: http://servernews.ru/1023157
05.10.2020 [22:10], Юрий Поздеев

NVIDIA BlueField-2X DPU: «умный» сетевой адаптер с CPU, GPU и RAM

NVIDIA представила два новых решения: BlueField-2X DPU, которое объединякт на одной печатной плате процессорные ядра Arm, графический ускоритель и сетевой адаптер Mellanox, а также BlueField-2 без GPU на борту. Изначально BlueField разрабатывался Mellanox, но последняя стала частью NVIDIA, а разработки перешли по наследству. Так что же интересного и нового в этих двух решениях?

NVIDIA BlueField-2X

NVIDIA BlueField-2X

Начнем с безопасности: архитектура DPU позволяет использовать так называемый Next-Generation Firewall, поддерживает IDS/IPS, микро-сегментацию и защиту от DDOS. И всё это непосредственно в адаптере — ненужный трафик просто не попадает в систему. Естественно, традиционные опции разгрузки и программирования тоже никуда не делись: адаптер обеспечивает скорость передачи данных Ethernet и InfiniBand до 200 Гбит/с, разгружая ядра центрального процессора.

А благодаря NVMe over Fabric (NVMe-oF) Storage Direct, шифрованию, сжатию и дедупликации, NVIDIA BlueField-2 DPU позволяет создать высокопроизводительную сеть хранения данных с низкими задержками. Сегодня же, к слову, компания объявила об открытии раннего доступа разработчикам к GPUDirect Storage.

Для упрощения разработки компания выпустила пакет программного обеспечения (SDK) NVIDIA DOCA, который позволяет разработчикам создавать высокопроизводительные облачные сервисы с использованием DPU и стандартных API, включая Data Plane Development Kit (DPDK) и P4 для сетей и безопасности, а также Storage Perfomance Development Kit (SPDK) для систем хранения.

NVIDIA BlueField-2 основана на ConnectX-6 Dx с программируемыми ядрами Arm (8 ядер Cortex-A72) и двумя ядрами VLIW, дополнительно на плате установлено 8 или 16 Гбайт памяти DDR-4. BlueField-2 может оснащаться двумя портами со скоростями до 100 Гбит/с или одним портом со скоростью до 200 Гбит/с, при этом на карте присутствует выделенный порт 1 Гбит/с для управления. NVIDIA BlueField-2 выпускается в следующих форматах: HHHL, FHHL, OCP 3.0 SFF.

NVIDIA BlueField-2

NVIDIA BlueField-2

NVIDIA BlueField-2X отличается от своего младшего собрата тем, что на плате размещен графический ускоритель на базе Ampere. Это решение предназначено для рабочих нагрузок ИИ, может применяться для вычислений и видеоаналитики на периферии. Столь высокая интеграция делает новинки отличной основой для платформ периферийных вычислений, включая собственную разработку NVIDIA EGX.

По датам выхода пока информация не точная: обе карты планируется выпустить в 2021 году. Однако, этими двумя решениями планы NVIDIA не ограничиваются: объявлены следующие поколения карт BlueField-3 и BlueField-4, которые выйдут до 2023 года. Подобные решения должны существенно изменить подходы к проектированию инфраструктуры центров обработки данных.

Постоянный URL: http://servernews.ru/1022241
05.10.2020 [18:32], Юрий Поздеев

NVIDIA EGX: решение для периферийных вычислений на базе DPU

NVIDIA объявила о выпуске новой ИИ-платформы NVIDIA EGX для периферийных вычислений. Новое решение может применяться в производстве, сельском хозяйстве, логистике, телекоммуникациях и СМИ для быстрого и эффективного развертывания систем ИИ.

Платформа EGX объединяет возможности GPU с архитектурой NVIDIA Ampere и BlueField-2 DPU на одной карте PCIe, что позволяет создать достаточно компактное и производительное решение. DPU BlueField-2 включает в себя ядра Arm, которые можно использовать для ускорения работы с данными GPU и других задач.

Кроме аппаратной новинки, NVIDIA представила обновленный стек программного обеспечения для EGX, доступный на NVIDIA NGC и в отдельном каталоге ПО, где дополнительно предлагаются предварительно настроенные инструменты ИИ для разных отраслевых решений. Данные платформы приложений поддерживаются ведущими поставщиками ПО для ИИ, такими как Deep North, Everseen и Whiteboard Coordinator.

NVIDIA сотрудничает с ведущими производителями ОС и гипервизоров, включая Canonical, Cloudera, Red Hat, SUSE и VMware, чтобы обеспечить поддержку и оптимизацию нового ПО NVIDIA, которое может работать как на «голом железе», так и в виртуальной среде.

NVIDIA делает ставку на развертывание инструментов анализа ИИ на периферии, непосредственно внутри офисов, фабрик, складов, вышек сотовой связи, школ, магазинов и банков. Это должно сделать подобные технологии более доступными для широкого круга потребителей.

Также NVIDIA анонсировала программу раннего доступа NVIDIA Fleet Command, представляющую собой гибридную облачную платформу с возможностью обработки в данных в реальном времени, которая будет предоставляться по схеме «ПО как услуга» (SaaS). Fleet Command позволит упростить управление серверами, расположенными на множестве объектов, снизит нагрузку на ИТ-отделы за счет проактивного мониторинга и удобной системы управления с графической консолью.

Системы NVIDIA EGX доступны от многих сертифицированных производителей серверов: ASUS, Atos, Dell Technologies, Fujitsu, GIGABYTE, H2C, Inspur, Lenovo, Quanta и Supermicro.

Постоянный URL: http://servernews.ru/1022223
29.09.2020 [19:57], Алексей Степин

VMware возложит часть нагрузки vSphere на DPU и SmartNIC

Когда-то архитектура x86 была очень простой, хотя её CISC-основа и была сложнее пути, по которому пошли процессоры RISC. Но за всё время своей эволюции она постоянно усложнялась и на процессоры возлагались всё новые и новые задачи, требующие дополнительных расширений, а то и перекладывались задачи с плеч специализированных чипов. Эта тенденция сохраняется и поныне, однако один из лидеров в мире виртуализации, компания VMware, имеет иное видение.

Сложность приложений и сценариев растёт, x86 может не успевать за возрастающей нагрузкой

Сложность приложений и сценариев растёт, x86 может не успевать за возрастающей нагрузкой

Перекладывание на x86 несвойственных этой архитектуре задач началось с внедрения расширений MMX. Сегодня современные серверные процессоры умеют практически всё и продолжают усложняться — достаточно вспомнить Intel VNNI, подмножество AVX-512, ускоряющее работу с всё более популярными задачами машинного обучения. Однако VMware считает, что x86 не успевает за усложнением программного обеспечения и полагает, что будущее ЦОД лежит в дезагрегации вычислительных ресурсов.

С учётом того, что задачи перед серверами и ЦОД встают всё более и более сложные, неудивительно, что наблюдается расцвет всевозможных ускорителей и сопроцессоров, от умных сетевых адаптеров и уже ставших привычными ГП-ускорителей до относительно экзотических идей, вроде «процессора обработки данных» (DPU). Последнюю концепцию на конференции VMworld 2020 поддержал такой гигант в сфере виртуализации, как VMware.

Но ряд задач можно переложить на плечи ускорителей типа SmartNIC или DPU

Но ряд задач можно переложить на плечи ускорителей типа SmartNIC или DPU

Переработкой своей основной платформы виртуализации vSphere компания занимается уже давно, и в проекте прошлого года под кодовым названием Pacific переработано было многое. В частности, в основу системы управления была окончательно положена контейнерная модель на базе коммерческой системы для Kubernetes под названием Tanzu. Проект этого года, получивший имя Monterey, ознаменовал дальнейшее движение в этом направлении.

Теперь Kubernetes стал не дополнением, пусть и включенным изначально, но единственным движком для управления как виртуальными машинами первого поколения, так и более современными контейнерами. Но из этого следует дальнейшее повышение вычислительной нагрузки на серверы.

Новая версия платформы vSphere проще, но она эффективнее использует имеющиеся вычислительные ресурсы

Новая версия платформы vSphere проще, но она эффективнее использует имеющиеся вычислительные ресурсы

В частности, как отмечает VMware, обработка данных ввода-вывода становится всё сложнее. Как мы уже знаем, это привело к зарождению таких устройств, как «умные сетевые адаптеры» (SmartNIC) и даже специализированных чипов DPU. Как первые, так и вторые, как правило, содержат ядра на базе архитектуры ARM, и именно их-то и предлагает использовать для разгрузки основных процессоров VMware. Информация о том, что компания работает над переносом гипервизора ESXi на архитектуру ARM официально подтвердилась.

Важной частью ESXi, как известно, является виртуализация сетевой части — «коммутаторов» и «микро-файрволлов», и в Project Monterey появилась возможность запускать сетевую часть ESXi полностью на ресурсах DPU или SmartNIC, благо современные ускорители этих классов имеют весьма солидную производительность, а иногда и превосходят в этом плане классические центральные процессоры.

Новое видение кластера по версии VMware: каждый процессор и сопроцессор занят своим делом

Новое видение кластера по версии VMware: каждый процессор и сопроцессор занят своим делом

Сама идея ускорения сетевой части, в частности, задач обеспечения сетевой безопасности в серверах за счёт SmartNIC не нова. Новизна подхода VMware заключается в другом: теперь реализация ESXi-on-ARM позволит не просто снять нагрузку в этих сценариях с плеч основных процессоров, но и представить за счёт виртуализации все сетевые ресурсы безопасно, в виде единого унифицированного пула и вне зависимости от типа процессоров, занятых в этих задачах. Среди уже существующих на рынке устройств, совместимых с новой концепцией VMware числятся, к примеру, и NVIDIA BlueField-2 — «умный сетевой адаптер», разработанный Mellanox — и решения Intel.

Как считает VMware, такой подход кардинально изменит архитектуру и экономику ЦОД нового поколения. На это есть основания, ведь если объединить пару 64-ядерных процессоров AMD EPYC второго поколения с сетевым ускорителем или DPU, работающим под управлением ESXi в составе единой платформы vSphere, то эту систему можно будет с полным правом назвать «ЦОД в коробке». Такое сочетание позволит запускать множество виртуальных машин с достаточным уровнем производительности, ведь основным x86-процессорам не придётся вывозить на себе виртуализацию сети, функционирование файрволлов и задачи класса data storage.

Демонстрация ESXi-on-ARM выглядит скромно, но это только начало

Демонстрация ESXi-on-ARM выглядит скромно, но это только начало

Пока Project Monterey имеет статус «технологического демо», но сама идея дизагрегации серверов, над которой продолжает работу VMware, выглядит логичной и законченной. Каждый процессор будет выполнять ту задачу, к которой он лучше всего приспособлен, но за счёт единой системы виртуализации платформа не будет выглядеть сегментировано, и разработка ПО не усложнится. Кроме того, VMware уже подтвердила возможность запуска на SmartNIC и DPU приложений сторонних разработчиков, так что лёд явно тронулся.

Постоянный URL: http://servernews.ru/1021812
Система Orphus