Материалы по тегу: dpu

15.04.2021 [21:24], Игорь Осколков

DPU BlueField — третий столп будущего NVIDIA

Во время открытия GTC’21 наибольшее внимание привлёк, конечно, анонс собственного серверного Arm-процессора NVIDIA — Grace. Говорят, из-за этого даже акции Intel просели, хотя в последних решениях самой NVIDIA процессоры x86-64 были нужны уже лишь для поддержки «обвязки» вокруг непосредственно ускорителей. Да, теперь у NVIDIA есть три точки опоры, три столпа для будущего развития: GPU, DPU и CPU. Причём расположение их именно в таком порядке неслучайно.

У процессора Grace, который выйдет только в 2023 году, даже по современным меркам «голая» производительность не так уж высока — в SPECrate2017_int его рейтинг будет 300. Но это и неважно потому, что он, как и сейчас, нужен лишь для поддержки ускорителей (которые для краткости будем называть GPU, хотя они всё менее соответствуют этому определению), что возьмут на себя основную вычислительную нагрузку.

Гораздо интереснее то, что уже в 2024 году появятся BlueField-4, для которых заявленный уровень производительности в том же SPECrate2017_int составит 160. То есть DPU (Data Processing Unit, сопроцессор для данных) формально будет всего лишь в два раза медленнее CPU Grace, но при этом включать 64 млрд транзисторов. У нынешних ускорителей A100 их «всего» 54 млрд, и это один из самых крупных массово производимых чипов на сегодня.

Значительный объём транзисторного бюджета, очевидно, пойдёт не на собственной сетевую часть, а на Arm-ядра и различные ускорители. Анонсированные в прошлом году и ставшие доступными сейчас DPU BlueField-2 намного скромнее. Но именно с их помощью NVIDIA готовит экосистему для будущих комплексных решений, где DPU действительно станут «третьим сокетом», как когда-то провозгласил стартап Fubgible, успевший анонсировать до GTC’21 и собственную СХД, и более общее решение для дата-центров. Однако подход двух компаний отличается.

Напомним основные характеристики BlueField-2. Сетевая часть, представленная Mellanox ConnectX-6 Dx, предлагает до двух портов 100 Гбит/с, причём доступны варианты и с Ethernet, и с InfiniBand. Есть отдельные движки для ускорения криптографии, регулярных выражений, (де-)компрессии и т.д. Всё это дополняют 8 ядер Cortex-A78 (до 2,5 ГГц), от 8 до 32 Гбайт DDR4-3200 ECC, собственный PCIe-свитч и возможность подключения M.2/U.2-накопителя. Кроме того, будет вариант BlueField-2X c GPU на борту. Характеристики конкретных адаптеров на базе BlueField-2 отличаются, но, в целом, перед нами полноценный компьютер. А сама NVIDIA называет его DOCA (DataCenter on a Chip Architecture), дата-центром на чипе.

Для работы с ним предлагается обширный набор разработчика DOCA SDK, который включает драйверы, фреймворки, библиотеки, API, службы и собственно среду исполнения. Все вместе они покрывают практически все возможные типовые серверные нагрузки и задачи, а также сервисы, которые с помощью SDK относительно легко перевести в разряд программно определяемых, к чему, собственно говоря, все давно стремятся. NVIDIA обещает, что DOCA станет для DPU тем же, чем стала CUDA для GPU, сохранив совместимость с последующими версиями ПО и «железа».

На базе этого программно-аппаратного стека компания уже сейчас предлагает несколько решений. Первое — платформа NVIDIA AI Enterprise для простого, быстрого и удобного внедрения ИИ-решений. В качестве основы используется VMware vSphere, где развёртываются виртуальные машины и контейнеры, что упрощает работу с инфраструктурой, при этом производительность обещана практически такая же, как и в случае bare-metal.

DPU и в текущем виде поддерживают возможность разгрузки для некоторых задач, но VMware вместе с NVIDIA переносят часть типовых задач гипервизора с CPU непосредственно на DPU. Кроме того, VMware продолжает работу над переносом своих решений с x86-64 на Arm, что вполне укладывается в планы развития Arm-экосистемы со стороны NVIDIA. Одним из направлений является 5G, причём работа ведётся по нескольким направлениям. Во-первых, сама Arm разрабатывает периферийную платформу на базе Ampere Altra, дополненных GPU и DPU.

NVIDIA Aerial A100

NVIDIA Aerial A100

Во-вторых, у NVIDIA конвергентное решение — ускоритель Aerial A100, который объединяет в одной карте собственно A100 и DPU. При этом он может использоваться как для ускорения работы собственно радиочасти, так и для обработки самого трафика и реализации различных пограничных сервисов. Там же, где не требуется высокая плотность (как в базовой станции), NVIDIA предлагает использовать более привычную EGX-платформу с раздельными GPU (от A100 и A40 до A30/A10) и DPU.

Одним из вариантов комплексного применения таких платформ является проект Morpheus. В его рамках предполагается установка DPU в каждый сервер в дата-центре. Мощностей DPU, в частности, вполне хватает для инспекции трафика, что позволяет отслеживать взаимодействие серверов, приложений, ВМ и контейнеров внутри ЦОД, а также, очевидно, применять различные политики в отношении трафика. DPU в данном случае выступают как сенсоры, данных от которых стекаются в EGX, и, вместе с тем локальными шлюзами безопасности.

Ручная настройка политик и отслеживание поведения всего парка ЦОД возможны, но не слишком эффективны. Поэтому NVIDIA предлагает как возможность обучения, так и готовые модели (с дообучением по желанию), которые исполняются на GPU внутри EGX и позволяют быстро выявить аномальное поведение, уведомить о нём и отсечь подозрительные приложения или узлы от остальной сети. В эпоху микросервисов, говорит компания, более чем актуально следить за состоянием инфраструктуры внутри ЦОД, а не только на его границе, как было раньше, когда всё внутри дата-центра по умолчанию считалось доверенной средой.

Кроме того, с помощью DPU и DOCA можно перевести инфраструктуру ЦОД на облачную модель и упростить оркестрацию. Но не только ЦОД — обновлённая суперкомпьютерная платформа DGX SuperPOD for Enterprise теперь тоже обзавелась DPU (с InfiniBand) и ПО Base Command, которые позволяют «нарезать» машину на изолированные инстансы с необходимой конфигурацией, упрощая таким образом совместное использование и мониторинг. А это, в свою очередь, повышает эффективность загрузки суперкомпьютера. Base Command выросла из внутренней системы управления Selene, собственным суперкомпьютером NVIDIA, на котором, например, компания обучает модели.

DPU доступны как отдельные устройства, так и в составе сертифицированных платформ NVIDIA и решений партнёров компании, причём спектр таковых велик. Таким образом компания пытается выстроить комплексный подход, предлагая программно-аппаратные решения вкупе с данными (моделями). Аналогичный по своей сути подход исповедует Intel, а AMD с поглощением Xilinx, надо полагать, тоже будет смотреть в эту сторону. И «угрозу» для них представляют не только GPU, но теперь и DPU. А вот новые CPU у NVIDIA, вероятно, на какое-то время останутся только в составе собственных продуктов, в независимости от того, разрешат ли компании поглотить Arm.

Постоянный URL: http://servernews.ru/1037460
12.04.2021 [19:21], Алексей Степин

NVIDIA анонсировала DPU BlueField-3: 400 Гбит/с, 16 ядер Cortex-A78 и PCIe 5.0

Идея «сопроцессора данных», озвученная всерьёз в 2020 году компанией Fungible, продолжает активно развиваться и прокладывать себе дорогу в жизнь. На конференции GTC 2021 корпорация NVIDIA анонсировала новое поколение «умных» сетевых карт BlueField-3, способное работать на скорости 400 Гбит/с.

Изначально серия ускорителей BlueField разрабатывалась компанией Mellanox, и одной из целей создания столь продвинутых сетевых адаптеров стала реализация концепции «нулевого доверия» (zero trust) для сетевой инфраструктуры ЦОД нового поколения. Адаптеры BlueField-2 были анонсированы в начале прошлого года. Они поддерживали два 100GbE-порта, микросегментацию, и могли осуществлять глубокую инспекцию пакетов полностью автономно, без нагрузки на серверные ЦП. Шифрование TLS/IPSEC такие карты могли выполнять на полной скорости, не создавая узких мест в сети.

Кристалл BlueField-3 не уступает в сложности современным многоядерным ЦП

Кристалл BlueField-3 не уступает в сложности современным многоядерным ЦП — 22 млрд транзисторов

Но на сегодня 100 и даже 200 Гбит/с уже не является пределом мечтаний — провайдеры и разработчики ЦОД активно осваивают скорости 400 и 800 Гбит/с. Столь скоростные сети требуют нового уровня производительности от DPU, и NVIDIA вскоре сможет предложить такой уровень: на конференции GTC 2021 анонсировано новое, третье поколение карт BlueField.

Если BlueField-2 могла похвастаться массивом из восьми ядер ARM Cortex-A72, объединённых когерентной сетью, то BlueField-3 располагает уже шестнадцатью ядрами Cortex-A78 и в четыре раза более мощными блоками криптографии и DPI. Совокупно речь идёт о росте производительности на порядок, что позволяет новинке работать без задержек на скорости 400 Гбит/с — и это первый в индустрии адаптер класса 400GbE со столь продвинутыми возможностями, поддерживающий, к тому же, стандарт PCI Express 5.0. Известно, что столь быстрым сетевым решениям PCIe 5.0 действительно необходим.

С точки зрения поддерживаемых возможностей BlueField-3 обратно совместим с BlueField-2, что позволит использовать уже имеющиеся наработки в области программного обеспечения для DPU. Одновременно с анонсом нового DPU компания представила и открытую программную платформу DOCA, упрощающую разработку ПО для таких сопроцессоров, поскольку они теперь занимаются не просто обработкой сетевого трафика, а оркестрацией работы серверов, приложений и микросервисов в рамках всего дата-центра.

В настоящее время NVIDIA сотрудничает с такими крупными поставщиками серверных решений, как Dell EMC, Inspur, Lenovo и Supermicro, со стороны разработчиков ПО интерес к BlueField проявляют Canonical, VMWare, Red Hat, Fortinet, NetApp и ряд других компаний. О массовом производстве BlueField-3 речи пока не идёт, поставка малыми партиями ожидается в первом квартале 2022 года, но карты BlueField-2 доступны уже сейчас. А в 2024 году появятся BlueField-4 с портами 800 Гбит/с.

Постоянный URL: http://servernews.ru/1037156
30.03.2021 [20:23], Владимир Мироненко

Fungible представила решение Fungible Data Center на базе DPU

Fungible представила Fungible Data Center — новое решение, которое, по словам компании, превращает дата-центры из негибких, сложных и дорогостоящих инфраструктур в простые, высокоэффективные и работающие по требованию вычислительные сервисы.

С помощью Fungible Data Center компания реализует разрабатываемую на протяжении многих лет концепцию гипер-дезагрегированной, компонуемой инфраструктуры, которая обеспечивает производительность уровня bare-metal при экономичности и простоте ЦОД уровня гиперскейлеров. Разработку ПО Fungible Data Center Composer компании удалось ускорить благодаря недавнему приобретению Cloudistics.

«Используя выделенный сопроцессор (Data Processing Unit, DPU), мы создали гипер-дезагрегированные вычислительные ресурсы и ресурсы хранения, обеспечивающие производительность, масштабируемость и экономическую эффективность, недостижимые даже для гиперскейлеров. Сегодня мы предлагаем базовый элемент с первым воплощением Fungible Data Center, полностью управляемым инновационным программным обеспечением Fungible Data Center Composer», — отметил Прадип Синдху (Pradeep Sindhu), генеральный директор и соучредитель Fungible.

Fungible Data Center, представляющее собой комплексное решение «под ключ», включает:

  • Стандартные вычислительные серверы и серверы с графическим процессором, оснащенные платформой Fungible Data Services Platform — FHHL-картой с Fungible S1 DPU. Платформа Fungible Data Services Platform имеет три уровня производительности: 200 Гбит/с, 100 Гбит/с и 50 Гбит/с.
  • Fungible Storage Cluster, состоящий из кластера горизонтально масштабируемых дезагрегированных узлов хранения Fungible FS1600, каждый из которых использует два Fungible F1 DPU.
  • Стандартные ToR-коммутаторы и маршрутизаторы для обмена данными и управления.
  • Fungible Data Center Composer — централизованный программный пакет, который обеспечивает компоновку, выделение ресурсов, управление и оркестрацию инфраструктуры на всех уровнях.

Ориентируясь на провайдеров сервисов новой волны, предприятия, исследовательские лаборатории и университеты, Fungible Data Center стремится предоставить инновационным компаниям следующие преимущества:

  • Простота — управление мультитенантными и безопасными центрами обработки данных через единую панель.
  • Agile IT — лёгкое развёртывание и повторное развертывание для обработки изменений рабочих нагрузок и критических участков за считаные минуты.
  • Производительность уровня bare metal — высокая скорость работы чувствительных к производительности приложений благодаря переносу обработки ввода-вывода на Fungible DPU.
  • Высокая масштабируемость — от половины стойки до сотен стоек для обработки самых сложных сценариев развертывания ЦОД.
  • Непревзойдённая экономичность. Объединение независимых вычислительных ресурсов, хранилищ, сетей и GPU позволяет оптимизовать потребление ресурсов, а унификация узлов сокращает количество SKU до минимального набора, обеспечивая экономию на масштабе и простоту управления.
  • Высочайшая безопасность — независимые домены безопасности с аппаратным ускорением, одноуровневой сегментацией, надёжным QoS и линейным шифрованием.

Решение Fungible Data Center уже доступно для клиентов. Компания также сообщает, что заключила соглашения о стратегическом партнёрстве с ключевыми OEM-производителями, чтобы обеспечить полноценное развёртывание своих решений, поддержку и обучение навыкам работы с ними по всему миру.

Постоянный URL: http://servernews.ru/1036136
23.02.2021 [19:24], Сергей Карасёв

Xilinx представила 100GbE-адаптеры Alveo SN1000 с FPGA и 16-ядерным ARM CPU на борту

Компания Xilinx анонсировала «умные» сетевые адаптеры Alveo SN1000, рассчитанные на использование в современных центрах обработки данных с высокой нагрузкой. Пробные поставки изделий уже начались, а массовые продажи планируется организовать 31 марта.

Устройства относятся к решениям SmartNIC. Они позволяют перенести нагрузку с центральных процессоров серверов непосредственно на сетевые адаптеры, оптимизировав тем самым работу всей IT-инфраструктуры. Адаптеры Alveo SN1000 являются полностью программно-определяемыми и подходят для создания компонуемой инфраструктуры.

В их основу положена 16-нм FPGA XCU26 серии UltraScale+, дополненная SoC от NXP с 16 ядрами ARM Cortex-A72 (2 ГГц, 8 Мбайт кеш). Процессору выделен один, а FPGA — два 4-Гбайт модуля памяти DDR4-2400. Первенец семейства, адаптер SN1022, выполнен в виде FHHL-карты с интерфейсом PCIe 3.0 x16 / PCIe 4.0 x8 и двумя 100GbE-портами QSFP28.

Для набортной SoC заявлена совместимость с Ubuntu и Yocto Linux. В качестве основного хранилища есть 16-Гбайт NAND-модуль eMMC, а для загрузчика — NOR-чип ёмкостью 64 Мбайт. Среди совместимых ОС для хоста указаны RHEL, CentOS и Ubuntu.

Фактически в состав адаптера входят и control plane, и data plane. Поддерживается аппаратная разгрузка virtio-net, а также ускорение работы Intel DPDK и Onload TCPDirect, Open Virtual Switch, Ceph RDB, IPSec и так далее. Часть функциональности перешла по наследству от SolarFlare, но Xilinx пошла дальше и открыла доступ к готовым IP-решениям в магазине App Store.

В магазине пока нет готовых решений для SN1000, но для этой серии доступна платформа разработки Xilinx Vitis. Более подробную информацию о новинках можно найти здесь. Вместе с новыми SmartNIC и магазином компания также представила платформы Smart World и Accelerated Algorithmic Trading (ATT). Первая предназначена для ИИ-видеоаналитики в режиме реального времени, а вторая, как нетрудно догадаться, для высокочастотного трейдинга (HFT).

Постоянный URL: http://servernews.ru/1033338
21.01.2021 [22:52], Алексей Степин

Wistron и Kalray представили новую СХД FURIO1200 с DPU K200

Идея выделенного сопроцессора (Data Processing Unit, DPU), занятого исключительно задачами обслуживания подсистемы хранения данных, проста и логична: специализированный кремний работает эффективнее процессоров общего назначения и демонстрирует более высокую энергоэффективность. Одним из пионеров DPU является Fungible, о решениях которой мы неоднократно рассказывали ранее, но и других интересных разработок в этой области немало.

Wistron, крупный тайваньский производитель электронного оборудования, заключила альянс с Kalray, компанией, специализирующейся на разработке сетевых процессоров и сопроцессоров обработки данных. Плодом этого сотрудничества и стала новая система FURIO1200.

В основе FURIO1200 лежит стандартное шасси Wistron LYMMA 2U с посадочными местами для 24 накопителей NVMe, но таких решений на рынке много. Самое интересное в данном случае сосредоточено в PCIe-адаптере K200, построенном на базе сопроцессора Kalray MPPA Coolidge. Он предназначен для установки в стандартные вычислительные узлы на базе x86 и обеспечивает обслуживание флеш-массива, поддержку NVMe-oF, шифрования, а также разгрузку хост-узлов от задач, связанных с обработкой специфических данных, например, данных, полученных от систем машинного зрения.

В основе MPPA Coolidge лежит фирменная архитектура Massively Parallel Processor Array. Как следует из названия, она представляет собой массив вычислительных ядер. Сами ядра построены на базе архитектуры VLIW, требующей для достижения оптимального параллелизма тщательной оптимизации на уровне компилятора. Таких ядер в составе процессора может быть до 800, частота их работы — от 600 МГц до 1,2 ГГц. Ядра сгруппированы в кластеры, каждый кластер включает в себя 16 ядер общего назначения и 1 управляющее ядро, ответственное также за функции безопасности. На кластер приходится 4 Мбайт выделенного кеша L2 с пропускной способностью 600 Гбайт/с.

5 кластеров в составе Coolidge обеспечивают внушительную производительность: 1,15 Тфлопс на операциях FP32 и 25 Топс для INT8, что делает процессор хорошо подходящим для широкого круга задач, включая ИИ и системы машинного зрения. Имеется двухканальный контроллер DDR4-3200, а для общения с внешним миром предусмотрено 16 линий PCI Express 4.0 и два интерфейса 100GbE/RoCE v2.

Интересно, что процессор может работать как в классическом многоядерном режиме SMP, так и в асимметричном режиме, в котором каждый кластер, по сути, работает как один из 16 отдельных одноядерных ЦП. В FURIO1200 процессор на борту адаптера K200 работает на благо NVMe-oF, но также позволяет запускать пользовательские приложения, для чего в комплекте поставляется открытый SDK.

Архитектура процессора Kalray MPPA Coolidge

Архитектура процессора Kalray MPPA Coolidge

Наличие столь мощного сопроцессора не только обеспечивает FURIO1200 гибкость в обработке данных, но также позволяет добиться внушительных скоростных характеристик. Производительность на случайных операциях у новинки может превышать 12 млн IOPS при латентности в районе 20-50 мс, а на последовательных операциях — достигать 72 Гбайт/с.

Пока FURIO1200 является, скорее, концептом: первые небольшие партии будут доступны заказчикам в первом квартале, а массовое производство запланировано на середину года. Первые клиентские тесты начнутся в течение ближайших недель.

Постоянный URL: http://servernews.ru/1030699
05.12.2020 [13:38], Владимир Мироненко

Основатель Mellanox, покинув NVIDIA, присоединился к стартапу Pliops

В Сети появились сообщения о том, что основатель Mellanox Эяль Вальдман (Eyal Waldman, на фото ниже) вошёл в совет директоров Pliops, израильского стартапа в области технологий хранения данных. Ожидается, что он будет способствовать работе Pliops, оказывая помощь в масштабировании её технологию для новых вариантов использования.

В его обязанности будет входить предоставление консультаций по финансовым вопросам, персоналу и общей стратегии, а также общение с ключевыми клиентами и партнёрами Pliops.

«Pliops — одна из тех компаний, которые способны добиться огромного влияния. Это переломный момент для ЦОД, и я с нетерпением жду возможности поработать с командой Pliops в ходе внедрения её технологии», — сказал Вальдман, бывший генеральный директор компании Mellanox, которая была приобретена в прошлом году NVIDIA за $6,9 млрд. Он покинул NVIDIA в ноябре.

По словам Вальдмана, «Pliops решает самые сложные проблемы, которые волнуют архитекторов центров обработки данных, а именно: противоречивые тенденции стремительного роста объёмов данных, хранящихся на быстрых флеш-носителях, которые в конечном итоге ограничены недостаточными вычислительными ресурсами».

На сегодняшний день Pliops получила $40 млн инвестиций. Компания занимается созданием сопроцессора хранения данных (storage processing unit, SPU), который считается подкатегорией нового класса сопроцессоров для обработки данных (data processing unit, DPU). Первоначально компания планировала запуск продукта на середину 2019 года, но сейчас направила образцы SPU ряду клиентов. Как ожидается, они появятся на рынке в первом квартале 2021 года.

Опыт работы Вальдмана в Mellanox, а также связи и ноу-хау могут помочь Pliops в обостряющейся конкурентной борьбе. В частности, Pliops придётся бороться с VMware и NVIDIA, реализующими проект Project Monterey DPU. На этой неделе NVIDIA также сообщила о планах добавить функции контроллера хранилища в Bluefield.

Кроме того, Pliops SPU похож на концепцию другого стартапа, Nebulon и его SPU, который имеет облачно-управляемую и определяемую архитектуру программного обеспечения (defined software architecture). Nebulon заявила, что привлекла HPE и Supermicro в качестве OEM-партнёров.

Постоянный URL: http://servernews.ru/1027084
01.12.2020 [11:54], Юрий Поздеев

GSI Gemini APU опережает Xeon в 100 раз на операциях поиска подобных элементов

Поиск сходства (Similarity search) в последние годы стал ключевой концепцией в науке, позволяя исследователям анализировать огромные объемы неструктурированных данных, выявляя связи, которые невозможно выявить другими методами. Метод этот очень ресурсоемкий и затратный: для выявления сходства между элементами необходимо проанализировать миллионы или миллиарды записей базы данных, выполняя побитное сравнение. Примером использования подобных методов может служить распознавание лиц, секвенирование ДНК, разработка новых лекарственных препаратов и многое другое.

На данный момент для реализации подобных алгоритмов используются процессоры или графические ускорители, однако они не являются оптимальным решением из-за того, что возникает узкое место между памятью и ядрами процессора или GPU. На CPU алгоритм поиска сходства запускает по одному процессу для каждого ядра, при этом набор данных или его часть считываются в память, а затем ядро ЦП сравнивает каждую запись набора данных с исходным элементом. При поиске схожих изображений база данных может содержать миллиарды записей и поиск занимает достаточно много времени, также не стоит забывать об энергопотреблении серверных процессоров, которые давно перешагнули за отметку в 200 Вт.

С графическими ускорителями дела обстоят несколько лучше: GPU имеет в своем распоряжении тысячи унифицированных ядер, однако они работают недостаточно быстро и поиск похожих элементов все равно занимает значительное время. По словам GSI Technology, ее специализированное решение для алгоритма поиска сходства значительно опережает Intel Xeon и GPU NVIDIA. По сравнению с Intel Xeon специализированный «блок ассоциативной обработки» (APU) Gemini выполняет поиск схожих элементов в 100 раз быстрее, потребляя при этом на 70% меньше электроэнергии.

Архитектура APU Gemini построена таким образом, что вычислительные блоки размещаются вместе с памятью, что позволяет обрабатывать данные параллельно, избегая перемещения данных из памяти в ядро и обратно. Даже в случае оптимизированного обмена с высокоскоростной памятью в GPU, эти накладные расходы все равно оказывают значительное влияние на скорость работы алгоритма.

APU Gemini выпускается в виде карты расширения с интерфейсом PCIe 4.0: на плате размещаются SRAM (Static Random Access Memory) и два миллиона битовых процессоров для вычислений в памяти. GSI совмещает 1-битные блоки обработки информации с линиями чтений-изменения-записи SRAM в одном массивном чипе, причем все 1-битные ядра могут работать параллельно.

Карта GSI обладает двумя блоками SRAM по 96 Мбайт и 16 Гбайт общей памяти. Для сравнения: GPU NVIDIA A100 может обрабатывать 104х4096 бит за тактовый цикл 1,4 ГГц и имеет пропускную способность памяти 7 Тбайт/с, а APU Gemini выполняет два миллиона 1-битных операций за тактовый цикл 400 МГц с пропускной способностью памяти 26 Тбайт/с, имея при этом в разы меньшее энергопотребление.

Решение получилось интересным, однако не нужно забывать о том, что оно очень узкоспециализированное и создано только для одной, пусть и очень ресурсоемкой задачи. Подобные решения все чаще появляются в последние годы из-за внедрения множества алгоритмов ИИ и анализа больших данных, с которыми универсальные процессоры или GPU справляются хуже специализированных решений.

Постоянный URL: http://servernews.ru/1026694
18.11.2020 [12:18], Андрей Галадей

VMware перенесёт файрволы на SmartNIC и DPU для разгрузки CPU

Компания VMware сообщила, что её системы виртуализации будут использоваться в сетевых адаптерах SmartNIC и DPU. Это позволит снизить нагрузку на центральные процессоры серверов.

Адаптеры SmartNIC и DPU оснащены сопроцессорами для обратки данных, так что вполне логично задействовать их для виртуализации. Впервые VMware объявила об этом в сентябре 2020 года. Идея состоит в том, чтобы использовать эти мощности для управления хранилищем и виртуальными сетями, а также для выполнения некоторых функций безопасности. С этой целью VMware портировала свой флагманский гипервизор ESXi на архитектуру Arm, поскольку на ней базируются системы-на-чипе с таких адаптерах.

В компании отметили, что межсетевой экран NSX Services-Defined Firewall теперь будет работать на SmartNIC и предоставлять L4 SPI-файрвол. Кроме того, было заявлено, что те же адаптеры смогут запускать межсетевой экран L7. Всё это позволит ускорить работу серверов и повысить защищённость. Ведь в традиционных сценариях эту нагрузку берёт на себя CPU. Помимо этого, такой подход позволяет создавать шифрованные каналы для работы удалённых сотрудников, не опасаясь перехвата инофрмации.

Отметим, что компания VMware предлагает создавать новые сети, в которой системы сами определяют, какие приложения нужны, и самостоятельно настраиваются соответствующим образом. Проще говоря, речь идёт о распределённых защитных системах. ARM-версия гипервизора ESXi и сетевого экрана NSX Services-Defined Firewall — первые шаги к этому.

Постоянный URL: http://servernews.ru/1025651
13.11.2020 [16:14], Игорь Осколков

FMS20: QLC, EDSFF, NVMe-oF и DPU — четыре столпа хранилищ будущего

На Flash Memory Summit ветеран индустрии Говард Маркс (Howard Marks), ныне работающий в VAST Data, представил традиционный доклад о текущем состоянии сектора корпоративных хранилищ, в котором отметил текущие достижения и тенденции.

Менее чем за полтора десятка лет flash-память в корпоративном секторе превратилось из экзотичного нишевого решения стоимостью как самолёт в массовый продукт. IDC в начале этого года отрапортовала о доминировании all-flash решений над гибридными, а Gartner перестал в некоторых отчётах выделять flash-хранилища в отдельный сегмент, приписав их СХД общего назначения. Кроме того, стали, наконец, появляться относительно дешёвые и доступные all-flash хранилища.

Стоимость гигабайта flash-памяти стремительно снижалась, хотя и неравномерно. Современные дешёвые SSD на базе QLC (в пример приводится первый QLC-диск Micron ION 5210) менее чем в 4 раза дороже современных же HDD. При этом «дорогие» и высокопроизводительные жёсткие диски 10K/15K RPM окончательно заброшены всем производителями. Nearline-накопители растут в объёме, но теряют в скорости работы и IOPS, тогда как на рынке уже появились SSD, обогнавшие их по ёмкости. И, к примеру, последняя новинка Nimbus, ExaDrive NL, стремится к удешевлению (3,5”, 64 Тбайт QLC, но только SATA/SAS).

При этом сами flash-накопители теперь заметно дифференцированы. В корпоративном секторе дорогие, быстрые и надёжные двухпортовые накопители дополняются более простыми и дешёвыми однопортовыми (даже с SATA), а у гиперскейлеров вообще свои требования — больше ёмкости за меньшую цену и никаких излишеств — QLC без SLC-кеша и минимальный DRAM-кеш. Особняком стоит SCM (Storage Class Memory), находящаяся между обычными SSD и DRAM, сочетая преимущества и недостатки обоих типов памяти. Фактически на рынке есть только 3D XPoint, причём массово лишь от Intel, которая потихоньку избавляется от NAND-бизнеса.

Конкуренцию ей могли бы составить (но по факту это не совсем так) Samsung Z-SSD или Toshiba XL-Flash, которые на самом деле являются ещё одной вариацией SLC NAND (быстрой, но дорогой) и опять таки наследуют всё её преимущества и недостатки, из-за чего, к примеру, реальной заменой той же Optane DCPMM (теперь уже PMem) они не являются. Из прочих альтернативных технологий памяти докладчик отмечает только STT-MRAM от Everspin, которая используется как замена DRAM-кеша в SSD.

Ну а массовой, по-видимому, в силу дешевизны со временем станет QLC-память. Причём в сочетании с различными техниками, которые могут нивелировать её минусы в отношении скорости и ресурса. В частности, использование большого промежуточного кеша из DRAM или 3D XPoint позволит переупорядочить данные перед записью в ячейки, а дедупликация и сжатие к тому же помогут приблизить стоимость хранения к HDD. Зонирование и управление со стороны хоста тоже будут этому способствовать. Из подобных систем докладчик отмечает решение «родной» компании VAST Data, Pure Storage FlashArray//C и новые NetApp FAS500f — все с NVMe-накопителями, а первые два ещё и с NVMe-oF.

И именно NVMe-oF станет следующим большим шагом в развитии индустрии хранения данных. Неслучайно его поддержка включена в базовый набор спецификацией NVMe 2.0. «Классические» SAN (на базе FC, например), по мнению инженера HPE, участвующего в разработке нового стандарта для обнаружения и настройки NVMe-пулов в сети (mDNS + DNS-SD), останутся только локально, а в остальных сферах и дальше будет развивать дезагрегация, так что в будущем вполне можно будет подключиться к облачному NVMe-хранилища в рамках гибридного облака.

Массивы хранения смогут быть отделены от контроллеров, которых может быть сразу много, и от потребителей. Особую роль в этом могут сыграть DPU, рынок которых только зарождается. Они могут просто взять на себя часть задачи по обработке и передаче данных, но и могут поменять сам ландшафт СХД. Наличие root-комплекса в таких устройствах позволит избавиться от CPU в принципе — сейчас они заняты и обработкой данных (всё те же сжатие и дедупликация), и дают линии PCIe, которые нужны и накопителям, и сетевым адаптерам. И пропускной способности, во всяком случае для типовых x16, может не хватать для быстрых адаптеров и одновременно большого числа накопителей.

Сами накопители тоже будут меняться. U.2 становится менее популярным, а из новых форм-факторов победу одержал стандарт EDSFF, вытеснив альтернативный NF1. EDSFF актуален в первую очередь для гиперскейлеров, но, похоже, корпоративные системы к нему тоже будут обращаться. «Длинная» версия E1.L подойдёт для плотных СХД, и уже есть решения, вмещающие 1 Пбайт в 1U. Есть и альтернативный форм-фактор E3.S. E1.S доступен в «тонкой» (5,9 мм) и «толстой» (до 25 мм) версиях. Первая предлагает более высокую плотность, вторая — более высокую производительность, но при этом низкие требования к охлаждению.

M.2 тоже будет использоваться, но скорее в качестве локального (или загрузочного) хранилища. А в рамках OCP оба малых форм-фактора используются не только для накопителей, но и для некоторых ускорителей, причём есть варианты и со сдвоенными слотами. Впрочем, это уже вотчина гиперскейлеров, у которых, как и было сказано ранее, особые требования. Facebook, HPE и Microsoft вместе с другими компаниями сейчас разрабатывают новый, единый стандарт облачных SSD, свежий релиз которого выйдет в декабре. Впрочем, как на самом деле будет развиваться flash и индустрия хранения данных, покажет время, и приведённые здесь тенденции и явления могут быть скорректированы.

Постоянный URL: http://servernews.ru/1025325
28.10.2020 [19:21], Алексей Степин

Fungible представила первый в мире DPU-сервер хранения данных: 15 млн IOPS и 60 Гбайт/с в 2U-шасси

Концепция DPU, так называемого «сопроцессора данных», разрабатываемая компанией Fungible, уже описывалась нами ранее. Новый тип процессоров должен, по мнению разработчиков, взять на себя все задачи по работе с системой хранения данных. Сейчас Fungible перешла от теории и опытных моделей к практике — компания представила первый в мире сервер хранения данных на базе DPU, который и должен ознаменовать начало новой революции в мире ЦОД.

Согласно концепции Fungible, DPU должен лечь в основу вычислительных систем нового поколения в качестве центрального, связующего между собой все компоненты звена. Все вычисления, связанные с сохранением, чтением, сжатием и декомпрессией данных этот новый тип процессора берёт на себя. Кроме того, система на основе DPU изначально задумана, как модульная, компоненты в ней связываются между собой посредством стандартных средств Ethernet и NVMe-over-TCP. В своём первом массовом продукте, сервере Fungible FS1600, эта модульность реализована в полной мере.

Новый тип вычислительных систем содержит три основных компонента: это традиционные вычислительные узлы, серверы FS1600 для хранения и работы с данными и узел управления Fungible Composer, служащий для управления и отслеживания параметров всей системы. Последний реализован на базе обычного сервера с архитектурой x86, однако основная новинка, FS1600, в корне отличается от традиционных СХД.

Сервер Fungible FS1600 выполнен в стандартном стоечном корпусе высотой 2U, в передней части этого корпуса расположены 24 слота горячей замены для NVMe SSD. 24 накопителя разделены на два блока, каждый из которых обслуживается своим процессором DPU и имеет по 6 интерфейсов 100GbE. Один такой сервер способен развивать производительность на уровне 15 млн IOPS при максимальном объёме 576 Тбайт и задержке не выше 110 мкс. Также он способен на лету (де-)компрессировать данные со скоростью до 100 Гбайт/с (GZIP, DEFLATE, ZLIB, LZMA).

Для сравнения, классические флеш-массивы такого же формата развивают всего 2-3 млн IOPS. Полная же стойка на базе FS1600 может достигать и 300 млн IOPS. При этом Fungible заявляет, что её система на базе DPU позволяет снизить стоимость развёртывания 1 Пбайт данных в пять раз в сравнении с обычными гиперконвергентными системами хранения данных. Достигается это за счёт более высокой эффективности использования ресурсов флеш-памяти, включая уменьшенный объём избыточных данных.

Fungible FS1600 предлагается в трёх вариантах, различающихся объёмами установленных флеш-накопителей и общим уровнем производительности:

  • Fast — 7,6 Тбайт SSD, 81 IOPS на Гбайт, 236 Мбайт/с на Гбайт;
  • Super Fast — 7,6 Тбайт SSD, 163 IOPS на Гбайт, 651 Мбайт/с на Гбайт;
  • Extreme — 7,6 Тбайт SSD, 326 IOPS на Гбайт, 1302 Мбайт/с на Гбайт.

Поддержка SSD объёмом от 15 Тбайт ожидается позднее. Тогда же будет реализована поддержка дедупликации, снапшотов и NVMe over RoCE. Также компания планирует выпустить и ускорители на базе DPU для обычных серверов. Согласно планам, такие ускорители должны оказаться быстрее технологии GPUDirect, разработанной NVIDIA. В качестве системы интерконнекта Fungible хочет использовать новую сетевую среду TrueFabric. В настоящее время данная технология находится в процессе активной разработки.

В качестве основных партнёров и заказчиков Fungible видит достаточно крупных облачных операторов второго эшелона, к которым компания относит, например, Dropbox и Uber. За счёт технологии DPU они смогут получить прирост производительности своих решений в 2-4 раза в сравнении с аналогичными предложениями AWS и Google Cloud. Тем менее, в инфраструктуру крупных гиперскейлеров Fungible тоже надеется попасть, а вот системы корпоративного класса она пока обходит стороной.

Постоянный URL: http://servernews.ru/1024031
Система Orphus