Материалы по тегу: fpga

06.04.2021 [18:00], Владимир Мироненко

Процессоры Intel Xeon Ice Lake-SP позволят ускорить трансформацию сетей 5G

Компания Intel представила новые процессоры Intel Xeon 3-го поколения (кодовое название Ice Lake-SP), включающий новые оптимизированные для работы в сети вместе с проверенными схемами решений, которые ускоряют вывод продукта на рынок.

Новые процессоры обеспечивают по сравнению с чипами предыдущего поколения в среднем на 62 % больше производительности для ряда сценариев широко развёрнутых рабочих и сетевых нагрузок 5G, в 1,63 раза более высокую пропускную способность и на 33 % больше емкости памяти. Intel также объявила о начале тестирования процессоров Intel Xeon D нового поколения, предназначенных для периферийных сред с ограниченным пространством и энергопотреблением.

Новые чипы позволят развивать сетевую инфраструктуру и технологии вместе с развёртыванием 5G и появлением интеллектуальных периферийных устройств. Intel обеспечивает компании наиболее полным набором технологий для трансформации сети и поддерживает самую широкую и проверенную экосистему, предоставляя клиентам широкий выбор и возможности для ускорения развёртывания.

Процессоры серии N позиционируются как идеальный выбор для беспроводного доступа, нагрузок на границе сети и средств обеспечения безопасности. Они доступны с различными ядрами, частотами, функциями и мощностью, чтобы обеспечить меньшую задержку, более высокую пропускную способность и детерминированную производительность в соответствии с требованиями поставщика услуг.

У них есть встроенные функции ускорения рабочих нагрузок, включая Intel Deep Learning Boost, Intel Advanced Vector Extensions 512 и технологию Intel Speed Select. А в связи с необходимостью обеспечения безопасности для сетей 5G расширения Intel SGX (Software Guard Extensions), интегрированные в новые CPU, гарантируют безопасную настройку канала и обмен данными. Встроенное криптоускорение поможет снизить влияние полного шифрования данных на производительность и повысить производительность рабочих нагрузок с интенсивным шифрованием.

Процессоры Intel Xeon Scalable 3-го поколения совместимы с другими компонентами платформы и программным обеспечением Intel, включая Intel FPGA, адаптеры Intel Ethernet серии 800 и 810, энергонезависимую память Intel Optane, FlexRAN, OpenNESS, Open Visual Cloud и Intel Smart Edge, что позволит повысить производительность системы и поможет клиентам добиться оптимальной совокупной стоимости владения.

10-нм матрицы FPGA Agilex, которые сейчас поставляются и обеспечивают почти вдвое большую производительность на Вт по сравнению с конкурирующими 7-нм устройствами, используются в ядрах и сегментах доступа для обеспечения возможностей ускорения инфраструктуры и других функций, дополняющих основные рабочие нагрузки и выполняемые рабочие нагрузки на процессорах Intel Xeon Scalable.

Оптимизированные для работы в сети процессоры Intel Xeon Scalable 3-го поколения предназначены для поддержки различных сетевых сред операторов и оптимизированы для множества рабочих нагрузок, например:

  • Ядро беспроводной сети 5G: с помощью процессоров Intel Xeon Scalable 3-го поколения поставщики услуг связи могут повысить производительность UPF 5G до 42 %. В сочетании с адаптерами Intel Ethernet серии 800 они могут обеспечить производительность, эффективность и надёжность для сценариев использования, требующих низкой задержки, включая дополненную реальность, облачные игры, дискретную автоматизацию и даже роботизированную хирургию.
  • Rakuten Mobile, Inc. (Rakuten Mobile): Rakuten Mobile работает с Intel над использованием новых функций, доступных в процессорах Intel Xeon Scalable 3-го поколения, для своего сервера мобильной облачной платформы следующего поколения, который будет поддерживать различные рабочие нагрузки в центральных и региональных центрах обработки данных.
  • SK Telecom: теперь с масштабируемым процессором Intel Xeon 3-го поколения в сочетании с адаптерами Ethernet и оптимизированными решениями NFV SK Telecom может ускорить развёртывание новейших технологий в ядре и во всей сети 5G. В результате абоненты получат стабильное качество услуг 5G.
  • vRAN: по мере того, как операторы виртуализируют сеть радиодоступа (vRAN) для обеспечения гибкости, они полагаются на 5G Massive MIMO для увеличения ёмкости и пропускной способности. С новейшими процессорами Intel Xeon, адаптерами Intel Ethernet серии 800 и выделенными ускорителями Intel vRAN заказчики смогут удвоить огромную пропускную способность MIMO при аналогичном диапазоне энергопотребления для лучшей в своём классе конфигурации vRAN 64T64R с полосой 3x100 МГц.
  • Verizon: оператор Verizon занимается виртуализацией всей своей сети, включая RAN. Процессоры Intel Xeon обеспечивают выполнение требований к обработке для поддержки целей Verizon в области сквозной виртуализации, а усовершенствования в области полупроводников обеспечивают высокий уровень производительности, большую ёмкость и эффективность для vRAN.

Intel также объявила об обновлениях своих решений Intel Select Solutions, оптимизированных для сетевых рабочих нагрузок, vRAN, Visual Cloud Deliver Network и NFVI Forwarding Platform, которые предлагают предварительно протестированные и проверенные конфигурации, позволяя ускорить осуществление разработок и упрощая развёртывание инфраструктуры.

Эти решения были разработаны с различными партнёрами по программному обеспечению, включая Red Hat, VMware и Wind River. Intel также работает с рядом партнёров экосистемы Intel Network Builders, чтобы проверить их предложения для этих решений, в том числе: ASUS, Advantech, Hewlett Packard Enterprise (HPE), Intequus, Inventec, Lanner Electronics, Lenovo, Nexcom, QCT, Supermicro и ZT Systems.

Постоянный URL: http://servernews.ru/1036673
24.03.2021 [13:14], Сергей Карасёв

Tachyum готовится к началу поставок эмулятора для процессора Prodigy

Словацкая компания Tachyum, разработчик семейства процессоров Prodigy, сообщает о подготовке специального аппаратного эмулятора, позволяющего оценить возможности прототипов готовящихся чипов.

Об изделиях Prodigy мы уже рассказывали. Компания проектирует чипы, которые объединят до 128 ядер. Процессоры, как ожидается, будут использоваться в крупных центрах обработки данных, высокопроизводительных платформах искусственного интеллекта и пр.

Итак, сообщается, что Tachyum завершает внутреннее тестирование аппаратного эмулятора Prodigy, который позволит заинтересованным сторонам произвести замеры производительности и приступить к разработке программного обеспечения.

Эмулятор построен на основе перепрограммируемых вентильных матриц (FPGA), а также плат ввода/вывода. Такое решение рассчитано на установку в стойку.

Отмечается, что эмулятор с четырьмя модулями FPGA имитирует работу восьми вычислительных ядер процессора Prodigy. Соединяя такие изделия при помощи кабелей, можно воспроизводить работу Prodigy в той или иной конфигурации.

В скором времени аппаратные эмуляторы станут доступны первым заказчикам. Собственно процессоры Prodigy компания Tachyum ранее обещала выпустить в течение нынешнего года.

Постоянный URL: http://servernews.ru/1035637
20.03.2021 [13:47], Сергей Карасёв

Xilinx представила компактные решения UltraScale+ для периферийных вычислений

Компания Xilinx расширила семейство продуктов UltraScale+, анонсировав ультракомпактные изделия Artix и Zynq, рассчитанные на применение в сфере периферийных (edge) вычислений. Чипы позволят решать различные задачи в сферах машинного зрения, вещания, здравоохранения, транспорта и пр.

Новинки будут производиться по 16-нанометровой технологии и использовать упаковку InFO (Integrated Fan-Out) компании TSMC. Утверждается, что изделия приблизительно на 70 % компактнее традиционных современных чипов.

Новое семейство Artix UltraScale+ включает небольшие ПЛИС (FPGA). Они отлично подходят для машинного зрения, высокоскоростных сетевых устройств, видеооборудования класса 8K-Ready и пр. Упомянуты трансиверы с пропускной способностью 16 Гбит/с.

В свою очередь, решения Zynq UltraScale+ — это микропроцессорные системы на кристалле (MPSoC), оптимизированные с целью снижения стоимости. Они могут содержать два или четыре вычислительных ядра ARM Cortex-A53, а также программирые элементы и DSP. Эти изделия подходят для оборудования Интернета вещей, интегрируемых видеокамер, различного медицинского оборудования и пр.

Пробные производство и поставки новых чипов планируется организовать в третьем квартале текущего года. Подробности о новинках представлены в презентации компании.

Постоянный URL: http://servernews.ru/1035347
23.02.2021 [19:24], Сергей Карасёв

Xilinx представила 100GbE-адаптеры Alveo SN1000 с FPGA и 16-ядерным ARM CPU на борту

Компания Xilinx анонсировала «умные» сетевые адаптеры Alveo SN1000, рассчитанные на использование в современных центрах обработки данных с высокой нагрузкой. Пробные поставки изделий уже начались, а массовые продажи планируется организовать 31 марта.

Устройства относятся к решениям SmartNIC. Они позволяют перенести нагрузку с центральных процессоров серверов непосредственно на сетевые адаптеры, оптимизировав тем самым работу всей IT-инфраструктуры. Адаптеры Alveo SN1000 являются полностью программно-определяемыми и подходят для создания компонуемой инфраструктуры.

В их основу положена 16-нм FPGA XCU26 серии UltraScale+, дополненная SoC от NXP с 16 ядрами ARM Cortex-A72 (2 ГГц, 8 Мбайт кеш). Процессору выделен один, а FPGA — два 4-Гбайт модуля памяти DDR4-2400. Первенец семейства, адаптер SN1022, выполнен в виде FHHL-карты с интерфейсом PCIe 3.0 x16 / PCIe 4.0 x8 и двумя 100GbE-портами QSFP28.

Для набортной SoC заявлена совместимость с Ubuntu и Yocto Linux. В качестве основного хранилища есть 16-Гбайт NAND-модуль eMMC, а для загрузчика — NOR-чип ёмкостью 64 Мбайт. Среди совместимых ОС для хоста указаны RHEL, CentOS и Ubuntu.

Фактически в состав адаптера входят и control plane, и data plane. Поддерживается аппаратная разгрузка virtio-net, а также ускорение работы Intel DPDK и Onload TCPDirect, Open Virtual Switch, Ceph RDB, IPSec и так далее. Часть функциональности перешла по наследству от SolarFlare, но Xilinx пошла дальше и открыла доступ к готовым IP-решениям в магазине App Store.

В магазине пока нет готовых решений для SN1000, но для этой серии доступна платформа разработки Xilinx Vitis. Более подробную информацию о новинках можно найти здесь. Вместе с новыми SmartNIC и магазином компания также представила платформы Smart World и Accelerated Algorithmic Trading (ATT). Первая предназначена для ИИ-видеоаналитики в режиме реального времени, а вторая, как нетрудно догадаться, для высокочастотного трейдинга (HFT).

Постоянный URL: http://servernews.ru/1033338
05.01.2021 [22:01], Алексей Степин

S2C Prodigy Logic Matrix: новые вершины FPGA-прототипирования

Микросхемы с программируемой логикой (ПЛИС/FPGA) обеспечивают максимальную гибкость, в том числе, и при разработке новых процессорных архитектур. Компания S2C, известный поставщик средств разработки и прототипирования микроэлектроники начала поставки новых систем эмуляции и отладки под общим названием Prodigy Logic Matrix.

Требования к вычислительным мощностям, в том числе, и самих ПЛИС, постоянно растут. Нередко речь заходит о создании систем, включающих в себя более одной такой микросхемы, а иногда речь идёт о десятках ПЛИС, которые должны работать в составе одного вычислительного комплекса. Но встаёт вопрос об оптимальной системе интерконнекта, единого ответа на который в индустрии нет.

Новые системы Prodigy Logic Matrix позволяют обойти данный вопрос, поскольку не имеют жёстко заданной схемы межсоединений. Каждый такой модуль S2C содержит 8 мощных ПЛИС, в стандартную стойку может входить до 8 модулей, что дает тестовый комплекс из 64 ПЛИС в одной стойке. И это не предел, предусмотрена возможность дальнейшего расширения.

В основе каждого модуля Prodigy Logic Matrix лежит 20-нм матрица Xilinx Virtex UltraScale VU440. Это проверенное временем и хорошо задокументированное решение, имеющее свыше 5,5 миллионов логических ячеек, 2880 слайсов DSP и 48 трансиверов со скоростью 16,3 Гбит/с. Ожидаемый масштаб эмуляции ASIC в для LX1 составляет 240 миллионов ASIC-вентилей на каждую ПЛИС. Уже во втором квартале компания собирается выпустить вторую версию Logic Matrix LX2 на базе более сложных чипов Xilinx UltraScale+ VU19P, что должно повысить масштаб эмуляции до 392 миллионов ASIC-вентилей. Пока речь идёт о поставках первой версии Logic Matrix, которые уже начались.

Возвращаясь к вопросу о межсоединениях: каждая из восьми ПЛИС на плате Logic Matrix окружена множеством высокоплотных разъёмов Samtec: 64 LVDS, 80 mini-SAS и 8 специализированных высокоскоростных порта. Для связи между соседними FPGA используется интерконнект ShortBridge, а для остальных — SysLink. Кроме того, есть TransLink со встроенными SerDes-блоком для удалённого подключения по медным или оптическим кабелям.

Prodigy Logic Matrix может работать совместно с другими компонентами S2C, включая отладочные модули MDM Debug и ProtoBridge; последний посредством интерфейса AXI-PCIe позволяет подключать рабочую станцию, управляющую всей системой. Кроме того, в системе Prodigy Logic Matrix предусмотрен богатый набор разнообразных дочерних плат Prototype Ready IP с поддержкой PCI Express, USB, Ethernet, HDMI и ряда других интерфейсов. Также в состав входит необходимое программное обеспечение и библиотеки. Более подробную информацию можно запросить непосредственно у компании S2C.

Постоянный URL: http://servernews.ru/1029358
14.12.2020 [12:44], Юрий Поздеев

Lattice представила FPGA March-NX для сверхбыстрых аппаратных Root-of-Trust

Lattice Semiconductor представила второе поколение своих ПЛИС для обеспечения повышенной безопасности (аппаратный Root-of-Trust) в режиме реального времени. Новинка предназначена для серверов и промышленных аппаратных платформ, где требуется обеспечить усиленную защиту информации.

Lattice уже выпускала подобное решение в 2019 году (Mach FPGA), новое решение (Mach-NX FPGA) является его дальнейшим и имеет ряд архитектурных особенностей:

  • 384-бит алгоритм шифрования с перепрограммируемой потоковой защитой;
  • Поддержка eSPI;
  • Протоколы безопасности для обмена данными между устройствами (MCTP-SPDM);
  • 32-бит ядро RISC-V со специально разработанной микропрограммой для управления логическими ячейками (до 8400 ячеек).

В одной ПЛИС Mach-NX объединены 384-битный криптографический движок, пользовательские логические ячейки и блок ввода-вывода. March-NX может проверять и устанавливать обновления прошивок, чтобы поддерживать защищаемые системы в актуальном состоянии. Архитектура позволяет параллельно обрабатывать запросы, что увеличивает быстродействие системы и значительно снижает время реакции на обнаружение атак и восстановление после них. По словам Lattice, проверка прошивок может занимать менее 5 секунд, что делает их решение одним из самых быстрых, построенных на базе FPGA или MCU.

Mach-NX поддерживают стек решений Lattice Sentry, в который входят настраиваемое встроенное ПО, эталонные архитектуры и проекты, инструменты для разработки и внедрения систем, соответствующих требованиям NIST Platform Firmware Resiliency (NIST SP-800-193). Кроме того, Lattice представила среду разработки индивидуальных решений Propel, в которой для проектирования используется графический интерфейс, облегчающий написание кода.

Mach-NX также включает в себя флеш-память (UFM) для хранения пользовательских криптографических ключей и других задач. Весь ее объем (1064 Кбайт) зашифрован и при отключении двойной загрузки объем может быть увеличен до 2669 Кбайт. Блоки, обеспечивающие безопасность системы, генератор случайных чисел (TRNG) и неизменяемый идентификатор (уникален для каждого выпускаемого устройства) позволяют обрабатывать протоколы ECC (включая ECDSA и ECDH, 384 бит). Поддерживается протокол шифрования AES с длинной ключа до 256 бит. 

March-NX поддерживает двойную загрузку, что позволяет в случае сбоя или при выявлении скомпрометированной прошивки загрузиться с «золотого образа», который находится в памяти и продолжить работу. Решение от Lattice Semiconductor представляет собой готовый коммерческий продукт, который может быть настроен и доработан под нужды конкретного заказчика, что позволяет выпускать гибкие решения для обеспечения безопасности.

Постоянный URL: http://servernews.ru/1027755
03.12.2020 [11:58], Юрий Поздеев

Xilinx приобрела Falcon Computing, чтобы получить продвинутый компилятор Merlin

Xilinx приобрела Falcon Computing и теперь владеет технологиями компиляторов, для создания высокопроизводительных приложений с использованием FPGA и адаптивных систем на кристалле (SoC).

Falcon Computing Solutions разработала технологии оптимизации для компилятора высокого уровня (HLS), который позволяет использовать аппаратное ускорение для приложений. Xilinx заявила, что после приобретения Falcon Computing, ее технологии адаптивных вычислений станут более доступными для разработчиков программного обеспечения за счет улучшения унифицированной программной платформы Vitis с помощью автоматизированных оптимизаций для аппаратного обеспечения.

Интеграция технологий Falcon Computing в платформу Vitis позволит ускорять приложения, написанные на C++, не обладая при этом глубокими знаниями оборудования, что снижает нагрузку на разработчиков приложений при адаптации своего кода для конкретного «железа». По словам Falcon Computing, использование Merlin позволяет достигать ускорения на порядок больше, чем при использовании обычных средств разработки, за счет повторного использования данных при вычислениях, разделения памяти, параллельного и конвейерного ускорения вычислений.

Использование единого исходного кода, по стилю похожего на OpenMP, очень удобно для большинства разработчиков на C/C++, которые привыкли использовать стандартные конструкции языка программирования при разработке своих приложений.

Компилятор Merlin от Falcon Computing позволяет приложениям использовать параллельные вычисления в комбинации со специализированным оборудованием, таким как многоядерные процессоры, графические ускорители и FPGA. Компилятор автоматически преобразует код, написанный на C/C++ в код для FPGA, таким образом устраняя разрыв в специализированных навыках разработчиков и делая доступным эту технологию для более широкого круга программистов, которые до этого имели сложности с оптимизацией кода для гетерогенных платформ.

Falcon Computing не первая компания, которую купила Xilinx, в 2010 году она приобрела AutoESL (который теперь стал платформой Vitis), в 2013 году Neptune Design Automation (теперь Vivado). Xilinx стремится создать большую экосистему для эффективной разработки, покупая профильные компании, причем это не поглощение с целью уничтожения конкурентов, а приобретение технологий, с целью расширения своего бизнеса.

Постоянный URL: http://servernews.ru/1026894
01.12.2020 [15:53], Юрий Поздеев

IBM смогла довести скорость и надёжность QLC-накопителей до уровня TLC

Еще совсем недавно многие покупатели SSD опасались ставить накопители с TLC памятью, предпочитая переплатить за более выносливую и надежную MLC. Но все течет, все меняется, и кто бы мог предположить, что IBM будет использовать в своих передовых СХД FlashSystem 9200 исключительно QLC-память, доведя ее долговечность и производительность до уровня TLC. Но обо всем по порядку.

Флеш-память с четырьмя уровнями ячеек (QLC) дешевле в производстве, чем флеш-память с тремя уровнями, имеет более высокую плотность хранения, однако это сказывается на ресурсе и надежности. QLC хранит 4 бита в одной ячейке, что увеличивает продолжительность операций ввода-вывода, а это негативно сказывается на скорости чтения и записи.

Кроме того, QLC имеет меньший срок службы, выражаемый в циклах стирания-записи. Чтобы преодолеть эти ограничения, IBM разработала контроллер на базе FPGA Xilinx для своих запатентованных накопителей Flash Core Module (FCM), который отслеживает и классифицирует блоки флеш-памяти на предмет работоспособности и долговечности. Блоки данных, которые записываются наиболее часто, перемещаются на ячейки флеш-памяти с самым большим остаточным ресурсом.

Все вместе это позволило получить 16 000 циклов перезаписи на накопителе с QLC-памятью (накопитель с TLC показал 18 000 циклов перезаписи по аналогичной методике измерений). Для сравнения: обычный QLC-накопитель имеет около 1000 циклов перезаписи. Кроме того, IBM решила отказаться от использования суперконденсаторов для защиты информации и стала использовать магниторезистивную память (MRAM) Everspin. Если учесть, что срок службы суперконденсатора не превышает 5-7 лет, последствия эксплуатации их в составе модулей в долгосрочной перспективе не внушала оптимизма. По сути, MRAM выступает в роли энергонезависимого кеша записи.

В FCM второго поколения IBM заменила 256-Мбит ST-DDR3 на 1-Гбит ST-DDR4. Изменилась основная память для хранения данных: с 64-слойной TLC NAND перешли на 96-слойную QLC NAND (оба типа памяти для IBM поставляет Micron). Это позволило увеличить максимальную емкость накопителя до 38,4 Тбайт, сохранить высокую производительность и обеспечить приемлемый ресурс (2 DWPD, как и в случае FCM первого поколения). Контроллер FCM-2 использует 20-канальный интерфейс NAND, сжатие данных выполняется «на лету» (с коэффициентом примерно 2.3).

Еще одной особенностью FCM второго поколения является возможность использования части ячеек в качестве SLC-кеша. Контроллер отслеживает шаблоны операций ввода-вывода и сохраняет наиболее часто используемые данные на SLC, вместо QLC, что положительно сказывается на скорости работы. Для снижения износа ячеек используется специальный алгоритм для выравнивания нагрузки на ячейки и сборки мусора, что позволяет повысить их живучесть.

Теперь пришло время посмотреть какие же преимущества дают новые FCM для СХД IBM FlashSystem 9200: в 2U с 24 накопителями полезная емкость может достигать 757 Тбайт, при этом эффективная емкость для стандартного набора данных составляет уже 1,73 Пбайт, что раньше являлось недостижимым для таких компактных систем, а если добавить к этому производительность в 4,5 млн IOPS и надежность 99,9999%, то получим очень серьезную заявку на лидерство в своем классе.

СХД поддерживает не только фирменные IBM FCM, но и стандартные NVMe/SAS SSD корпоративного класса, а также до четырёх накопителей SCM — Intel Optane или Samsung zSSD. Впрочем, SCM, по мнению IBM, гораздо интереснее и полезнее использовать с новыми шинами вроде CXL 2.0, которые полностью изменят подход к работе с данными.

Постоянный URL: http://servernews.ru/1026728
24.11.2020 [18:54], Илья Коваль

«ВКонтакте» использует FPGA Intel Arria для обработки изображений на лету

Год назад на Intel Experience Day 2019 «ВКонтакте» поделилась результатами первых экспериментов по использованию FPGA-ускорителей для обработки изображений на лету. За прошедшее время компания внедрила ПЛИС в свою инфраструктуру, ускорив работу и сэкономив место в хранилище, где уже находится 1,2 Эбайта различного контента.

У «ВКонтакте» почти 100 млн активных пользователей, которые ежеминутно загружают порядка 100 Гбайт изображений. Для каждого из них после загрузки генерируется более десятка копий различных формата и размера, которые используются в разных частях социальной сети. Основная проблема в том, что на таких масштабах все эти дополнительные изображения отъедают очень много места — до двух третей от общего объёма.

Оптимальнее было бы генерировать их на лету, однако это очень существенная вычислительная нагрузка. Тестовые машины с Intel Xeon E5-2620 v4, которые на тот момент составляли значительную часть серверного парка, могли обработать до 200-220 изображений в секунду, чего явно было недостаточно. Поэтому и было принято решение попробовать для решения этой задачи FPGA, в данном случае это Arria 10.

Теперь изображения с нужными характеристиками можно сформировать, указав параметры в URL. Если оно уже не закешировано на одной из конечных точек для отдачи контента, то запрос уходит «вниз» и из хранилища (а это более 10 тыс. серверов) извлекается оригинал и отправляется на FPGA-ферму, которая состоит всего из 20 серверов с ПЛИС, которых достаточно для удовлетворения всех запросов. На FPGA изображения конвертируются и отправляются «наверх», где кешируются и отдаются клиенту.

Основными форматами, с которыми работает FPGA-ферма, являются JPEG и WebP, но компания рассматривает и другие, более современные. Кроме того, VK планирует изучить возможности FPGA для декодирования медиафайлов, сжатия данных (zstd) со стороны хранилища, а также опробовать в деле более современные модели ПЛИС.

Постоянный URL: http://servernews.ru/1026193
19.11.2020 [22:01], Алексей Степин

SC20: AMD ROCm объединит CPU, GPU и FPGA Xilinx

В настоящее время можно сказать, что вычислительные устройства различных типов — ЦП, графические процессоры, ПЛИС, DPU и другие ускорители — существуют практически отдельно друг от друга. И каждый случай, требующий их совместной работы, приходится рассматривать отдельно. Однако будущее за конвергенцией: куда проще и выгоднее иметь единую открытую программную платформу, позволяющую легко комбинировать различные ускорители, составляя из них систему, способную оптимально решать поставленные перед ней задачи.

Intel продвигает oneAPI как единую, универсальную платформу для разработки под все вычислительные платформы сразу. У AMD же есть проект ROCm, который позволяет объединить усилия CPU и GPU, а теперь — хотя сделка до конца не закрыта — FPGA Xilinx. На SC20 компании провели первую демонстрацию работы.

Ускорители Xilinx Alveo, как, впрочем, и любые ускорители на базе достаточно сложных ПЛИС, имеют широчайший спектр применения, от чисто вычислительных задач до вспомогательных, вроде обслуживания «умных» сетевых соединений и работы в качестве «сопроцессора данных» (DPU). Суть проведённой AMD демонстрации в том, что за счёт службы трансляции адресов PCIe (Address Translation Service, ATS) платы Alveo получают доступ к ресурсам памяти других устройств, будь то системные процессоры или ГП-ускорители.

Платформа AMD ROCm позволяет унифицировать такие процессы, как обнаружение и резервирование ресурсов ПЛИС в ускорителях Alveo. При этом обеспечивается безопасная изоляция ресурсов памяти для каждого пользователя, синхронизация ускорителей Alveo и Instinct, а за распределение нагрузки пользовательских запросов используется тот же механизм, что и для плат Instinct.

Такой подход должен действительно упростить и унифицировать создание HPC-систем нового поколения, которые будут сочетать в себе ускорители различных типов. Подробнее о технологии ROCm можно узнать на сайте AMD. Поскольку платформа является открытой, следует ожидать появления нового кода и в репозиториях ROCm на GitHub.

Постоянный URL: http://servernews.ru/1025811
Система Orphus