Материалы по тегу: ускоритель

18.09.2020 [15:55], Алексей Степин

ИИ-ускоритель Qualcomm Cloud AI 100 обещает быть быстрее и экономичнее NVIDIA T4

Ускорители работы с нейросетями делятся, грубо говоря, на две категории: для обучения и для исполнения (инференса). Именно для последнего случая важна не столько «чистая» производительность, сколько сочетание производительности с экономичностью, так как работают такие устройства зачастую в стеснённых с точки зрения питания условиях. Компания Qualcomm предлагает новые ускорители Cloud AI 100, сочетающие оба параметра.

Сам нейропроцессор Cloud AI 100 был впервые анонсирован ещё весной прошлого года, и Qualcomm объявила, что этот чип разработан с нуля и обеспечивает вдесятеро более высокий уровень производительности в пересчёте на ватт, в сравнении с существовавшими на тот момент решениями. Начало поставок было запланировано на вторую половину 2019 года, но как мы видим, по-настоящему ускорители на базе данного чипа на рынке появились только сейчас, причём речь идёт о достаточно ограниченных, «пробных» объёмах поставок.

В отличие от графических процессоров и ПЛИС-акселераторов, которые часто применяются при обучении нейросетей и, будучи универсальными, потребляют при этом серьёзные объёмы энергии, инференс-чипы обычно представляют собой специализированные ASIC. Таковы, например, Google TPU Edge, к этому же классу относится и Cloud AI 100. Узкая специализация позволяет сконцентрироваться на достижении максимальной производительности в определённых задачах, и Cloud AI 100 более чем в 50 раз превосходит блок инференс-процессора, входящий в состав популярной SoC Qualcomm Snapdragon 855.

На приводимых Qualcomm слайдах архитектура Cloud AI 100 выглядит достаточно простой: чип представляет собой набор специализированных интеллектуальных блоков (IP, до 16 юнитов в зависимости от модели), дополненный контроллерами LPDDR (4 канала, до 32 Гбайт, 134 Гбайт/с), PCI Express (до 8 линий 4.0), а также управляющим модулем. Имеется некоторый объём быстрой набортной SRAM (до 144 Мбайт). С точки зрения поддерживаемых форматов вычислений всё достаточно универсально: реализованы INT8, INT16, FP16 и FP32. Правда, bfloat16 не «доложили».

Об эффективности новинки говорят приведённые самой Qualcomm данные: если за базовый уровень принять систему на базе процессоров Intel Cascade Lake с потреблением 440 Ватт, то Qualcomm Cloud AI 100 в тесте ResNet-50 быстрее на два порядка при потреблении всего 20 Ватт. Это, разумеется, не предел: на рынок новый инференс-ускоритель может поставляться в трёх различных вариантах, два из которых компактные, форм-факторов M.2 и M.2e с теплопакетами 25 и 15 Ватт соответственно. Даже в этих вариантах производительность составляет 200 и около 500 Топс (триллионов операций в секунду), а существует и 75-Ватт PCIe-плата формата HHHL производительностью 400 Топс; во всех случаях речь идёт о режиме INT8.

Данные для NVIDIA Tesla T4 и P4 приведены для сравнения

Данные для NVIDIA Tesla T4 и P4 приведены для сравнения

Основными конкурентами Cloud AI 100 можно назвать Intel/Habana Gaia и NVIDIA Tesla T4. Оба этих процессора также предназначены для инференс-систем, они гибче архитектурно — особенно T4, который, в сущности, базируется на архитектуре Turing —, однако за это приходится платить как ценой, так и повышенным энергопотреблением — это 100 и 70 Ватт, соответственно. Пока речь идёт о распознавании изображений с помощью популярной сети ResNet-50, решение Qualcomm выглядит великолепно, оно на голову выше основных соперников. Однако в иных случаях всё может оказаться не столь однозначно.

Новые ускорители Qualcomm будут доступны в разных форм-факторах

Новые ускорители Qualcomm будут доступны в разных форм-факторах

Как T4, так и Gaia, а также некоторые другие решения, вроде Groq TSP, за счёт своей гибкости могут оказаться более подходящим выбором за пределами ResNet в частности и INT8 вообще. Если верить Qualcomm, то компания в настоящее время проводит углублённое тестирование Cloud AI 100 и на других сценариях в MLPerf, но в открытом доступе результатов пока нет. Разработчики сосредоточены на удовлетворении конкретных потребностей заказчиков. Также заявлено о том, что высокая производительность на крупных наборах данных может быть достигнута путём масштабирования — за счёт использования в системе нескольких ускорителей Cloud AI 100.

В настоящее время для заказа доступен комплект разработчика на базе Cloud Edge AI 100. Основная его цель заключается в создании и отработке периферийных ИИ-устройств. Система достаточно мощная, она включает в себя процессор Snapdragon 865, 5G-модем Snapdragon X55 и ИИ-сопроцессор Cloud AI 100. Выполнено устройство в металлическом защищённом корпусе с четырьмя внешними антеннами. Начало крупномасштабных коммерческих поставок намечено на первую половину следующего года.

Постоянный URL: http://servernews.ru/1020978
27.08.2020 [19:13], Алексей Степин

TSMC и Graphcore создают ИИ-платформу на базе технологии 3 нм

Несмотря на все проблемы в полупроводниковой индустрии, технологии продолжают развиваться. Технологические нормы 7 нм уже давно не являются чудом, вовсю осваиваются и более тонкие нормы, например, 5 нм. А ведущий контрактный производитель, TSMC, штурмует следующую вершину — 3-нм техпроцесс. Одним из первых продуктов на базе этой технологии станет ИИ-платформа Graphcore с четырьмя IPU нового поколения.

Британская компания Graphcore разрабатывает специфические ускорители уже не первый год. В прошлом году она представила процессор IPU (Intelligence Processing Unit), интересный тем, что состоит не из ядер, а из так называемых тайлов, каждый из которых содержит вычислительное ядро и некоторое количество интегрированной памяти. В совокупности 1216 таких тайлов дают 300 Мбайт сверхбыстрой памяти с ПСП до 45 Тбайт/с, а между собой процессоры IPU общаются посредством IPU-Link на скорости 320 Гбайт/с.

Colossально: ИИ-сервер Graphcore с четырьмя IPU на борту

Colossально: ИИ-сервер Graphcore с четырьмя IPU на борту

Компания позаботилась о программном сопровождении своего детища, снабдив его стеком Poplar, в котором предусмотрена интеграция с TensorFlow и Open Neural Network Exchange. Разработкой Graphcore заинтересовалась Microsoft, применившая IPU в сервисах Azure, причём совместное тестирование показало самые положительные результаты. Следующее поколение IPU, Colossus MK2, представленное летом этого года, оказалось сложнее NVIDIA A100 и получило уже 900 Мбайт сверхбыстрой памяти.

Машинное обучение, в основе которого лежит тренировка и использование нейронных сетей, само по себе требует процессоров с весьма высокой степенью параллелизма, а она, в свою очередь, автоматически означает огромное количество транзисторов — 59,4 млрд в случае Colossus MK2. Поэтому освоение новых, более тонких и экономичных техпроцессов является для этого класса микрочипов ключевой задачей, и Graphcore это понимает, заявляя о своём сотрудничестве с TSMC.

Тайловая архитектура Graphcore

Тайловая архитектура Graphcore  Colossus MK2

В настоящее время TSMC готовит к началу «рискового» производства новый техпроцесс с нормами 3 нм, причём скорость внедрения такова, что первые продукты на его основе должны увидеть свет уже в 2021 году, а массовое производство будет развёрнуто во второй половине 2022 года. И одним из первых продуктов на базе 3-нм технологических норм станет новый вариант IPU за авторством Graphcore, известный сейчас как N3. Судя по всему, использовать 5 нм британский разработчик не собирается.

В планах компании явно указано использование 3-нм техпроцесса

В планах компании явно указано использование 3-нм техпроцесса

В настоящее время чипы Colossus MK2 производятся с использованием техпроцесса 7 нм (TSMC N7). Они включают в себя 1472 тайла и способны одновременно выполнять 8832 потока. В режиме тренировки нейросетей с использованием вычислений FP16 это даёт 250 Тфлопс, но существует удобное решение мощностью 1 Пфлопс — это специальный 1U-сервер Graphcore, в нём четыре IPU дополнены 450 Гбайт внешней памяти. Доступны также платы расширения PCI Express c чипами IPU на борту.

Дела у Graphcore идут неплохо, её технология оказалась востребованной и среди инвесторов числятся Microsoft, BMW, DeepMind и ряд других компаний, разрабатывающих и внедряющих комплексы машинного обучения. Разработка 3-нм чипа ещё более упрочнит позиции этого разработчика. Более тонкие техпроцессы существенно увеличивают стоимость разработки, но финансовые резервы у Graphcore пока есть; при этом не и исключён вариант более тесного сотрудничества, при котором часть стоимости разработки возьмёт на себя TSMC.

Постоянный URL: http://servernews.ru/1019252
21.08.2020 [20:34], Алексей Степин

Intel Xe готовит ускорители SG1 для обработки потокового видео силами четырёх GPU DG1

Популярность различных служб потокового видео чрезвычайно высока, и это означает, что со стороны серверов и ЦОД востребованность решений, способных в реальном времени транскодировать множество видеопотоков, так же высока. В портфолио Intel уже много лет есть серия особых ускорителей под общим названием Visual Compute Accelerator. До недавнего времени в них использовались процессоры Xeon со встроенной графикой Iris Pro, но с появлением Intel Xe VCA может получить новое дыхание.

Так был устроен Intel VCA2

Так был устроен Intel VCA2

Ускорители из серии VCA действительно уникальные решения: в стандартный двухслотовый конструктив платы расширения PCIe Intel умещала три процессора общего назначения Xeon E3-1200 v4, каждый с собственным модулем eDRAM объёмом 128 Мбайт и массивом DRAM объёмом 32 Гбайт. Такой ускоритель мог обрабатывать 14 потоков в формате 4K при 30 кадрах в секунду или 44 потока в более низком разрешении 1080p. Но не столь давно платы Intel VCA2 получили статус EOL — их жизненный цикл закончен.

Для коммутации VCA2 использвовала два чипа PEX. В SG1 придётся коммутировать PCIe для четырёх чипов

Для коммутации VCA2 использвовала два чипа PEX. В SG1 придётся коммутировать PCIe для четырёх чипов

Прямой замены VCA2 сейчас нет; по всей видимости, такая архитектура не оправдала себя в должной степени. Но, как известно, компания готовится выложить на стол новый козырь в виде графических процессоров Xe. Помимо монструозных Xe-HP, предназначенных для вычислительных задач, «синие» готовят и интегрированную Xe-LP, которая должна дебютировать в новых мобильных процессорах Tiger Lake уже 2 сентября.

Архитектура Xe-LP имеет и дискретный вариант: Discrete Graphics 1 (DG1). Прототип такой платы довольно компактен, он сопоставим по габаритам с графическими картами начального уровня AMD и NVIDIA. Судя по отсутствию дополнительных разъёмов питания, он должен укладываться в 75-ваттный пакет энергопотребления. Похоже, гипотетический ускоритель VCA3 будет называться SG1, поскольку Intel упомянула, что SG1 как раз и нацелен на применение в области ускорения обработки видео и потокового вещания. Это хорошо согласуется с «отставкой» VCA2 — ускорители на базе архитектуры Xe явно производительнее и процессорной части, и Iris Pro, тем более что отдельно последняя не выпускается.

Представитель Intel подтвердил Anandtech, что SG1 будет иметь четыре чипа DG1 на одной плате. Как и VCA2, гипотетический пока ещё VCA3/SG1 должен получить сетевую часть. Какой объём памяти будет сопровождать DG1 в этих платах, пока неизвестно, как и то, каким образом будут распределяться линии PCI Express. Уверенно можно сказать только то, что новый процессор сможет транскодировать видео в форматах AVC, HEVC, MPEG2 и VP9, а также декодировать формат AV1.

Постоянный URL: http://servernews.ru/1018823
01.08.2020 [23:02], Алексей Степин

DPU, «cопроцессоры для данных», набирают популярность, но пока не являются зрелыми

В новости об анонсе сопроцессора для SSD от Pliops, призванного разгрузить от этих задач CPU, упоминалось, что подобного рода решения разрабатывают и другие. Концепция «сопроцессора для данных» (data processing unit, DPU) уже в достаточной степени оформилась, но единства в архитектурном и программном подходе пока нет. Что может предложить современный рынок DPU?

С обработкой данных на стороне сетевого адаптера — самого периферийного устройства в любой серверной системе, активно экспериментировала ещё Mellanox. Сейчас, будучи частью NVIDIA, она продолжает начатую работу. Главной разработкой NVIDIA/Mellanox в этой сфере можно назвать чип BlueField-2, с одной стороны обеспечивающий функциональность типичного SmartNIC (один порт Ethernet класса 200G или два порта класса 100G), а с другой — поддержку NVMe over Fabrics и разгрузку центральных процессоров во всём, что касается задач ввода-вывода.

Это решение содержит как массив ARM-ядер, так и специализированные ASIC-блоки ускорения различных функций. Дополняется это наличием набортных 16 Гбайт оперативной памяти DDR4. NVIDIA видит DPU, такие, как BlueField-2, частью связки «CPU + GPU + DPU». Благодаря использованию архитектуры ARM такой подход универсален и его разделяют, к примеру, аналитики Wells Fargo.

Архитектура AWS Nitro

Архитектура AWS Nitro

Но на рынке существуют и другие игроки, активно внедряющие идеи, заложенные в концепции DPU. К ним можно отнести одного из крупнейших провайдеров облачных услуг — Amazon Web Services. Она разработала собственный DPU-ускоритель, плату Nitro. В общих чертах это решение похоже на NVIDIA/Mellanox BlueField-2, но ASIC там используется другой, собственной разработки AWS.

Инстансы Elastic Compute Cloud запускаются с использованием таких ускорителей, работающих на шине PCI Express. AWS не ограничивает их единственным предложением, а предоставляет различные оптимизированные под задачи заказчика версии — ориентированные на вычисления, машинное обучение, хранение и обработку данных и другие сценарии. AWS Nitro также содержит реализацию NVMe и NVMe-OF; похоже, это станет общим местом всех DPU.

Архитектура Diamanti

Архитектура Diamanti

Над похожим проектом работает компания Diamanti, разрабатывающая линейку выделенных гиперконвергентных серверов, оптимизированных для запуска контейнеров Kubernetes и выполняющих эту задачу лучше стандартных серверов. В серию входят модели D10, D20 и G20, и в общем виде они мало чем отличаются от обычных машин, но машины Diamanti содержат два уникальных компонента — NVMe-контроллер и 40GbE-контроллер Ethernet с поддержкой Kubernetes CNI и SR-IOV.

Решения Diamanti интересы тем, что используют два раздельных ускорителя вместо одного, и это имеет свои преимущества: скажем, скорости сетевого подключения 40 Гбит/с в ближайшее время может оказаться недостаточно, но для соответствия современным требованиям в сервере Diamanti будет достаточно сменить сетевой ускоритель, не трогая плату NVMe-контроллера, отвечающую за общение с дисковой подсистемой.

Fungible предлагает сделать DPU центром всей системы

Fungible предлагает сделать DPU центром всей системы

Также заслуживает упоминания компания Fungible, о которой мы рассказывали читателям в начале этого года. Именно она одной из первых озвучила термин DPU. На момент первого анонса, в феврале 2020 года готового ускорителя на руках у Fungible ещё не было. Но концепция DPU, пожалуй, проработана у Fungible лучше всего: предполагается, что в таких системах весь трафик, от сетевого и содержимого, пересылаемого из памяти в ЦП, до данных, передаваемых графическому процессору, будет проходить через DPU.

«Процессор обработки данных» в представлении Fungible станет звеном, объединяющем все компоненты вычислительной системы, будь то процессоры, GPU, FPGA-ускорители или массивы флеш-памяти. В качестве системы межсоединений компания планирует использовать шину TrueFabric собственной разработки, отличающуюся низким уровнем задержек. Готовое решение Fungible должна представить уже в этом году.

Архитектура Pensando Capri

Наконец, компания Pensando, в конце 2019 года начавшая сотрудничество с известным производителем СХД NetApp, уже поставляет ускорители Distributed Services Card, DSC-100. Они сочетают в едином чипе и одной плате функции, которые Diamanti решает с помощью двух раздельных карт; как уже было сказано, у такого подхода есть и минусы — заменять ускоритель придётся целиком, даже если «ускорительная» часть ещё способна на многое, а ускорить требуется лишь сетевое подключение.

В основе DSC-100 лежит процессор Capri, с сетевой стороны предоставляющий пару портов 100GbE, имеющих общий буфер пакетов. С этим буфером общается полностью программируемый процессор обработки данных, но имеются в составе чипа и классические ARM-ядра, а также «жесткие» ускорители, например, криптографический. Программируемая, «жёсткая» и ARM-части общаются посредством когерентной системы межсоединений, которая подключена к контроллеру PCIe и массиву оперативной памяти. В целом решение напоминает NVIDIA/Mellanox BlueField-2.

К сожалению, ни одно из описанных решений пока не успело стать стандартным для индустрии. Каждое из них имеет свои достоинства и недостатки, а главное — несовместимую между собой программную часть. Это делает внедрение DPU в имеющиеся структуры достаточно сложным процессом: надо не ошибиться в выборе поставщика и разработчика, а кроме того, требуется отдельная покупка, инсталляция и затраты на обслуживание и поддержку.

Лишь такие гиганты, как AWS, могут полностью обеспечить себя идеальным для своих задач DPU. Иными словами, «сопроцессоры данных» пока представляют собой нишевые устройства. Для того, чтобы они стали по-настоящему популярными, нужен единый унифицированный стандарт архитектуры — такой же, какой обеспечил в своё время универсальность и кросс-совместимость графических процессоров.

Постоянный URL: http://servernews.ru/1017218
31.07.2020 [18:37], Алексей Степин

Сопроцессор для SSD от Pliops ускорит работу с базами данных в 10 раз

Компания Pliops ещё молода: она была основана в 2017 году выходцами из Samsung, M-Systems и XtremIO; все основатели являются специалистами в области СХД и энергонезависимой памяти. В 2019 году Pliops получила существенный объём инвестиций от Mellanox. А в 2020 году компания анонсирует свой новейший продукт — сопроцессор, берущий на себя тяжёлые задачи по работе с флеш-памятью.

Подобные чипы разрабатывают многие, но Pliops обещает, что её решение ускорит работу с такого рода памятью более чем в 10 раз. Впервые технология была продемонстрирована на саммите Flash Memory 2019, и вот, наконец, концепция обратилась в реальный осязаемый продукт, доступный к приобретению.

Решение Pliops достаточно необычное: это не контроллер NAND-массива, а именно сопроцессор-ускоритель, выполненный в виде отдельной платы с разъёмом PCI Express и берущий на себя всю работу по обслуживанию массивов SSD. И делает это новый ускоритель максимально эффективно: серьёзные флеш-СХД могут нагружать хост-процессоры весьма сильно, но решение Pliops позволяет решить эту проблему.

Особенно сильно эффект проявится в системах, используемых для работы с базами данных. Pliops объясняет это тем, что СУБД, будь то реляционные или NoSQL, традиционно разделяют непосредственно данные и ключи или индексы. А отдельная единица хранения данных имеет переменный размер, и эта структура не слишком хорошо сочетатся с традиционными устройствами хранения данных, у которых размер блока фиксирован.

Если в случае с обычными HDD вычислительная нагрузка невелика, поскольку случайных операций такие устройства выдают немного (в районе сотен), то твердотельные накопители, способные выдать 500 тысяч IOPS и более, создают и серьёзную вычислительную нагрузку, «утрамбовывая» вариабельные блоки данных в свой жёсткий формат. К этому добавляет проблем использование сжатия данных, которое тоже создаёт нагрузку.

Сопроцессор, разработанный Pliops и получивший название PSP, как раз и призван взять на себя все обязанности по работе с данными в формате Key:Value (KV), что особенно важно в крупных СХД, работающих с огромными массивами БД. Немаловажно то, что сопроцессор Pliops делает свою работу полностью прозрачно и не требует модификации программного обеспечения пользователя.

Со стороны ПО он выглядит, как обычный блочный SSD, однако за счёт аппаратного акселератора работа с базами данных может ускориться более, чем в 10 раз, а время отклика — параметр также весьма немаловажный, когда речь заходит о БД — снизится еще сильнее, в 100 раз. Новинка уже прошла предварительную проверку более чем у десяти крупных провайдеров облачных и корпоративных услуг по хранению данных и запуску БД.

Сопроцессор PSP позволяет использовать обычные недорогие SSD (даже с QLC-памятью) а это уменьшает стоимость владения на величину до 90%, поскольку крупные специализированные твердотельные СХД всё ещё очень дороги. Pliops PSP ускоряет работу с MySQL, MariaDB, mogoDB, Redis, Oracle, Apache Spark и Cassandra и системы на его основе прекрасно масштабируются.

Разработчики PSP полагают, что данного рода сопроцессоры образуют отдельный популярный класс устройств, подобно тому, как это случилось с графическими процессорами и сейчас происходит с тензорными ускорителями. Что ж, у Pliops есть все шансы стать в сфере работы с All-Flash СХД тем, чем стала NVIDIA в области ускорения машинного интеллекта.

Естественно, это далеко не первый проект по ускорению работы SSD вообще и оптимизации их для СУБД в частности. Например, у Samsung есть экспериментальный продукт KV Stacks — Key:Value SSD, созданный специально для баз данных одноимённого типа. Другие проекты зачастую опираются на FPGA. Та же Samsung совместно с Xilinx представила SmartSSD, обрабатывающий часть данных непосредственно на накопителе. А SmartIOPS уже не первый год поставляет SSD с фирменным контролером на базе ПЛИС.

Вероятно, следующим большим шагом станет массовое внедрение зонирования, которое подходит для HDD с SMR и уже включено в стандарт NVMe, и «вынос» FTL (Flash Translation Layer) за пределы отдельного накопителя с программной или аппаратной эмуляцией FTL на уровней всей СХД сразу.

Постоянный URL: http://servernews.ru/1017162
27.06.2020 [18:54], Алексей Степин

ISC 2020: NEC анонсировала новые векторные ускорители SX-Aurora

В японском сегменте рынка супервычислений продолжает доминировать свой, уникальный подход к построению систем класса HPC. Fujitsu сделала ставку на гомогенную архитектуру A64FX с памятью HBM2 и заняла первое место в Top500, но и другая японская компания, NEC, не отказалась от своего видения суперкомпьютерной архитектуры.

На предыдущей конференции SC19 NEC пополнила свой арсенал новыми ускорителями SX-Aurora 10E, которые получили более быстрые сборки HBM2. О новых ускорителях «Type 20» речь заходила ещё до начала эпидемии COVID-19; к сожалению, она внесла свои коррективы и анонс новинок состоялся лишь сейчас, летом 2020 года.

Изначально процессор SX-Aurora, используемый во всей серии ускорителей «Type 10» имеет 8 векторных блоков, каждый из которых дополнен 2 Мбайт кеша и 6 сборок памяти HBM2 общим объёмом 24 или 48 Гбайт. Из-за сравнительно грубого 16-нм техпроцесса уровень тепловыделения достаточно высок и составляет примерно 225 Ватт. В отличие от Fujitsu A64FX, NEC SX-Aurora требует для своей работы управляющего хост-процессора, и обычно компания комбинирует его с Intel Xeon, но существуют варианты и с AMD EPYC второго поколения.

ISC 2018: HPC-модуль с восемью векторными ускорителями NEC SX-Aurora Type 10

ISC 2018: HPC-модуль с восемью векторными ускорителями NEC SX-Aurora Type 10

Это роднит SX-Aurora с более широко распространёнными ускорителями на базе графических процессоров, однако позиционирование у них всё-таки выглядит иначе. ГП-ускорители, по мнению NEC, гораздо сложнее в программировании, хотя и обеспечивают высокую производительность.

Свою же разработку компания относит к решениям с похожим уровнем производительности, но гораздо более простым в программировании. Упор также делается на высокую пропускную способность памяти, составляющую у новинок «Type 20» 1,5 Тбайт/с.

Новая версия NEC Vector Engine, VE20, структурно, скорее всего, не изменилась. Вместо восьми ядер новый процессор получил 10, и, как уже было сказано, новые сборки HBM2, в результате чего ПСП удалось поднять с 1,35 до 1,5 Тбайт/с, а вычислительную мощность с 2,45 до 3,07 Тфлопс.

В серии пока представлено два новых ускорителя, Type 20A и 20B, последний аналогичен по конфигурации решениям Type 10 и использует усечённый вариант процессора с 8 ядрами. Говорится о неких архитектурных улучшениях, но деталей компания пока не раскрывает.  Оба варианта процессора VE20 работают на частоте 1,6 ГГц, а прирост производительности в сравнении с VE10 достигается в основном за счёт повышения ПСП. 

Похоже, VE20 лишь промежуточная ступень. В 2022 году планируется выпуск процессора VE30, который получит подсистему памяти с пропускной способностью свыше 2 Тбайт/с, в 2023 должен появиться его наследник VE40, но настоящий прорыв, судя по всему, откладывается до 2024 года, когда NEC планирует представить VE50, об архитектуре и возможностях которого пока ничего неизвестно.

Постоянный URL: http://servernews.ru/1014417
12.03.2020 [19:44], Алексей Степин

Xilinx Versal Premium: сверхмощная гетерогенная платформа для сетей нового поколения

Компания Xilinx, один из ведущих разработчиков программируемых логических схем (ПЛИС), анонсировала третье поколение адаптивных сетевых процессоров Versal — Versal Premium. Новинка является наиболее производительной в серии и предназначена для использования в высокоскоростных сетях нового поколения.

Компания называет Versal «адаптивной платформой для ускорения вычислений» (adaptive compute acceleration, ACAP).

И действительно, архитектура Versal достаточно уникальна. По своей структуре она гетерогенна и включает в себя самые различные блоки — так, Versal Premium имеет в своём составе два ядра ARM Cortex-A72, два ядра ARM Cortex-R5F для приложений реального времени, набор движков DSP, набор криптографических движков, способных работать со скоростями до 400 Гбит/с, интерфейсы Ethernet со скоростями от 100 до 600 Гбит/с, контроллеры периферийных шин, а также набор программируемой логики, являющийся сердцем чипа.

Новый чип разработан с применением 7-нм технологического процесса TSMC и, по словам Xilinx, втрое превосходит другие ПЛИС, когда речь идёт о пропускной способности сетевых подсистем. Versal Premium должен стать новым словом в разработке однокристальных сетевых процессоров классов 400G и 800G. Полностью технические характеристики приведены на сайте компании-разработчика. Отметим только, что в старшем варианте Versal Premium будет иметь более 14 тысяч DSP-движков, 7352 ячейки системной логики и свыше 3,3 миллионов LUTs.

В сравнении с предыдущими чипами Versal, версия Premium получила трансиверы PAM4 со скоростью 112 Гбит/с, поддержку сетевого проткола Interlaken, высокоскоростные криптографические движки и реализацию PCI Express 5.0. В комплекте с платформами разработки Vitis и Vivado Design Suite это наиболее мощное на сегодня решение для разработчиков аппаратного и программного сетевого обеспечения нового поколения.

Плата VMK180 из комплекта разработчика Versal Prime Series

Плата VMK180 из комплекта разработчика Versal Prime Series

Пока речь идёт лишь об анонсе новой платформы. Поставки образцов Versal Premium избранным клиентам Xilinx начнутся в первой половине следующего года. Но документация уже доступна и разработчики могут приступить к прототипированию новых устройств, используя комплект Versal Prime Evaluation Kit.

Постоянный URL: http://servernews.ru/1005810
22.01.2020 [08:44], Алексей Степин

One Stop Systems представила 4U GPU-модуль AI on the Fly с поддержкой PCIe 4.0

Стандарт PCI Express 4.0 продолжает завоевывать рынок. Пока поддержкой новой шины обладают только процессоры AMD и IBM, но производители аппаратного обеспечения активно представляют новые устройства, способные работать на скоростях, обеспечиваемых PCIe 4.0.

Компания One Stop Systems (OSS) анонсировала систему расширения, предназначенную для увеличения вычислительной производительности уже имеющихся систем путём подключения восьми ускорителей NVIDIA Tesla V100S.

Новинка 4U Value Accelerator возглавляет серию AI on the Fly и предназначается для рынка супервычислений и решений класса mission critical, требующих высокой вычислительной производительности. Она представляет собой корпус формата 4U с установленной в нём платой с 10 слотами расширения PCI Express 4.0, а также двумя блоками питания общей мощностью 4000 Ватт.

Такая мощная система питания позволяет задействовать одновременно до восьми ускорителей NVIDIA Tesla V100 и развить мощность до 1,04 Пфлопс (в режиме тензорных вычислений до 65,6 Тфлопс). Разумеется, поддерживаются и другие ускорители: единственное требование — совместимость с PCI Express.

Кабели и бэкплейны OSS

Кабели и бэкплейны OSS

С другими машинами комплекс расширения соединяется посредством двух кабелей и плат PCIe 4.0 x16, что даёт пиковую пропускную способность на уровне 512 Гбайт/с. Поддерживается работа в режиме PCI Express 3.0, разумеется, с меньшей пропускной способностью. За распределение линий PCIe отвечает коммутатор Broadcom PEX88032.

Система охлаждения воздушная, используются вентиляторы либо с постоянной производительностью, либо с возможностью ручного регулирования скорости вращения. В первом случае поддерживаются платы расширения с теплопакетом до 300 Ватт. В арсенале OSS имеются и другие системы расширения, с различным количеством доступных слотов.

Постоянный URL: http://servernews.ru/1001950
02.12.2019 [14:58], Алексей Степин

NEC обновила серию ускорителей SX-Aurora и опубликовала планы относительно HPC

Компания NEC не спешит отказываться от своего уникального пути на рынке супервычислений и продолжает развивать серию векторных процессоров SX-Aurora.

На конференции SC19 компания представила ряд новых решений, сочетающих в себе SX-Aurora и новейшие процессоры AMD «Rome» Intel Xeon 9200.

Типы ускорителей SX-Aurora

Типы ускорителей SX-Aurora

Как и два года назад, основой платформы NEC является плата расширения «Type 10»; впрочем, в настоящее время производитель заменяет его на усовершенствованный «Type 10E» с более быстрыми сборками HBM2 на борту. За счёт этого ПСП удалось поднять на 10%, и даже в самом доступном варианте «Type 10CE» данный параметр теперь составляет 1 Тбайт/с против ранних 750 Гбайт/с.

Системы NEC на базе SX-Aurora

Системы NEC на базе SX-Aurora

Массовый выпуск плат NEC «Type 10E» намечен на январь 2020 года. Всего в семействе будет четыре модели, отличающиеся тактовыми частотами, объёмом HBM2 и системой охлаждения. Последняя будет представлена в воздушном активном и пассивном вариантах, также будет выпускаться и вариант с жидкостным охлаждением.

Сервер NEC A412-8 сочетает в себе SX-Aurora и AMD Rome

Сервер NEC A412-8 сочетает в себе SX-Aurora и AMD Rome

Компания не собирается останавливаться на достигнутом и чип текущего поколения VE10 будет заменён на VE20 уже в середине или конце 2020 года. Он получит ещё более быструю память, больше векторных ядер (возможно 10 против 8 сегодняшних) и неизвестные пока новые функции. Следующее за ним поколение, VE30, должно появиться в 2022 году. Об этом поколении данных пока нет — известно лишь, что эти процессоры будут иметь новую архитектуру.

Постоянный URL: http://servernews.ru/998882
30.11.2019 [21:04], Алексей Степин

Intel опубликовала предварительные спецификации технологии Data Streaming Accelerator

Корпорация Intel выложила в свободный доступ предварительную версию спецификаций новой технологии DSA. Расшифровывается это как Data Streaming Accelerator (ускоритель потоковой передачи данных).

Данная технология должна будет заменить используемую ныне QuickData, являющуюся подмножеством Intel I/O Acceleration Technology. Появится поддержка DSA во всех новых процессорах Xeon.

Технология DSA призвана ускорить операции с перемещением и преобразованием данных в самых различных ситуациях — от локальной работы с различными типами памяти до сценариев типа «перемещение данных в другой узел кластера». Она также может выполнять ряд операций высокого уровня, таких как генерация и сверка контрольных сумм или сравнение различных регионов памяти с последующей выдачей разницы (delta); последнее может быть полезно для дедупликации данных.

Архитектура Intel DSA полностью поддерживает виртуализацию

Архитектура Intel DSA полностью поддерживает виртуализацию

Спецификации DSA предусматривают PCIe-совместимый интерфейс, что должно упростить разработку программного обеспечения с поддержкой новой технологии. Также в DSA реализована развитая поддержка виртуализации, существенно упрощающая проверку и миграцию виртуальных машин. В документации, опубликованной Intel, содержится полноценное описание новой технологии, которое может помочь разработчикам ПО уже сейчас, хотя речь и идёт о предварительных спецификациях.

Постоянный URL: http://servernews.ru/998750
Система Orphus