Материалы по тегу: ускорители

17.11.2019 [17:39], Алексей Степин

Microsoft Azure начинает использование ИИ-ускорителей Graphcore

Компания Graphcore объявила о дальнейшем расширении сотрудничества с Microsoft. Речь идёт о внедрении разработанного этими компаниями интеллектуального сопроцессора (IPU, Intelligence Processing Unit) и использовании его в серверах облачного сервиса Microsoft Azure.

Проведённое партнёрами совместное тестирование образца сервера, укомплектованного восемью акселераторами на базе пары чипов Graphcore C2, показало впечатляющие результаты.

При использовании языковой модели BERT для предварительного обучения нейросетей в течение 56 часов производительность машины с ускорителями Graphcore оказалась в три раза выше в сравнении с обычной системой. Также наблюдалось улучшение латентности. Ускорение обработки естественных языков очень важно для Microsoft, что неудивительно, учитывая растущую популярность облачных платформ и разного рода голосовых и языковых сервисов.

Graphcore позиционирует свою разработку в качестве конкурента GPU, заявляя о 100-кратном превосходстве чипа C2 над классическими графическими процессорами в ряде специфических задач. Помимо самого процессора, компания разработала и специальную шину IPU-Link, позволяющую нескольким платам-ускорителям общаться друг с другом без задержек.

Уже существует договорённость c Dell Technologies и система DSS8440, оснащённая ускорителями Graphcore будет демонстрироваться на конференции SC19.

Архитектура у Graphcore C2 достаточно любопытная. Он содержит 1216 так называемых тайлов, каждый из которых, в свою очередь, состоит из вычислительного ядра и небольшого количества памяти (In-Processor Memory). Этой памяти немного, всего 300 Мбайт на весь чип, но совокупная скорость работы с ней составляет 45 Тбайт/с.

Всего процессор может выполнять 7296 потоков кода параллельно. Скорость работы межпроцессорной шины IPU-Link ‒ 320 Гбайт/с.

Компания разработала для своего детища и соответствующий программный стек ‒ Poplar, который легко интегрируется с такими популярными средствами разработки, как TensorFlow или Open Neural Network Exchange (ONNX). В ближайшее время планируется также внедрение начальной поддержки PyTorch, а полная поддержка ожидается уже в начале 2020 года.

Постоянный URL: http://servernews.ru/997859
25.09.2019 [13:27], Сергей Карасёв

Сервер Manli M-4U10GC621-A допускает установку десяти графических ускорителей

Компания Manli анонсировала сервер M-4U10GC621-A, предназначенный для решения задач в области искусственного интеллекта, глубокого обучения, аналитики больших данных, распознавания изображений и пр.

Новинка, выполненная в форм-факторе 4U, рассчитана на монтаж в стойку. Применена материнская плата на наборе логики Intel C621. Допускается установка двух процессоров Intel Xeon в исполнении LGA3647.

В системе можно задействовать до 3 Тбайт оперативной памяти DDR4-2400/2133/1866/1600 в виде 24 модулей. Предусмотрена возможность установки десяти накопителей типоразмера 2,5 дюйма и восьми устройств хранения данных в формате 3,5 дюйма. Поддерживаются массивы RAID 0, 1, 5, 10.

Сервер может быть оборудован десятью графическими ускорителями: для них предусмотрены слоты PCI-Express x16. Таким образом, платформа подходит для выполнения высокопроизводительных вычислений.

Питание обеспечивают четыре блока мощностью 1600 Вт каждый. Среди прочего стоит упомянуть два сетевых порта SFP+ 10 Gigabit LAN и дополнительный порт управления RJ45 Dedicated IPMI LAN.

Информации об ориентировочной цене сервера Manli M-4U10GC621-A на данный момент нет. 

Постоянный URL: http://servernews.ru/994604
23.08.2019 [16:30], Сергей Карасёв

ELSA выпустит однослотовый ускоритель NVIDIA Quadro P2200 для рабочих станций

Компания ELSA подготовила к выпуску графический ускоритель NVIDIA Quadro P2200, который поступит в продажу в конце текущего месяца.

Решение, предназначенное для использования в рабочих станциях, выполнено на архитектуре Pascal. Конфигурация включает 1280 ядер CUDA и 5 Гбайт памяти GDDR5X со 160-битной шиной.

Новинка ELSA, как и референсные изделия, имеет однослотовое исполнение. За охлаждение отвечает активная система с одним вентилятором.

Видеокарта наделена четырьмя интерфейсами DisplayPort 1.4 для вывода изображения сразу на несколько экранов. Таким образом, карта позволяет организовать многомониторное рабочее место. Причём разрешение каждой из панелей может достигать 5120 × 2880 пикселей, что соответствует формату 5К.

Графический ускоритель имеет размеры 200 × 111,15 × 15 мм. Гарантирована совместимость с рабочими станциями под управлением операционных систем Windows.

Продажи видеокарты начнутся 30 августа. Информации об ориентировочной цене на данный момент нет. 

Постоянный URL: http://servernews.ru/992926
07.08.2019 [21:05], Геннадий Детинич

Оружие победы? ― Xilinx представила FPGA-ускорители Alveo U50

Второй крупнейший игрок на рынке программируемых матриц компания Xilinx представил новые ускорители на ПЛИС модели Alveo U50. Ускорители выполнены в формфакторе PCIe-адаптеров с низким профилем и занимают на материнской плате один слот. До этого в семействе продуктов Alveo были представлены лишь двухслотовые модели, требующие дополнительного питания PCIe. Устройства построены на 16-нм чипах с архитектурой FPGA UltraScale+.

Адаптеры Xilinx Alveo U50 питаются исключительно через слот и свободны от подключения дополнительных разъёмов, что, безусловно, означает пониженное потребление и меньшую производительность. Но эти жертвы могут окупиться сполна. Ускорители Alveo U50 можно установить практически в любой сервер, где есть хоть один свободный слот PCIe. Это решение может стать массовым и оказаться тем камешком с горы, который вызовет лавину интереса к продукции Xilinx и экосистеме ИИ-платформ компании. Фактически Alveo U50 могут стать для Xilinx оружием победы, как бы громко это ни звучало.

Отказ от дополнительного питания свёл пиковое потребление адаптера Alveo U50 до 75 Вт или до номинального значения 50 Вт. Тем самым адаптер Xilinx оказался конкурентом NVIDIA Tesla T4 и предназначен для платформ ИИ с функцией принятия решений. Это могут быть как локальные (пограничные) системы, так и облачные. Компания Xilinx активно работает с облачным сервисом Amazon (AWS) и предоставляет драйверы, компиляторы и другие необходимые программные компоненты.

Интерфейс Xilinx Alveo U50 ― это PCI Express 4.0 с поддержкой спецификаций CCIX. В семействе ускорителей Alveo шину PCIe 4.0 и CCIX поддерживает только старшее решение Alveo U280. Это ещё один плюс в копилку преимуществ младшего и, как надеются в Xilinx, массового решения. Другим преимуществом стало использование в качестве бортовой памяти массива HBM2 объёмом 8 Гбайт с пропускной способностью до 460 Гбайт/с. Адаптеры U200 и U250 используют память DDR4, которая дешевле, но не так быстра.

Наконец, адаптеры Alveo U50 поддерживают протокол NVMe-oF. Это означает, что адаптер снимает с процессора задачу по обслуживанию передачи пакетов данных и обеспечивает минимальные задержки при работе с данными ― на уровне обмена с прямым подключением, хотя может находиться удалённо. Сетевой разъём у адаптера, кстати, QSFP28, который позволяет обмениваться данными со скоростью до 100 Гбит/с. Также предусмотрена модификация Alveo U50DD с двумя портами QSFP28. О цене вопроса не сообщается, но будет явно не выше цен на адаптеры NVIDIA Tesla T4.

Постоянный URL: http://servernews.ru/992007
24.07.2019 [19:19], Геннадий Детинич

FPGA Intel Agilex обрастают подробностями и готовятся к выходу

Совсем скоро ― ещё до окончания сентября ― компания Intel начнёт коммерческие поставки нескольких семейств новых 10-нм ПЛИС Agilex. Часть из этих матриц с ядрами ARM Cortex-A53 уже поддерживаются ядром Linux 5.2, вышедшем в десятых числах июля. Новинки представлены в трёх семействах: F, I и M.

Матрицы Agilex F-Series FPGA нацелены на широкий спектр задач в составе сетевых устройств, пограничных (edge) платформ и ЦОД. Сильной стороной этих решений станут четыре интегрированных ядра ARM Cortex-A53, упрощающих работу с устройством. 

Матрицы Agilex I-Series оптимизированы для работы с высокоскоростными процессорными интерфейсами, в частности, с шиной Compute Express Link на основе физического уровня PCIe 5.0. Они смогут работать с процессорами Intel Xeon в когерентном режиме, обслуживая с минимальными задержками вычисления высокой интенсивности.

Третье семейство ПЛИС в лице Agilex M-Series также поддерживает когерентность и оптимизировано для интенсивных расчётов + имеет поддержку памяти HBM, DDR5-4400 и Intel Optane DCPMM.

Модельный ряд матриц Intel Agilex F-series SoC FPGA состоит из семи представителей. Ключевые характеристики семейства включают четыре 64-бит ядра ARM Cortex-A53 с частотами до 1,5 ГГц с 32 Кбайт кешем для данных и адресов, сопроцессор NEON, 1 Мбайт кеш-памяти L2, поддержку DMA (прямого доступа к памяти), блок управления системной памятью, блок согласования кешей, контроллер памяти, 2 USB 2.0, 3 Gigabit EMAC, 2x UART x2, 4x SPI, 5x I2C, 7 таймеров общего назначения, 4 контрольных таймера (слежения).

Матрицы поддерживают память DDR4-3200, QDR IV и RLDRAM 3. Блок FPGA содержит от 392 тыс. до 2,292 млн логических элементов. Расчёты с одинарной точностью Intel Agilex F-series могут выполнять с производительностью от 1,7 до 11,8 терафлопс.

Intel Agilex F-series SoC FPGA поддерживает SerDes-интерфейсы 58 Гбит/с. Шина PCI Express может быть представлена либо блоком с поддержкой PCIe 4.0 x16, либо двумя PCIe 4.0 x8, либо четырьмя PCIe 4.0 x4. Блоков с шиной Ethernet с поддержкой 10/25/50/100/200/400G Ethernet MAC + FEC может быть от двух до четырёх.

Матрицы Intel Agilex I-series SoC FPGA пока представлены только в двух вариантах. Каждая из них включает по четыре 64-битных ядра ARM Cortex-A53 с частотами до 1,5 ГГц. Основной состав Intel Agilex I-series такой же, как Intel Agilex F-series. Исключение ― программируемых вентилей больше: от 2,2 млн до 2,692 млн. Производительность вычислений с одинарной точностью лежит в диапазоне от 9,4 до 11,8 Тфлопс. Матрицы Intel Agilex I оснащены SerDes-интерфейсом со скоростью 112 Гбит/с. Также к блоку контроллера PCIe 4.0 x16 (x8 или x4) добавлен блок контроллера PCIe 5.0 в аналогичных конфигурациях (x16, x8 или  x4).

Agilex M-Series SoC FPGA отличаются от I-series увеличенным числом вентилей — минимум 3 млн. Точных данных об особенностях этого семейства пока нет. Отмечается лишь производительность на уровне 40 Тфлопс для расчётов FP16 и bfloat16. Также говорится о поддержке до четырёх сетевых интерфейсов 400 GbE или восьми 200 GbE. 

Постоянный URL: http://servernews.ru/991264
05.12.2018 [18:18], Геннадий Детинич

Western Digital представила процессор SweRV Core для ускорителей по обработке данных

В какой-то мере компания Western Digital выполнила своё прошлогоднее обещание — выпустить процессор, ориентированный на обработку данных во всём диапазоне: от периферийных устройств до ЦОД. Компания представила процессор SweRV Core на открытой архитектуре (системе команд) RISC-V с поддержкой когерентности кеша, тестовый пакет SweRV Instruction Set Simulator (ISS) для моделирования поведения работы процессоров и протокол OmniXtend для инкапсулирования команд и данных SweRV для передачи фактически по любому физическому уровню с поддержкой Ethernet (так сказать, открытый интерфейс). Всё это, повторим, использует открытые стандарты и, за исключением аппаратной части, уже доступно для загрузки на сервисах GitHub.

Поставки процессоров SweRV Core начнутся в первом квартале 2019 года. Решение будет выпускаться с использованием 28-нм техпроцесса. Кто выпускает, пока неизвестно. Кстати, неизвестно также, кто разработал SweRV Core. Год назад была информация, что в разработке RISC-V-процессоров компании Western Digital помогает компания Esperanto Technologies Дэвида (Дейва) Дитцеля. Сегодня же, когда Western Digital сообщила о спецификациях SweRV Core, разработка стала напоминать модификацию платформы SiFive Freedom E300, которую та готова была подгонять под любые капризы клиента.

Итак, SweRV Core — это 32-разрядный двухконвейерный суперскалярный процессор с упорядоченным исполнением команд. Каждый конвейер имеет 9 уровней, что позволяет загружать и исполнять несколько команд одновременно. Частота решения — до 1,8 ГГц. В бенчмарке CoreMark условное сравнение процессора WD SweRV Core с актуальными архитектурами и решениями (не опирающееся на реальное тестирование) показало, что процессор может набирать значение 4,9 CoreMark/МГц — сравнимо с решениями на архитектурах MIPS и ARM или даже лучше них.

В своих продуктах Western Digital будет использовать SweRV Core для встраиваемых решений, включая контроллеры для флеш-памяти и SSD, а сообществу разработчиков предлагает задействовать SweRV Core для разного рода устройств с прицелом на обработку больших и быстрых данных, данных IoT, для платформ по защите данных, управления в промышленности и в других областях. По мнению Western Digital, процессоры SweRV Core с открытой системой команд и открытыми протоколами идеально подходят для создания специализированных ускорителей для обработки данных с поддержкой когерентности кеша.

Постоянный URL: http://servernews.ru/979190
06.11.2018 [14:10], Геннадий Детинич

Архитектура RISC-V компании Esperanto нашла поддержку у инвесторов

Стартап Дэйва Дитцеля (Dave Ditzel), компания Esperanto Technologies завершила второй раунд сбора инвестиций. Неназванные инвесторы и потенциальные стратегические партнёры Esperanto Technologies вложили в компанию дополнительно $58 млн, увеличив объём инвестиций в неё до $63 млн. Это впечатляющие средства для проекта, о котором пока известно очень мало. Дэйв Дитцель не отрицает, что его новая компания в основном всё ещё находится в режиме «стэлс». Но инвесторы и партнёры в курсе планов Esperanto, поскольку для всех них проводились закрытые презентации.

Дэйв Дитцель на конференции RISC-V Workshop 2017

Дэйв Дитцель на конференции RISC-V Workshop 2017

Авторитет Дитцеля и принадлежащий ему на пару с Дэвидом Паттерсоном (David Patterson) портфель ключевых патентов на архитектуру RISC заставляют верить в успех нового мероприятия. Предыдущий проект Дитцеля — компания Transmeta и разработка центрального процессора с трансляцией x86-совместимых команд — потерпел неудачу. Но сегодня совершенно другая ситуация, и будущий процессор или ускоритель Esperanto Technologies вовсе не обязан и не будет подстраиваться под x86-совместимый код, а значит, Дитцель и его команда могут создать решение, которое окажется ко двору и к месту.

Условное изображение RISC-V процессора компании Esperanto (PC Watch)

Условное изображение RISC-V процессора компании Esperanto (PC Watch)

Напомним, команда Дитцеля, состоящая из сотни с лишним отборных специалистов (куда всё ещё уходят профи из лучших мировых проектов), создаёт ускоритель для искусственного интеллекта и машинного обучения на основе открытого набора команд архитектуры RISC-V. Также решение будет соответствовать требованиям открытой вычислительной платформы (Open Compute Platform, OCP), поддерживать фреймворк Pytorch ML, компилятор Glow ML и Open Neural Network Exchange (ONNX). Первый чип Esperanto должен быть выпущен с использованием 7-нм техпроцесса с более чем тысячью ядер на борту. Только что завершённый успешный сбор второго раунда инвестиций обещает, что чип Esperanto будет выпущен в утверждённые сроки или даже раньше.

Кстати, один из инвесторов Esperanto раскрыл себя ещё в прошлом году. Это компания Western Digital. С помощью разработок Esperanto Technologies производитель жёстких дисков и SSD намерен интегрировать структуры по первичной обработке данных в контроллеры для накопителей. Это породит совершенно новую парадигму в сфере хранения данных, что, впрочем, ложится в общую тенденцию распределённых вычислений.

Постоянный URL: http://servernews.ru/977788
03.11.2018 [15:05], Геннадий Детинич

Microsoft собирается отдать предпочтение FPGA компании Xilinx, а не Intel/Altera

По данным информагентства Bloomberg, которое ссылается на анонимные, но хорошо осведомлённые источники, компания Microsoft собирается заменить поставщика программируемых матриц для серверов Azure. До сих пор в серверы Microsoft в качестве ускорителей устанавливались матрицы компании Altera, которую несколько лет назад поглотила компания Intel. Всего в серверах Microsoft трудится такое количество ПЛИС Intel/Altera, что их суммарная производительность давно превысила пресловутый эксафлопс. Но на этом сотрудничество между Microsoft и Intel рискует либо сократиться, либо вообще закончиться. Если верить источникам, Microsoft собирается перейти на конкурирующие матрицы компании Xilinx.

Причиной для отказа работы с Intel может быть то, что матрицы Altera начинают испытывать трудности с технологическими процессами производства микропроцессорного гиганта. Вернее, они застряли на уровне 14-нм техпроцесса, тогда как матрицы Xilinx начинают покорять 7-нм техпроцессы TSMC. Поглотив Altera, компания Intel оказала ей медвежью услугу, ведь до этого Altera могла выбирать контрактного производителя по своему разумению.

AMD и Xilinx работают над общей вычислительной платформой в пику Intel/Altera

AMD и Xilinx работают над общей вычислительной платформой в пику Intel/Altera

Впрочем, пока, если верить слухам, Microsoft собирается использовать матрицы Xilinx примерно в половине серверов для сервисов Azure. Дальнейшее сотрудничество с Xilinx будет зависеть от того, как ПЛИС компании проявят себя на практике, а проявить они себя должны хорошо. Южнокорейская SK Telecom, например, использует огромные массивы ПЛИС Xilinx для распознавания речи в пакете услуг для голосовых ассистентов.

Следует отметить, что компании Microsoft и Xilinx отказались комментировать слухи о реализации совместных проектов. В Microsoft сказали, что продолжат работать с Intel, а компания Xilinx отметила, что в прошлом она не раз предлагала Microsoft фирменные решения для установки в серверы Azure.

Xilinx Adaptive Computer Accelerator Platform

Xilinx Adaptive Computer Accelerator Platform

Устанавливать ПЛИС в состав серверов компания Microsoft начала в 2010 году в рамках реализации программы «Catapult». Пилотный проект начал работать в 2012 году и был поставлен на коммерческие рельсы в 2015 году одновременно с массивным расширением платформы. Сегодня массив ПЛИС в серверах Microsoft стал самым огромным в мире. Компании Intel было бы плохо потерять этот канал поставок.

При этом также надо понимать, что интеграция ПЛИС в проекты подобные Microsoft Azure во многом зависит от программных инструментов для сборки матриц в рабочие решения. Компания Intel за прошедшие годы подтвердила достаточный или хороший уровень работы фирменных компиляторов с FPGA Altera. Компания Xilinx в последнее время также усилила работу в направлении разработки утилит, облегчающих использование FPGA для тех, кто никогда с ними не сталкивался. В то же время от традиционной низкоуровневой разработки компания не отказывается. Возможно, Microsoft посчитала, что высокоуровневые средства разработки Xilinix лучше таковых у Intel. Что, в свою очередь, повышает привлекательность этих решений для клиентов Azure.

Постоянный URL: http://servernews.ru/977715
10.10.2018 [13:39], Геннадий Детинич

Huawei представила ИИ-процессоры для ЦОД и мобильного назначения

На мероприятии в Китае компания Huawei представила ИИ-процессоры собственной разработки. Ранее Huawei отметилась специализированными ускорителями ИИ и машинного обучения Kirin 980, которые, в частности, нашли применение в смартфоне Mate 20. Теперь же компания представила как решения для ЦОД — чип Ascend 910, так и решение для конечных (мобильных) устройств — Ascend 310. Тем самым вырисовывается целая экосистема, которую Huawei будет развивать самостоятельно и предложит независимым разработчикам.

В производительном сегменте компания будет продвигать процессоры Ascend 910. Это решения для ЦОД (и облаков). В настоящий момент, как заявляют в Huawei, чип Ascend 910 является самым производительным ИИ-процессором в мире. Так, пиковая производительность Ascend 910 в задачах машинного обучения достигает 256 терафлопс для вычислений с двойной точностью. Одно из самых мощный на данный момент актуальных решений в виде ускорителя на базе GPU NVIDUA V100 в аналогичных сценариях обеспечивает лишь 125 терафлопс при сравнительном потреблении. Отметим, чип Huawei 910 производится с использованием 7-нм техпроцесса и потребляет в пике до 350 Вт. Массовое производство новинок намечено на второй квартал будущего года.

Добавим, будущий ускоритель тензорных вычислений Google TPU 3.0 также оказался посрамлён в сценариях использования Huawei 910. Ещё не вышедший на оперативный простор Google TPU 3.0 выдаёт всего 90 терафлопс — едва ли не в три раза меньше, чем Ascend 910.

Для мобильных и малопотребляющих устройств Huawei представила ИИ-чип Ascend 310. При потреблении 8 Вт решение выдаёт 8 терафлопс при вычислениях с половинной точностью. На базе Ascend 310 будет выпускаться широкий спектр устройств от мини-серверов с потреблением до 100 Вт до ИИ-помощников в наушниках с потреблением от 1 мВт. Компания Google для конечных устройств готовит своё решение в виде чипа Edge TPU. Сравнить производительность решений Huawei и Google пока не представляется возможным.

Чипы Huawei Ascend 310 выпускаются с использованием техпроцесса 12 нм FFC. Это уникальная разработка Huawei, которая не потребует лицензирования для сторонних разработчиков. Блоки ИИ на базе Ascend 310 обещают массово появиться в смартфонах, умной электронике и в самоуправляемых автомобилях.

Постоянный URL: http://servernews.ru/976617
06.10.2018 [11:40], Геннадий Детинич

За компьютерную безопасность в чипах BrainChip будут отвечать технологии из Греции

Компания BrainChip, которая недавно отметилась разработкой нейроморфной SoC Akida для ускорения работы спайковых нейросетей, сообщила о приобретении лицензии на технологию, отвечающую за компьютерную безопасность. Лицензия предоставлена греческим Университетом Демокрита во Фракии (Democritus University of Thrace). Сумма сделки не раскрывается. По словам руководства BrainChip, сделка растянута на несколько кварталов и будет почти незаметна на фоне других затрат компании.

Учёные из Университета Демокрита специализируются на компьютерной безопасности на основе анализа данных с помощью спайковых сетей. Разработанная в университете под руководством профессора Лазароса Илиадиса (Lazaros Iliadis) технология позволяет определять вредоносное вмешательство в сетевой трафик с помощью преобразования данных в спайки и дальнейшего анализа спайков с помощью спайковых нейронных сетей. Поскольку компания BrainChip создаёт ускоритель Akida для ускорения расчётов в спайковых сетях, греческие технологии представляются идеальным решением для реализации на платформе BrainChip.

Первые коммерческие ускорители BrainChip ожидаются во второй половине 2019 года. Они обещают покрыть широкий спектр продуктов и устройств от простейших одночиповых решений стоимостью от $10 до $15 до многочиповых серверных PCIe-адаптеров с десятками NSoC на одной плате ускорителя.

Постоянный URL: http://servernews.ru/976430
Система Orphus