Материалы по тегу: ускорители

04.10.2018 [13:02], Геннадий Детинич

Xilinx анонсировала гибридные FPGA/SoC-ускорители для любых задач

Представленная в марте работа компании Xilinx над проектом Everest вылилась на днях в анонс новой архитектуры Versal и продуктов на её основе. Разработка решений ведётся в рамках развития новой гетерогенной платформы компании для ускорителей с поддержкой адаптивных вычислений или ACAP (Adaptive Computer Accelerator Platform). В новых ПЛИС программируемым вентилям отводится всё меньше места, тогда как ядрам ARM, DSP и ИИ-ускорителям на кристаллах выделяются всё возрастающие площади. Это уже не просто FPGA, это фактически однокристальные сборки или SoC с элементами FPGA.

Xilinx

Xilinx

Решения поколения Versal разделены в шесть продуктовых серий или семейств, каждое из которых ориентировано на свою сферу применения. Первыми в 2019 году выйдут 7-нм продукты семейств AI Core и Prime. Продукты AI Core будут использоваться в системах машинного обучения с функцией принятия решений. Продукты Prime займут нишу ускорителей расчётов в центрах по обработке данных. В последующие годы появятся серии AI Edge, AI RF, Premium и HBM, с позиционированием которых можно ознакомится по таблице ниже.

Xilinx

Xilinx

По большому счёту, новые решения Xilinx должны и будут конкурировать с гибридными решениями Intel в виде ускорителей на FPGA-матрицах бывшей компании Altera. Разница только в том, что в паре с FPGA Altera компания Intel продвигает процессоры Xeon, а Xilinx — ядра ARM. Другие составные части платформ обеих компаний — это специализированные ИИ-движки, в чём они примерно равны (у Intel — это решения Mobileye, у Xilinx — свой движок, о котором ниже). Тем самым отличия будут лежать в обслуживающих ядрах, где у ARM в заявленной нише ускорителей есть определённое преимущество. Но это не мешает Xilinx открыто противопоставлять Versal как x86-совместимым процессорам, так и актуальным графическим процессорам.

По словам Xilinx, продукты Versal в области распознавания изображений в 43 раза превосходят процессоры Intel Xeon Platinum и от двух до восьми раз опережают ускоритель NVIDIA Tesla V100, а также в пять раз производительнее ускорителя на обычной FPGA. Более того, в задачах финансового анализа, секвенции генома и в поддержке Elasticsearch продукты Versal опережают процессоры в 89, 90 и в 91 раз.

Xilinx

Xilinx

Чуть подробнее о продуктах семейства AI Core. Помимо двух ядер ARM Cortex-A72 и двух ядер ARM Cortex-R5 они будут нести 256 Кбайт встроенной памяти и свыше 1900 DSP для обслуживания вычислений с плавающей запятой. Абсолютным новшеством станет интеграция в решения новых векторных ускорителей или AI Engines. Таковых будет в чипе от 128 штук до 400 штук и все они будут связаны внутричиповой сетью network-on-chip (NoC) с пропускной способностью в несколько терабит в секунду. Внешние интерфейсы решения будут представлены PCIe Gen4 x8 и x16, CCIX, 32G SerDes и от двух до четырёх встроенных контроллеров памяти DDR4. Флагман семейства AI Core обеспечит производительность в 147 TOPs на нагрузке INT8. Для сравнения, NVIDIA Tesla T4 обеспечивает 130 INT8 TOPs.

Продукты Versal Prime будут лишены ИИ-движков и нацелены на нагрузку общего назначения, такую как обработка изображений медицинского назначения, обслуживание сетей и систем хранения данных, систем управления в авиации и тестовое коммуникационное оборудование. Вместо ИИ-ускорителей Versal Prime получат 3080 DSP и несколько большее число программируемых вентилей.

Xilinx

Xilinx

Ещё одной отличительной особенностью поддержки новых ПЛИС станет ориентация на языки программирования верхних уровней — C, C++ и Python. По мнению Xilinx, это упростит работу с новой платформой.

Постоянный URL: http://servernews.ru/976339
29.09.2018 [14:45], Геннадий Детинич

Представлена нейроморфная SoC Akida компании BrainChip

Много мозгов хороших и разных. Новизна рынка ИИ и машинного обучения стала благоприятной почвой для появления массы стартапов и, что самое ценное, интересных решений. Одной из таких новинок обещает стать разработка австралийской компании BrainChip. Собственно, компания BrainChip впервые заявила о себе примерно год назад, но определённую информацию о нейроморфном однокристальном решении Akida компания открыто начала распространять лишь в этом месяце.

BrainChip

BrainChip

Вкратце уточним, что компания BrainChip была образована в 2013 году. Выше на диаграмме можно увидеть процессы, которые привели к созданию BrainChip и продуктов компании — программно-аппаратных ускорителей для работы со спайковыми нейронными сетями. Спайковые нейронные сети впервые были описаны около 20 лет назад, но практическая эксплуатация разработок началась сравнительно недавно, и BrainChip стала одной из первых, кто это сделал и делает.

BrainChip

BrainChip

В настоящий момент ускоритель BrainChip опирается на реализацию проекта на базе ПЛИС компании Xilinx семейства Kintex. Первые решения на базе однокристальных SoC или NSoC Akida (нейроморфных SoC) обещают выйти в виде образцов только через год — в третьем квартале 2019 года. Пока разработчик даже не сделал выбор в пользу 28-нм или 14-нм техпроцесса.

BrainChip

BrainChip

Поскольку NSoC Akida реализует спайковую нейронную сеть (SNN, Akida — это спайк по-гречески), чип содержит блок преобразования сигналов от датчиков и внешних компьютерных интерфейсов (USB, PCIe, Ethernet и прочего) в массив спайков (пиков), которые затем в виде паттернов размещаются в массиве нейронов на чипе. Сборка содержит 1,2 млн аналогов нейронов и 10 млрд аналогов синапсов. Сеть SNN с обратной положительной обратной связью. Полученные в процессе управляемого или неуправляемого обучения сигнатуры дальше используются для распознавания образов от фрагментов зловредного кода до изображений в системах видеонаблюдения.

BrainChip

BrainChip

На модели CIFAR-10 NSoC Akida распознаёт изображения со скоростью 1100 кадров в секунду с точностью 82 %. При этом решение потребляет менее 1 Вт. Тем самым компания планирует охватить как рынок периферийных устройств с одиночными чипами, так и рынок высокопроизводительных серверных платформ с массивами многочиповых адаптеров.

Постоянный URL: http://servernews.ru/976130
26.09.2018 [12:14], Геннадий Детинич

Intel представила PCIe-ускорители на матрицах Stratix 10 SX

Компания Intel расширила предложение с продуктами ПЛИС для ускорения расчётов на платформах Xeon. На базе анонсированных год назад 14-нм матриц FPGA Stratix 10 SX бывшей компании Altera производитель процессоров анонсировал ускоритель в формфакторе add-on карты с интерфейсом PCI Express 3.0 x16. Новинка вышла в новой категории продуктов PAC или Programmable Acceleration Card (карты программируемого ускорителя).

PAC Stratix 10 SX

PAC Stratix 10 SX

Ранее в данной категории Intel выпускала адаптеры на ПЛИС Arria 10. Но если PAC Arria 10 FPGA были ориентированы на ускорение баз данных и обработку изображений, то PAC Stratix 10 SX — это продукты для обработки «тяжёлых» процессов непосредственно в памяти. Например, задач для ИИ. Для этого на борту PAC Stratix 10 SX предусмотрено четыре слота для памяти DDR4 с поддержкой ECC. Общее адресуемое пространство составляет 32 Гбайт. Непосредственно в матрицу встроены 4 ядра ARM и 2,7 млн программируемых вентилей. Тем самым решение может перепрограммироваться на необходимую нагрузку, поддерживаемую многочисленными IP-разработками партнёров Intel.

PAC Stratix 10 SX

PAC Stratix 10 SX

В целом Intel реализует поддержку PAC Stratix 10 SX так называемым стеком для ускорителей на платформах Xeon (Acceleration Stack for Intel Xeon CPU). Помимо самих ускорителей в виде адаптеров PAC или в другом виде, например, с матрицами, интегрированными непосредственно на flip-chip подложку процессора, в стек входят наборы инструментов, библиотеки и прочие решения, которые помогают создавать и управлять процессами на платформах Xeon с использованием ускорителей на ПЛИС Intel.

Acceleration Stack for Intel Xeon CPU

Acceleration Stack for Intel Xeon CPU

Первой компанией, которая начнёт поставлять на рынок платформы с ускорителями PAC Stratix 10 SX, станет Hewlett Packard Enterprise. По словам представителя HPE, вне зависимости от квалификации разработчиков новые решения обеспечат обязательный эффект от ускорения рабочих нагрузок на широком спектре задач и позволят клиентам компании легче управляться с новыми сложными нагрузками, возникающими в современных центрах по обработке данных.

Анатомия  PAC Stratix 10 SX

Анатомия PAC Stratix 10 SX

Постоянный URL: http://servernews.ru/975960
04.07.2018 [12:38], Геннадий Детинич

Baidu представила фирменные ИИ-ускорители Kunlun

Как и все остальные лидеры рынка информационных технологий, китайский ИТ-гигант Baidu несколько лет назад плотно взялся за разработку платформ с элементами искусственного интеллекта. Для Baidu, как для поискового сервиса, это более чем актуальный вопрос. Успешность в распознавании речи, изображений и смысла задаваемых вопросов — это фактор выживания для коллег и конкурентов Baidu. Последняя начала разработку ИИ-платформ на базе матриц FPGA в 2011 году и к сегодняшнему дню подготовила готовое к массовому внедрению фирменное решение — 14-нм ИИ-ускорители Kunlun (Куньлунь, одна из крупнейших горных систем Азиатского материка).

Baidu

Baidu

Компания сообщает, что подготовлено две версии ускорителя: 818-300 для систем машинного обучения и 818-100 для систем с принятием решений (inference). Тем самым Baidu позволит реализовать платформу как в виде облачных (удалённых) сервисов, так и в конечных устройствах, включая инфраструктуру ЦОД, автомобили с автопилотами и другое.

Для машинного обучения Baidu планирует использовать фреймворк PaddlePaddle (PArallel Distributed Deep LEarning). Она давно положила на него глаз и обеспечила поддержку кодом и инструментами. По мнению Baidu, PaddlePaddle проще для освоения новичками и легко управляется с помощью кода на Python или C++. Тем самым программы для PaddlePaddle могут быть до четырёх раз компактнее, чем в случае аналогичных фреймворков Google (TensorFlow), Amazon (DSSTN) или Microsoft (CNTK).

Производством ускорителей Baidu Kunlun занимается компания Samsung с использованием 14-нм техпроцесса. Реализованный в кремнии ускоритель в 30 раз быстрее аналога на базе FPGA-матрицы. Производительность решения достигает 260 TOPS при потреблении 100 Вт. Интерфейс с памятью обеспечивает скорость обмена до 512 Гбайт/с. К сожалению, других подробностей о разработке нет.

Постоянный URL: http://servernews.ru/972151
11.12.2017 [21:30], Алексей Степин

OpenCAPI набирает силу: кто поддерживает новинку сегодня?

На прошлой неделе к консорциуму OpenCAPI присоединился ещё один игрок — компания Cavium, которая занимается разработкой серверных ARM-процессоров. Решениями компании заинтересовался производитель суперкомпьютеров Atos, а недавно Аргоннская национальная лаборатория изъявила желание развернуть кластер из серверов на базе этих процессоров. Всё вместе это закладывает основу для создания полноценной альтернативы x86-платформе и нынешнему лидеру списка TOP500, которая будет включать и CPU различных архитектур, и универсальную открытую шину. 

Очевидно, что шина PCI Express в текущем виде неспособна обеспечить уровень производительности, необходимый для подключения между собой процессоров и различных ускорителей. Текущая версия далека от идеала, а недавно представленный стандарт PCI-E 4.0 пока что весьма далёк от внедрения. Собственно говоря, пока что его поддерживают только процессоры IBM POWER9. Но они же предлагают и другой, более совершенный, по мнению создателей, стандарт OpenCAPI, или просто CAPI (Coherent Accelerator Processor Interface). Текущая третья версия совместима с NVLink 2.0, а ведь самые быстрые ускорители NVIDIA используют именно эту шину. Нельзя сказать, что стандарт развивался быстро, но в 2017 году он уже имеет весьма солидную армию последователей.


Ускоритель Alpha Data подключён к процессорному разъёму POWER9 посредством кабеля OpenCAPI

Целый ряд имён имеет свои решения для новой платформы. Mellanox располагает «умными» сетевыми адаптерами Innova-2 с поддержкой OpenCAPI, Molex Electronic Solutions демонстрировала на SC 17 прототип флеш-хранилища с пропускной способностью порядка 200 Гбайт/с. Alpha Data уже предлагает свои платы ускорителей на базе ПЛИС Xilinx UltraScale+, подключаемые непосредственно к процессору POWER9 специальным кабелем. О самой Xilinx нечего и говорить — один из крупнейших разработчиков ПЛИС предлагает целый спектр платформ разработчика OpenCAPI. Скоростная шина требует специальных кабелей, и они есть у Amphenol Corporation.

Прототип Zaius/Barreleye G2

Прототип Zaius/Barreleye G2

Такой гигант в мире накопителей как Western Digital внимательно следит за развитием OpenCAPI и занимается исследованиями в этой области, тестируя прототипы CAPI-памяти и ускорителей. Micron возлагает на OpenCAPI огромные надежды в области создания новой технологии энергонезависимой памяти. Компания Rackspace работает совместно с Google над созданием двухсокетных серверов Zaius/Barreleye G2 на базе POWER9. А где POWER9, там и OpenCAPI, а где Google — там и ускорители различного рода. Tektronix предлагает решения, способные полноценно тестировать решения OpenCAPI, работающие на скоростях 25 Гбит/с и выше. Полноценная отладка поддерживается для скорости 32 Гбит/с.

Сила OpenCAPI в его универсальности и единообразии

Сила OpenCAPI в его универсальности и единообразии

Toshiba также заинтересована в новом стандарте. Она уже работает над созданием собственного кремния, использующего OpenCAPI. По словам представителей компании, решения Toshiba вскоре смогут помочь быстро развернуть инфраструктуру на базе CAPI любому желающему и для любого рода задач. Компания Wistron успешно продемонстрировала на том же мероприятии SC 17 дизайны систем на базе процессоров IBM POWER9. Представитель компании считает OpenCAPI действительно универсальным стандартом, отвечающим задачам, которые будут поставлены перед ИТ-инфраструктурой грядущим десятилетием. Inventec также представила своё видение POWER9, но она концентрирует усилия в направлении внедрения нового стандарта питания с напряжением 48 вольт.

Иными словами, список компаний, интересующихся OpenCAPI, вызывает уважение, начиная с самого «голубого гиганта» и NVIDIA. Можно считать, что поезд тронулся, и в мире появилась серьёзная многопроцессорная, многопоточная и универсальная платформа, способная справиться с любым спектром задач.

Постоянный URL: http://servernews.ru/962736
28.10.2017 [20:49], Алексей Степин

NEC представила новую платформу SX-Aurora TSUBASA с векторными ускорителями

Векторные процессоры NEC Aurora были представлены ещё на ISC 2017. Уже тогда была продемонстрирована возможность использования таких чипов в качестве сопроцессоров на платах расширения с разъёмом PCI Express. Назывались такие платы Vector Engine. От образцов к серийному производству путь оказался недолог: уже 26 октября компания объявила о доступности новых систем SX-Aurora TSUBASA. Это название с японского можно перевести как «крылатая». Как и предполагает концепция NEC SX, основную работу выполняют векторные процессоры, но в этой системе они используются исключительно в виде плат расширения.

Процессор с архитектурой x86 выполняет только вспомогательные задачи, в терминологии компании-разработчика он называется Vector Host. На его плечи ложатся управление подсистемой ввода-вывода, обработка вызовов ОС и прочие вспомогательные вычисления, в том числе скалярные. Основная вычислительная мощь SX-Aurora TSUBASA кроется именно в ускорителях Vector Engine. Каждый чип Vector Engine имеет 8 ядер и развивает производительность порядка 2,45 терафлопс, что в пять раз больше векторных систем NEC SX-ACE, относящихся к предыдущему поколению. Поскольку шина PCI Express может стать узким местом, на борту каждого процессора имеется некоторый объём быстрой многослойной памяти HBM2, которая играет роль своеобразного кеша. Шесть сборок гарантируют ПСП на уровне 1,2 Тбайт/с. Сами платы могут иметь как пассивное, зависящее от хост-системы охлаждение, так и активное с собственным вентилятором на борту. Теплопакет по имеющимся данным составляет около 300 ватт — вполне на уровне современных видеокарт.

Серверы серии TSUBASA могут содержать в своём составе от 1 до 8 карт Vector Engine вплоть до 64 ускорителей на стойку. Эта стойка, изображённая на первом снимке, уже сама по себе считается суперкомпьютером. В сравнении с самым мощным ускорителем NVIDIA (7,8 терафлопс) векторный процессор NEС развивает всего 31 % его мощности, зато по показателю ПСП заметно опережает своего соперника (1,2 Тбайт/с против 900 Гбайт/с). Кроме того, в ряде задач специализированная архитектура NEC показывает себя более эффективной. Поскольку архитектура NEC не имеет аналогов, компания поставляет своим клиентам не только аппаратные комплексы, но и соответствующие программные решения: компиляторы, библиотеки MPI и прочее системное ПО. Используется даже уникальная файловая система NEC Scalable Technology File System и диспетчер задач NEC Network Queuing System V. Гарантируется бинарная совместимость с машинами NEC SX предыдущего поколения.

Постоянный URL: http://servernews.ru/960659
01.09.2017 [12:00], Алексей Степин

Первые сведения о процессоре машинного обучения Baidu

Мы продолжаем рассказывать нашим читателям о тенденциях в области аппаратного обеспечения для систем машинного обучения. Все уже знают, что такой гигант, как Google, вложил немалые средства в разработку так называемого «тензорного сопроцессора», о котором не так давно говорилось в одной из наших заметок. Но у Google есть конкурент, а точнее, параллельно работающий с ним гигант — компания Baidu, охватывающая огромный рынок КНР. Неудивительно, что она тоже ведёт исследования в аналогичных областях. Китай — не самая открытая страна, да и коммерческая тайна продолжает оставаться коммерческой тайной, но, тем не менее, кое-что про процессор Baidu под названием XPU стало известно.

Пока китайские разработчики отстают от своих американских коллег: в их распоряжении есть рабочее устройство, но собрано оно на основе больших микросхем программируемой логики (ПЛИС) производства Xilinx. Как показывает практика, это не самое энергоэффективное решение, хотя и более экономичное, нежели использование графических чипов или процессоров x86 общего назначения. По словам главы команды разработчиков, целью является создание универсального процессора, способного справляться с различными задачами и сценариями машинного обучения, и при этом не менее гибкого, нежели обычные ЦП. Пока приходится использовать ПЛИС, а их программирование — сложнейшая задача. Процессор XPU должен будет содержать массив блоков для специализированных вычислений — перемножения матриц, свёртки тензоров и прочих задач.

Этому массиву потребуется широкая шина памяти с высокой пропускной способностью и низкими задержками. Планируется использовать внешнюю DDR4 в связке с многослойной HBM, которая отлично показывает себя в ускорителях NVIDIA. В чипе будет также некоторое количество сверхбыстрой памяти SRAM. Число ядер должно достигнуть 256, а в целом архитектура XPU будет напоминать MIPS. Небольшие ядра обойдутся без кеша, а эффективность будет достигнута за счёт их специализации и параллельного использования. Частота работы всех 256 ядер составит 600 МГц. С системой синхронизации данных масштабируемость устройства будет выше, нежели без таковой.

К сожалению, хотя проект уже и существует в форме ПЛИС, компилятора к новому процессору Baidu пока нет. Код приходится писать на ассемблере, как это делалось раньше в мире x86, но задача значительно сложнее, поскольку приходится заниматься и разделением работы между ядрами, а также проверкой работоспособности в Linux. Пока рано говорить о производительности Baidu XPU, но сама идея выглядит неплохо, и к тому же у компании уже накоплен солидный опыт использования ПЛИС в своих центрах обработки данных. Вполне возможно, что уже подрастает достойный соперник Google TPU, причём, более универсальный.

Постоянный URL: http://servernews.ru/957895
31.08.2017 [06:40], Алексей Степин

Популярность машинного обучения влияет на эволюцию архитектуры процессоров

Процесс развития архитектур центральных процессоров подобен эволюционному. Их создают разработчики для соответствия той или иной эволюционной нише, требующей каких-либо специфических вычислений, наборов инструкций и тому подобное. Иногда эволюционные ниши схлопываются —  и вымирают целые семейства процессоров. В качестве примера можно привести Alpha. Сейчас основную нишу удерживают x86-совместимые решения, но о них чуть позже. В 2017 году уже ни у кого нет сомнений, что возникла новая экологическая ниша — специализированные процессоры для нейронных сетей и машинного обучения.

Google TPU

Google TPU

О таких решениях мы писали неоднократно. Здесь и Google Tensor Processing Unit, и разработка Fujitsu под названием DLU (Deep Learning Unit), и процессор Graphcore IPU (Intelligent Processing Unit), и многочисленные разработки и прототипы на базе ПЛИС компаний Altera и Xilinx, которыми интересуется всё больше крупных владельцев ЦОД по всему миру, например, Baidu. Да и графические чипы последних поколений отлично справляются с задачей создания и натаскивания нейросетей благодаря глубокой степени параллелизма, хотя делают они это не столь экономично, как специально созданные для этой цели решения. Смысл в том, что эволюционная ниша сформирована, и теперь в ней наблюдается типичная борьба за выживание: в графических чипах NVIDIA появляются специальные ядра для тензорных вычислений (в Volta V100 таких ядер 640).

Intel Knights Mill

Intel Knights Mill

Обычно эти ядра оперируют математикой с упрощённой точностью (32 и 16 бит с плавающей запятой, а иногда и целочисленными форматами вплоть до 8 битных). У AMD есть аналогичный продукт — ускорители серии Radeon Instinct. Но что самое интересное, эволюционная «мутация» закрепляется и в обычных, казалось бы, x86-совместимых процессорах — совсем недавно мы описывали читателям чипы Intel Knights Mill, в которых часть общей производительности принесена в угоду производительности на специализированных задачах машинного обучения. Кто победит в эволюционной гонке? Пока сказать трудно. Такие решения, как NVIDIA Volta и Radeon Instinct может ждать судьба динозавров — по соотношению энергопотребления к производительности в специальных задачах они проигрывают тому же Google TPU.

Fujitsu Deep Learning Unit

Fujitsu Deep Learning Unit

Роль протомлекопитающих в этом процессе, судя по всему, играют решения на базе ПЛИС, а королями нейронных сетей станут специализированные мощные процессоры, такие, как Google TPU. Но эволюция — процесс нелинейный, и ряд ниш вполне может найтись для решений, способных не только работать с системами машинного обучения. К тому же, сами системы обучения могут быть очень разными и требовать гибкости, к которой чипы типа ASIC не способны по определению. Может потребоваться и параллельное выполнение задач иного порядка, так что чипам вроде Intel Knights Mill тоже найдётся место на ветвистом дереве эволюции процессоров. Пока ясно одно —  «ген» машинного обучения поселился в современных процессорах надолго.

Постоянный URL: http://servernews.ru/957816
23.08.2017 [18:28], Геннадий Детинич

Microsoft Brainwave: решение задач ИИ в реальном времени

На конференции Hot Chips компания Microsoft раскрыла детали проекта «Brainwave». Слухи и даже некоторая официальная информация об этой разработке ходили давно. Речь идёт об аппаратной платформе для решения задач, связанных с искусственным интеллектом и глубоким машинным обучением. Для этого Microsoft выбрала программируемые матрицы компании Intel (Altera). На базе 14-нм матриц Intel Stratix 10 создан ускоритель, который обещает значительно изменить ландшафт услуг, связанных с интеллектуальной обработкой видео, распознаванием голоса, автопилотами и многими другими сферами, где важны скорость ответа.

Подчеркнём, в компании Microsoft не стали использовать фиксированные решения подобно Google TPU (Tensor Processing Units), NVIDIA Volta или Intel Lake Crest. Выбор был сделан в пользу FPGA-матриц с неизменным мощным процессорным ядром и программируемой областью, архитектуру которой можно менять по необходимости. Это позволяет перепрограммировать ускорители на новый тип данных или на новые алгоритмы обработки данных не меняя «железо» в составе серверов. На весь процесс уйдёт неделя без каких-либо дополнительных затрат на оборудование. В итоге, уверены в Microsoft, на старте можно проиграть конкурентам в пиковой производительности платформы, но в длительной перспективе её подход окажется более выгодным вложением средств.

Ускоритель Microsoft Brainwave

Ускоритель Microsoft Brainwave

Впрочем, проект Microsoft Brainwave интересен другим — это заявленная возможность обрабатывать запросы для ИИ в реальном масштабе времени. Альтернативные платформы для наиболее эффективной работы нейронных сетей требуют пакетной (накопительной) передачи данных. Платформа Microsoft Brainwave эффективно работает в потоковом режиме по мере поступления одиночных запросов и не требует сложной тренировки. Большую модель GRU (Gated Recurrent Unit) Microsoft Brainwave без пакетирования обрабатывает в пять раз быстрее, чем архитектура ResNet-50. Демонстрация опирается на собственный формат Microsoft ms-fp8, который не теряет точности для широкого спектра моделей. Полученная на ускорителе Stratix 10 устоявшаяся производительность достигает 39,5 терафлопс с временем запроса менее одной миллисекунды.

Матрица FPGA Intel Stratix 10

Матрица FPGA Intel Stratix 10

Сейчас специалисты Microsoft разворачивают системы ИИ на базе Brainwave для использования в облачном сервисе Azure. Системы помогут пользователям и партнёрам компании использовать сервис как для обработки запросов, так и для запуска своих моделей нейронных сетей для глубокого обучения, благо ускорители изначально спроектированы с учётом возможности последующей перенастройки.

Постоянный URL: http://servernews.ru/957451
16.08.2017 [12:28], Алексей Степин

Новый чип ускорит и удешевит расчёты молекулярной динамики

Современная вычислительная техника уже достигла того уровня, когда возможна полноценная симуляция поведения молекул вещества. Но такая симуляция требует чудовищных вычислительных мощностей, которые, в свою очередь, влекут за собой чудовищные энергетические затраты, поэтому разработчики постоянно ищут новые пути и предлагают новые архитектуры. Так, специализированные ускорители, разработанные D.E. Shaw Research, успешно работают в суперкомпьютерах серии Anton. Рассматриваются и другие пути, такие, как использование графических ускорителей или даже многоядерных процессоров общего назначения, например, Intel Knights Landing.

Кластер Anton, 512 узлов

Кластер Anton, 512 узлов

В настоящее время ведутся работы по созданию специализированного процессора для расчётов молекулярной динамики, в основе которого будет лежать принцип MapReduce. Разработками занимается группа учёных из Политехнического университета Бухареста (Румыния) и Колледжа Святого Ансельма (США). Сейчас ускорители общего назначения могут справиться с 75 % задач, в частности, с наиболее популярным в этой области пакетом GROMACS, но исследователям удалось ускорить и оставшиеся 25 % с применением нового ускорителя. Прототип смог показать 64-процентную эффективность распараллеливания при расчёте повторяющихся клеточных структур.

Эффективность нового ускорителя впечатляет даже в реализации ПЛИС

Эффективность нового ускорителя впечатляет даже в реализации ПЛИС

Архитектура нового ускорителя, пока реализованного в виде ПЛИС, в целом, схожа с архитектурой чипов Anton, при этом последние являют собой специализированные ASIC, которые лишь в три раза эффективнее ПЛИС-версии новой разработки. Если её также выполнить в виде специализированного чипа с частотой 2,7 ГГц, то производительность окажется выше, а уровень энергопотребления — намного ниже, нежели у решения D.E. Shaw Research. По уровню удельной производительности новинка занимает первое место даже сейчас, а в окончательном варианте выигрыш составит до 300 раз.

Постоянный URL: http://servernews.ru/957004
Система Orphus