Материалы по тегу: нейронная сеть

02.10.2019 [11:22], Геннадий Детинич

Один нейропроцессор Alibaba Hanguang 800 заменяет 10 GPU-ускорителей

Как мы сообщали около недели назад, компания Alibaba представила фирменный NPU Hanguang 800 для запуска нейросетей в составе облачных сервисов компании. Например, данные NPU могут обеспечить рекомендательные услуги для пользователей или анализ видео с камер наблюдения в реальном времени.

В продажу Hanguang 800 не поступят. Компания намерена использовать разработку в собственных ЦОД. С одной стороны, это программа по импортозамещению. С другой ― аналогов Hanguang 800 пока нет, в чём нас уверяет Alibaba.

Итак, 12-нм NPU Hanguang 800 ― это самый большой из разработанных Alibaba чипов с 17 млрд транзисторов. Точнее, процессор разработан подразделением T-Head этой интернет-компании (ране ― Pingtouge Semi). В основе разработки лежит архитектура и набор команд RISC-V с открытым кодом. Подобное обстоятельство, как уверены в Alibaba, поможет быстрому распространению интереса к платформе со стороны независимых разработчиков.

Нейропроцессор Hanguang 800 входит в семейство производительных ИИ-чипов Xuantie (Black Steel). Название платформы для ускорителя ― Wujian (Уцзян).

Платформа представляет собой плату с интерфейсами и контроллерами ввода/вывода, бортовой памятью и набором необходимых кодеков. Вместе с аппаратной частью поставляется полный пакет программного обеспечения от драйверов и прошивки до операционной системы, библиотек и примеров. Бери и дерзай.

Программная поддержка представляется Alibaba тем козырем, которого нет в рукаве у чисто «железячных» разработчиков. Кстати, Hanguang 800 спроектирован менее чем за год, что впечатляет.

Согласно внутренним тестам компании, инференс Hanguang 800 на стандартном тестовом наборе ResNet-50 способен обработать 78,5 тысяч изображений в секунду или 500 изображений в секунду на ватт. Это в 15 раз быстрее, чем в случае ускорителя NVIDIA T4 и в 46 раз быстрее NVIDIA P4. Даже если Alibaba преувеличила свои достижения, а независимых тестов у нас нет, результат всё равно впечатляет.

Если сравнивать возможности Hanguang 800 с компьютерной производительностью, то, по словам разработчиков, один NPU Hanguang 800 эквивалентен по результативности 10 «обычным» графическим процессорам. Эти решения, как мы отметили выше, компания будет использовать для собственных нужд, как и TPU в компании Google или AWS Inferentia в Amazon. У компании Alibaba это облачные сервисы Aliyun.

Постоянный URL: http://servernews.ru/994970
19.09.2019 [16:42], Андрей Созинов

ARM добавит поддержку формата bfloat16 в архитектуру ARMv8-A

Компания ARM сообщила, что следующая версия её архитектуры ARMv8-A получит поддержку работы с числами с плавающей запятой формата bfloat16, который всё чаще используется в задачах машинного обучения и искусственного интеллекта.

Формат bfloat16 был создан компанией Google и впервые был реализован в её тензорных вычислительных блоках Tensor Processing Unit (TPU) третьего поколения. Следом компания Intel оценила данный формат и реализовала его поддержку в новых FPGA Agilex и ускорителях Nervana NNP, а также сделала частью технологии Deep Learning Boost (DL Boost) для перспективных архитектур, в том числе Ice Lake и Cooper Lake.

В случае ARM поддержка bfloat16 будет добавлена ко всем наборам команд, работающих числами с плавающей запятой, а именно SVE (Scalable Vector Extension), AArch64 Neon (64-битные инструкции SIMD) и AArch32 Neon (32-бит SIMD). Поддержка нового формата предназначена как для запуска обученных нейросетей, так и для их обучения на клиентских компьютерах и серверах ARM.

Также отмечается, что в ARMv8-A будут добавлены четыре новые инструкции для работы blfoat16, используемых для обучения и работы нейронных сетей: BFDOT, BFMMLA, BFMLAL и BFCVT.

Постоянный URL: http://servernews.ru/994305
06.07.2019 [23:50], Геннадий Детинич

Нейронные сети научили моделировать квантовые процессы

Доступное квантовое моделирование и квантовые вычислители ― вот мечты учёных на ближайшие 5–10 лет. Но квантовые системы ещё необходимо разработать и довести до ума, в чём также могли бы помочь квантовые вычислители. Заколдованный круг? Разорвать его можно с помощью новейших технологий в вычислениях, охватывающих развёртывание нейронных сетей или, проще говоря, машинное обучение и элементы искусственного интеллекта.

На прошедшей неделе на портале Physical Review Letters вышли сразу три статьи о независимых исследованиях научных команд из США, Франции и Англии, в каждой из которых рассматривался вопрос моделирования открытых квантовых систем с помощью нейронных сетей. В качестве основы всех трёх проектов взята хорошо известная группа численных методов для изучения случайных процессов «Метод Монте-Карло». Как показали эксперименты, реализованный подход даёт возможность моделировать «значительные» по масштабам открытые квантовые системы. Открытость квантовых систем означает, что к массе заданных дискретных параметров (частиц) добавляется плохо предсказуемая масса случайных параметров, с чем обычно не готовы справиться даже самые мощнейшие суперкомпьютеры.

Представленная учёными трёх стран методика квантового моделирования на нейронных сетях поможет глубже разобраться в квантовых процессах. В частности, методика даст возможность изучить такое паразитное явление, как появление шумов в квантовых вычислителях. В конечном итоге квантовое моделирование сравнительно доступными средствами приблизит появление массовых квантовых компьютеров и может привлечь к изучению процессов существенно больше специалистов.

Постоянный URL: http://servernews.ru/990316
09.02.2018 [13:27], Сергей Карасёв

Сбербанк развернул масштабную нейронную сеть

Сбербанк объявил о разработке первой в России масштабной нейронной сети: платформа, как сообщается, предназначена для оценки коммерческой недвижимости.

В основу системы положены алгоритмы глубокого машинного обучения. Сеть позволяет автоматизировать выполнение рутинных операций, снизив нагрузку на специалистов и повысив эффективность выполнения задач.

Отмечается, что коммерческая недвижимость выступает одним из наиболее популярных видов залога. Для выбора наиболее подходящих аналогов нейронная сеть обрабатывает информацию о характеристиках объекта, его местоположении, пешеходном трафике, цене, а также близости к более чем 200 категориям точек интереса (POI).

Благодаря внедрению системы сроки проведения оценки сокращаются с нескольких дней до минут при одновременном повышении её качества. Кроме того, за счёт использования единой платформы унифицируются методология и подходы к оценке.

На данный момент сервис охватывает 36 крупнейших городов России с населением более полумиллиона человек и используется для оценки объектов типа Street Retail —  разновидность торговой недвижимости, представляющая собой торговые помещения, расположенные на первых этажах зданий, имеющие отдельный вход и собственные витрины.

В дальнейшем планируется расширение сферы применения нейронной сети. «Использование новейших технологий позволяет нам исключить механический труд и использовать высвободившееся время для решения сложных задач», — отмечает Сбербанк. 

Постоянный URL: http://servernews.ru/965393
25.10.2017 [18:18], Сергей Карасёв

Компьютеры «Эльбрус» получат систему распознавания документов на основе нейронных сетей

Объединённый холдинг «Росэлектроника» (входит в госкорпорацию «Ростех») сообщает о том, что вычислительные комплексы «Эльбрус» будут оснащаться системой распознавания паспортов и других стандартизированных документов, разработанной российской компанией Smart Engines.

Система будет функционировать в составе рабочей станции базового уровня «Эльбрус 101-РС» на чипе «Эльбрус-1С+». Программное обеспечение Smart Engines адаптировано и для других компьютеров семейства «Эльбрус» — станций «Эльбрус-801», персональных компьютеров и серверов на базе микропроцессоров «Эльбрус-4С».

Отмечается, что система распознавания документов построена с использованием «сверхбыстрых нейронных сетей», а высокое качество распознавания обеспечивается благодаря «глубокой алгоритмической оптимизации под специфику программно-аппаратной архитектуры Эльбрус».

В настоящее время на базе «Эльбрус 101-РС» доступно распознавание удостоверяющих документов России и более чем 35 стран мира, а также машиночитаемой зоны на любых документах (паспорта, ID-карты, визы). Из российских документов система распознаёт паспорт гражданина РФ, СНИЛС, водительские удостоверения, свидетельство о регистрации транспортных средств (СТС), визу и свидетельство о рождении.

Новый комплекс предлагается использовать для организации рабочих мест сотрудников, занятых вводом данных из анкет, заявлений, различных бланков и других типовых документов. Автоматическое извлечение информации позволяет повысить эффективность работы по вводу данных и сократить количество ошибок, вызванных человеческим фактором.

Кроме того, система может применяться на контрольно-пропускных пунктах для распознавания автомобильных номеров. 

Постоянный URL: http://servernews.ru/960532
01.09.2017 [22:39], Алексей Степин

В обучении нейросетей достигнута производительность 15 петафлопс

Разработчики нейросетей и систем машинного обучения продолжают работы по усовершенствованию и ускорению соответствующих задач. Смешанная группа инженеров и учёных из Национальной лаборатории имени Лоуренса в Беркли, Стэнфордского университета и корпорации Intel впервые преодолела барьер 10 петафлопс при выполнении двух различных программ глубинного машинного обучения. Одна из них смогла показать рекордный результат — 15 петафлопс. Исследование проводилось с использованием суперкомпьютера Cori, установленного в министерстве энергетики США. Результаты эксперимента были опубликованы 17 августа и ознакомиться с ними можно по этой ссылке. В процессе вычислений использовалась математика одинарной точности — режима FP32 обычно достаточно с точки зрения достигаемой точности вычислений при обучении нейронных сетей. Иногда используются даже менее точные вычисления, такие, как FP16 или даже INT8.

Машинный зал Cori

Машинный зал Cori

В системе Cori, которая представляет собой Cray XC40, проблем с такой математикой нет: она состоит из 9688 процессоров Intel Xeon Phi 7250 серии Knights Landing. Пиковая производительность комплекса в режиме одинарной точности достигает 59 петафлопс, но из-за активного использования векторных инструкций (AVX), применяемых в матричной математике, тактовые частоты процессоров снизились с 1,4 до 1,2 ГГц, что понизило пиковую производительность до 50,6 петафлопс. Для тестовой задачи были использованы метеорологические данные общим объемом 15 Тбайт, полученные с помощью климатического симулятора. Именно при обработке этих моделей была достигнута пиковая производительность 15,07 петафлопс при устоявшейся 13,27 петафлопс. Задействовалось 9622 ядер Cori из 9688 физически имеющихся в системе. Показатели масштабируемости тоже впечатляют: 7205-кратное увеличение скорости вычислений было получено при переходе от 1 процессорного ядра к 9622. Второй тестовой задачей был обсчёт набора данных из области физики высоких энергий. Здесь скорости составили 11,73 и 11,41 петафлопс, соответственно, а масштабируемость достигла показателя 6173.

Некоторые полученные данные о масштабируемости задач

Некоторые полученные данные о масштабируемости задач

К сожалению, в тестовых задачах каждый из Xeon Phi смог выдать около 2 терафлопс из 6 возможных, но это практически предел для реальных приложений — как традиционных задач класса HPC, так и задач машинного обучения. Что касается точности, то итоговые показатели оказались неплохими: в задаче из области физики высоких энергий точность корректного распознавания сигналов составила 72 %, что существенно выше, нежели при применении традиционного анализа, при котором достигается точность порядка 42 %. К сожалению, численная оценка точности климатической задачи не производилась, но исследователи утверждают, что нейронная сеть отлично справилась с поиском, локализацией и идентификацией тропических циклонов, что было её главной целью. Исследователи намерены продолжать работы: планируется как оптимизация имеющихся алгоритмов машинного обучения, так и внедрение новых. В планах есть и применение систем с более низкой точностью обработки данных, поскольку это может позволить добиться ускорения процесса обучения нейросетей.

Постоянный URL: http://servernews.ru/957957
01.09.2017 [15:00], Сергей Карасёв

Новый российский суперкомпьютер предназначен для обучения нейросетей

В Лаборатории нейронных систем и глубокого обучения Московского физико-технического института (МФТИ) появился уникальный суперкомпьютер, о чём сообщает сетевое издание «РИА Новости».

Комплекс спроектирован специально для обучения искусственных нейронных сетей. Это, как утверждается, первая в мире система высокопроизводительных вычислений подобного рода.

Суперкомпьютер использует вычислительные узлы NVIDIA DGX-1. В их основе — профессиональные ускорители Tesla P100, взаимодействующие посредством интерфейса NVIDIA NVLink. Модули DGX-1 выбраны в качестве основы для нового суперкомпьютера по той причине, что они способны обрабатывать и анализировать информацию в 100 раз быстрее по сравнению с традиционными вычислительными системами.

«Вычислительная мощность принципиально важна для глубокого обучения. Чем более мощное железо есть в нашем распоряжении, тем с более сложными нейросетевыми архитектурами мы сможем работать. Сложность модели зачастую позволяет совершить революционный скачок в решении практических задач», — говорят в МФТИ.

Ресурсы вычислительного комплекса будут задействованы прежде всего в рамках проекта по созданию разговорного искусственного интеллекта iPavlov, который лаборатория реализует совместно со Сбербанком. Ожидается, что такая система сможет вести содержательный диалог с человеком и достигать цели, поставленной в процессе общения, не только отвечая на вопросы, но и запрашивая недостающую информацию. Для этого специально созданный алгоритм будет обучаться на больших массивах документов и текстовых записей диалогов между людьми. 

Постоянный URL: http://servernews.ru/957932
01.09.2017 [12:00], Алексей Степин

Первые сведения о процессоре машинного обучения Baidu

Мы продолжаем рассказывать нашим читателям о тенденциях в области аппаратного обеспечения для систем машинного обучения. Все уже знают, что такой гигант, как Google, вложил немалые средства в разработку так называемого «тензорного сопроцессора», о котором не так давно говорилось в одной из наших заметок. Но у Google есть конкурент, а точнее, параллельно работающий с ним гигант — компания Baidu, охватывающая огромный рынок КНР. Неудивительно, что она тоже ведёт исследования в аналогичных областях. Китай — не самая открытая страна, да и коммерческая тайна продолжает оставаться коммерческой тайной, но, тем не менее, кое-что про процессор Baidu под названием XPU стало известно.

Пока китайские разработчики отстают от своих американских коллег: в их распоряжении есть рабочее устройство, но собрано оно на основе больших микросхем программируемой логики (ПЛИС) производства Xilinx. Как показывает практика, это не самое энергоэффективное решение, хотя и более экономичное, нежели использование графических чипов или процессоров x86 общего назначения. По словам главы команды разработчиков, целью является создание универсального процессора, способного справляться с различными задачами и сценариями машинного обучения, и при этом не менее гибкого, нежели обычные ЦП. Пока приходится использовать ПЛИС, а их программирование — сложнейшая задача. Процессор XPU должен будет содержать массив блоков для специализированных вычислений — перемножения матриц, свёртки тензоров и прочих задач.

Этому массиву потребуется широкая шина памяти с высокой пропускной способностью и низкими задержками. Планируется использовать внешнюю DDR4 в связке с многослойной HBM, которая отлично показывает себя в ускорителях NVIDIA. В чипе будет также некоторое количество сверхбыстрой памяти SRAM. Число ядер должно достигнуть 256, а в целом архитектура XPU будет напоминать MIPS. Небольшие ядра обойдутся без кеша, а эффективность будет достигнута за счёт их специализации и параллельного использования. Частота работы всех 256 ядер составит 600 МГц. С системой синхронизации данных масштабируемость устройства будет выше, нежели без таковой.

К сожалению, хотя проект уже и существует в форме ПЛИС, компилятора к новому процессору Baidu пока нет. Код приходится писать на ассемблере, как это делалось раньше в мире x86, но задача значительно сложнее, поскольку приходится заниматься и разделением работы между ядрами, а также проверкой работоспособности в Linux. Пока рано говорить о производительности Baidu XPU, но сама идея выглядит неплохо, и к тому же у компании уже накоплен солидный опыт использования ПЛИС в своих центрах обработки данных. Вполне возможно, что уже подрастает достойный соперник Google TPU, причём, более универсальный.

Постоянный URL: http://servernews.ru/957895
31.08.2017 [06:40], Алексей Степин

Популярность машинного обучения влияет на эволюцию архитектуры процессоров

Процесс развития архитектур центральных процессоров подобен эволюционному. Их создают разработчики для соответствия той или иной эволюционной нише, требующей каких-либо специфических вычислений, наборов инструкций и тому подобное. Иногда эволюционные ниши схлопываются —  и вымирают целые семейства процессоров. В качестве примера можно привести Alpha. Сейчас основную нишу удерживают x86-совместимые решения, но о них чуть позже. В 2017 году уже ни у кого нет сомнений, что возникла новая экологическая ниша — специализированные процессоры для нейронных сетей и машинного обучения.

Google TPU

Google TPU

О таких решениях мы писали неоднократно. Здесь и Google Tensor Processing Unit, и разработка Fujitsu под названием DLU (Deep Learning Unit), и процессор Graphcore IPU (Intelligent Processing Unit), и многочисленные разработки и прототипы на базе ПЛИС компаний Altera и Xilinx, которыми интересуется всё больше крупных владельцев ЦОД по всему миру, например, Baidu. Да и графические чипы последних поколений отлично справляются с задачей создания и натаскивания нейросетей благодаря глубокой степени параллелизма, хотя делают они это не столь экономично, как специально созданные для этой цели решения. Смысл в том, что эволюционная ниша сформирована, и теперь в ней наблюдается типичная борьба за выживание: в графических чипах NVIDIA появляются специальные ядра для тензорных вычислений (в Volta V100 таких ядер 640).

Intel Knights Mill

Intel Knights Mill

Обычно эти ядра оперируют математикой с упрощённой точностью (32 и 16 бит с плавающей запятой, а иногда и целочисленными форматами вплоть до 8 битных). У AMD есть аналогичный продукт — ускорители серии Radeon Instinct. Но что самое интересное, эволюционная «мутация» закрепляется и в обычных, казалось бы, x86-совместимых процессорах — совсем недавно мы описывали читателям чипы Intel Knights Mill, в которых часть общей производительности принесена в угоду производительности на специализированных задачах машинного обучения. Кто победит в эволюционной гонке? Пока сказать трудно. Такие решения, как NVIDIA Volta и Radeon Instinct может ждать судьба динозавров — по соотношению энергопотребления к производительности в специальных задачах они проигрывают тому же Google TPU.

Fujitsu Deep Learning Unit

Fujitsu Deep Learning Unit

Роль протомлекопитающих в этом процессе, судя по всему, играют решения на базе ПЛИС, а королями нейронных сетей станут специализированные мощные процессоры, такие, как Google TPU. Но эволюция — процесс нелинейный, и ряд ниш вполне может найтись для решений, способных не только работать с системами машинного обучения. К тому же, сами системы обучения могут быть очень разными и требовать гибкости, к которой чипы типа ASIC не способны по определению. Может потребоваться и параллельное выполнение задач иного порядка, так что чипам вроде Intel Knights Mill тоже найдётся место на ветвистом дереве эволюции процессоров. Пока ясно одно —  «ген» машинного обучения поселился в современных процессорах надолго.

Постоянный URL: http://servernews.ru/957816
25.08.2017 [12:44], Алексей Степин

Intel проливает свет на архитектуру процессоров Knights Mill

Во времена, когда машинное обучение и технологии на базе нейросетей активно развиваются, прогрессирует и аппаратное обеспечение для этих сфер. Но каждый разработчик подходит к вопросу по-своему: производители графических процессоров полагаются на изначально массивный параллелизм своих разработок, такие компании как Google разрабатывают сравнительно простые чипы, всё в которых подчинено единственной задаче, выполняемой максимально быстро, ну а такие компании как Intel адаптируют существующие процессорные архитектуры. Так, недавно «синие» раскрыли некоторые секреты, касающиеся наследников серии Knights Landing — процессоров Knights Mill.

Конечно, компания исследует и другие направления, например, решения на базе FPGA Altera, а также разрабатывает сопроцессоры Lake Crest и Knights Crest, которые, скорее всего, будут напоминать Google TPU. Однако и наследник серии Knights Landing — чип Knights Mill — получит изменённую с учётом популярности технологий машинного обучения архитектуру. Основа останется прежней, но каждый модуль (VPU) получит вместо двух «больших» блоков FPU (32/64 бита) меньший блок вычислений с плавающей запятой и четыре блока Vector Neural Network Instruction (VNNI). Последние будут поддерживать операции с плавающей запятой одинарной точности, а также получат способность работать со смешанными целочисленными форматами (16 бит на входе, 32 на выходе). Похожие ядра есть в составе NVIDIA V100, но они поддерживают более традиционные форматы FP32/64.

Конечный результат можно предсказать довольно точно: Knights Mill будет вдвое уступать Knights Landing на операциях двойной точности, но вдвое же превосходить на операциях точности одинарной. А появление блоков VNNI с поддержкой целочисленных форматов может поднять производительность Knights Mill в четыре раза в задачах, связанных с глубинным машинным обучением. Таким образом, процессор получится более специализированным, но в своих областях специализации он превзойдёт предшественника весьма существенно. Чипы Knights Mill не будут страдать от нехватки ПСП, поскольку получат 16 Гбайт MCDRAM, дополняющий 6-канальный контроллер DDR4. Общее количество ядер останется прежним — 72, с учётом 256 операций на такт в блоках VPU, Knights Mill сможет продемонстрировать более 27 триллионов операций в секунду при частотах порядка 1,5 ГГц. Это меньше, нежели 92 триллиона операций у Google TPU, но решение Intel выглядит более универсальным и сбалансированным. Появится оно на рынке уже в четвёртом квартале этого года.

Постоянный URL: http://servernews.ru/957549
Система Orphus