Материалы по тегу: нейронная сеть
02.10.2019 [11:22], Геннадий Детинич
Один нейропроцессор Alibaba Hanguang 800 заменяет 10 GPU-ускорителейКак мы сообщали около недели назад, компания Alibaba представила фирменный NPU Hanguang 800 для запуска нейросетей в составе облачных сервисов компании. Например, данные NPU могут обеспечить рекомендательные услуги для пользователей или анализ видео с камер наблюдения в реальном времени. В продажу Hanguang 800 не поступят. Компания намерена использовать разработку в собственных ЦОД. С одной стороны, это программа по импортозамещению. С другой ― аналогов Hanguang 800 пока нет, в чём нас уверяет Alibaba. ![]() Итак, 12-нм NPU Hanguang 800 ― это самый большой из разработанных Alibaba чипов с 17 млрд транзисторов. Точнее, процессор разработан подразделением T-Head этой интернет-компании (ране ― Pingtouge Semi). В основе разработки лежит архитектура и набор команд RISC-V с открытым кодом. Подобное обстоятельство, как уверены в Alibaba, поможет быстрому распространению интереса к платформе со стороны независимых разработчиков. ![]() Нейропроцессор Hanguang 800 входит в семейство производительных ИИ-чипов Xuantie (Black Steel). Название платформы для ускорителя ― Wujian (Уцзян). Платформа представляет собой плату с интерфейсами и контроллерами ввода/вывода, бортовой памятью и набором необходимых кодеков. Вместе с аппаратной частью поставляется полный пакет программного обеспечения от драйверов и прошивки до операционной системы, библиотек и примеров. Бери и дерзай. Программная поддержка представляется Alibaba тем козырем, которого нет в рукаве у чисто «железячных» разработчиков. Кстати, Hanguang 800 спроектирован менее чем за год, что впечатляет. ![]() Согласно внутренним тестам компании, инференс Hanguang 800 на стандартном тестовом наборе ResNet-50 способен обработать 78,5 тысяч изображений в секунду или 500 изображений в секунду на ватт. Это в 15 раз быстрее, чем в случае ускорителя NVIDIA T4 и в 46 раз быстрее NVIDIA P4. Даже если Alibaba преувеличила свои достижения, а независимых тестов у нас нет, результат всё равно впечатляет. ![]() Если сравнивать возможности Hanguang 800 с компьютерной производительностью, то, по словам разработчиков, один NPU Hanguang 800 эквивалентен по результативности 10 «обычным» графическим процессорам. Эти решения, как мы отметили выше, компания будет использовать для собственных нужд, как и TPU в компании Google или AWS Inferentia в Amazon. У компании Alibaba это облачные сервисы Aliyun. ![]()
19.09.2019 [16:42], Андрей Созинов
ARM добавит поддержку формата bfloat16 в архитектуру ARMv8-AКомпания ARM сообщила, что следующая версия её архитектуры ARMv8-A получит поддержку работы с числами с плавающей запятой формата bfloat16, который всё чаще используется в задачах машинного обучения и искусственного интеллекта. ![]() Формат bfloat16 был создан компанией Google и впервые был реализован в её тензорных вычислительных блоках Tensor Processing Unit (TPU) третьего поколения. Следом компания Intel оценила данный формат и реализовала его поддержку в новых FPGA Agilex и ускорителях Nervana NNP, а также сделала частью технологии Deep Learning Boost (DL Boost) для перспективных архитектур, в том числе Ice Lake и Cooper Lake. ![]() В случае ARM поддержка bfloat16 будет добавлена ко всем наборам команд, работающих числами с плавающей запятой, а именно SVE (Scalable Vector Extension), AArch64 Neon (64-битные инструкции SIMD) и AArch32 Neon (32-бит SIMD). Поддержка нового формата предназначена как для запуска обученных нейросетей, так и для их обучения на клиентских компьютерах и серверах ARM. Также отмечается, что в ARMv8-A будут добавлены четыре новые инструкции для работы blfoat16, используемых для обучения и работы нейронных сетей: BFDOT, BFMMLA, BFMLAL и BFCVT.
06.07.2019 [23:50], Геннадий Детинич
Нейронные сети научили моделировать квантовые процессыДоступное квантовое моделирование и квантовые вычислители ― вот мечты учёных на ближайшие 5–10 лет. Но квантовые системы ещё необходимо разработать и довести до ума, в чём также могли бы помочь квантовые вычислители. Заколдованный круг? Разорвать его можно с помощью новейших технологий в вычислениях, охватывающих развёртывание нейронных сетей или, проще говоря, машинное обучение и элементы искусственного интеллекта. ![]() На прошедшей неделе на портале Physical Review Letters вышли сразу три статьи о независимых исследованиях научных команд из США, Франции и Англии, в каждой из которых рассматривался вопрос моделирования открытых квантовых систем с помощью нейронных сетей. В качестве основы всех трёх проектов взята хорошо известная группа численных методов для изучения случайных процессов «Метод Монте-Карло». Как показали эксперименты, реализованный подход даёт возможность моделировать «значительные» по масштабам открытые квантовые системы. Открытость квантовых систем означает, что к массе заданных дискретных параметров (частиц) добавляется плохо предсказуемая масса случайных параметров, с чем обычно не готовы справиться даже самые мощнейшие суперкомпьютеры. Представленная учёными трёх стран методика квантового моделирования на нейронных сетях поможет глубже разобраться в квантовых процессах. В частности, методика даст возможность изучить такое паразитное явление, как появление шумов в квантовых вычислителях. В конечном итоге квантовое моделирование сравнительно доступными средствами приблизит появление массовых квантовых компьютеров и может привлечь к изучению процессов существенно больше специалистов.
09.02.2018 [13:27], Сергей Карасёв
Сбербанк развернул масштабную нейронную сетьСбербанк объявил о разработке первой в России масштабной нейронной сети: платформа, как сообщается, предназначена для оценки коммерческой недвижимости. ![]() В основу системы положены алгоритмы глубокого машинного обучения. Сеть позволяет автоматизировать выполнение рутинных операций, снизив нагрузку на специалистов и повысив эффективность выполнения задач. Отмечается, что коммерческая недвижимость выступает одним из наиболее популярных видов залога. Для выбора наиболее подходящих аналогов нейронная сеть обрабатывает информацию о характеристиках объекта, его местоположении, пешеходном трафике, цене, а также близости к более чем 200 категориям точек интереса (POI). Благодаря внедрению системы сроки проведения оценки сокращаются с нескольких дней до минут при одновременном повышении её качества. Кроме того, за счёт использования единой платформы унифицируются методология и подходы к оценке. ![]() На данный момент сервис охватывает 36 крупнейших городов России с населением более полумиллиона человек и используется для оценки объектов типа Street Retail — разновидность торговой недвижимости, представляющая собой торговые помещения, расположенные на первых этажах зданий, имеющие отдельный вход и собственные витрины. В дальнейшем планируется расширение сферы применения нейронной сети. «Использование новейших технологий позволяет нам исключить механический труд и использовать высвободившееся время для решения сложных задач», — отмечает Сбербанк.
25.10.2017 [18:18], Сергей Карасёв
Компьютеры «Эльбрус» получат систему распознавания документов на основе нейронных сетейОбъединённый холдинг «Росэлектроника» (входит в госкорпорацию «Ростех») сообщает о том, что вычислительные комплексы «Эльбрус» будут оснащаться системой распознавания паспортов и других стандартизированных документов, разработанной российской компанией Smart Engines. ![]() Система будет функционировать в составе рабочей станции базового уровня «Эльбрус 101-РС» на чипе «Эльбрус-1С+». Программное обеспечение Smart Engines адаптировано и для других компьютеров семейства «Эльбрус» — станций «Эльбрус-801», персональных компьютеров и серверов на базе микропроцессоров «Эльбрус-4С». Отмечается, что система распознавания документов построена с использованием «сверхбыстрых нейронных сетей», а высокое качество распознавания обеспечивается благодаря «глубокой алгоритмической оптимизации под специфику программно-аппаратной архитектуры Эльбрус». В настоящее время на базе «Эльбрус 101-РС» доступно распознавание удостоверяющих документов России и более чем 35 стран мира, а также машиночитаемой зоны на любых документах (паспорта, ID-карты, визы). Из российских документов система распознаёт паспорт гражданина РФ, СНИЛС, водительские удостоверения, свидетельство о регистрации транспортных средств (СТС), визу и свидетельство о рождении. ![]() Новый комплекс предлагается использовать для организации рабочих мест сотрудников, занятых вводом данных из анкет, заявлений, различных бланков и других типовых документов. Автоматическое извлечение информации позволяет повысить эффективность работы по вводу данных и сократить количество ошибок, вызванных человеческим фактором. Кроме того, система может применяться на контрольно-пропускных пунктах для распознавания автомобильных номеров.
01.09.2017 [22:39], Алексей Степин
В обучении нейросетей достигнута производительность 15 петафлопс
cray xc40
hardware
глубинное обучение
машинное обучение
нейронная сеть
рекорд
супервычисления
суперкомпьютер
Разработчики нейросетей и систем машинного обучения продолжают работы по усовершенствованию и ускорению соответствующих задач. Смешанная группа инженеров и учёных из Национальной лаборатории имени Лоуренса в Беркли, Стэнфордского университета и корпорации Intel впервые преодолела барьер 10 петафлопс при выполнении двух различных программ глубинного машинного обучения. Одна из них смогла показать рекордный результат — 15 петафлопс. Исследование проводилось с использованием суперкомпьютера Cori, установленного в министерстве энергетики США. Результаты эксперимента были опубликованы 17 августа и ознакомиться с ними можно по этой ссылке. В процессе вычислений использовалась математика одинарной точности — режима FP32 обычно достаточно с точки зрения достигаемой точности вычислений при обучении нейронных сетей. Иногда используются даже менее точные вычисления, такие, как FP16 или даже INT8. ![]() Машинный зал Cori В системе Cori, которая представляет собой Cray XC40, проблем с такой математикой нет: она состоит из 9688 процессоров Intel Xeon Phi 7250 серии Knights Landing. Пиковая производительность комплекса в режиме одинарной точности достигает 59 петафлопс, но из-за активного использования векторных инструкций (AVX), применяемых в матричной математике, тактовые частоты процессоров снизились с 1,4 до 1,2 ГГц, что понизило пиковую производительность до 50,6 петафлопс. Для тестовой задачи были использованы метеорологические данные общим объемом 15 Тбайт, полученные с помощью климатического симулятора. Именно при обработке этих моделей была достигнута пиковая производительность 15,07 петафлопс при устоявшейся 13,27 петафлопс. Задействовалось 9622 ядер Cori из 9688 физически имеющихся в системе. Показатели масштабируемости тоже впечатляют: 7205-кратное увеличение скорости вычислений было получено при переходе от 1 процессорного ядра к 9622. Второй тестовой задачей был обсчёт набора данных из области физики высоких энергий. Здесь скорости составили 11,73 и 11,41 петафлопс, соответственно, а масштабируемость достигла показателя 6173. ![]() Некоторые полученные данные о масштабируемости задач К сожалению, в тестовых задачах каждый из Xeon Phi смог выдать около 2 терафлопс из 6 возможных, но это практически предел для реальных приложений — как традиционных задач класса HPC, так и задач машинного обучения. Что касается точности, то итоговые показатели оказались неплохими: в задаче из области физики высоких энергий точность корректного распознавания сигналов составила 72 %, что существенно выше, нежели при применении традиционного анализа, при котором достигается точность порядка 42 %. К сожалению, численная оценка точности климатической задачи не производилась, но исследователи утверждают, что нейронная сеть отлично справилась с поиском, локализацией и идентификацией тропических циклонов, что было её главной целью. Исследователи намерены продолжать работы: планируется как оптимизация имеющихся алгоритмов машинного обучения, так и внедрение новых. В планах есть и применение систем с более низкой точностью обработки данных, поскольку это может позволить добиться ускорения процесса обучения нейросетей.
01.09.2017 [15:00], Сергей Карасёв
Новый российский суперкомпьютер предназначен для обучения нейросетейВ Лаборатории нейронных систем и глубокого обучения Московского физико-технического института (МФТИ) появился уникальный суперкомпьютер, о чём сообщает сетевое издание «РИА Новости». Комплекс спроектирован специально для обучения искусственных нейронных сетей. Это, как утверждается, первая в мире система высокопроизводительных вычислений подобного рода. ![]() Суперкомпьютер использует вычислительные узлы NVIDIA DGX-1. В их основе — профессиональные ускорители Tesla P100, взаимодействующие посредством интерфейса NVIDIA NVLink. Модули DGX-1 выбраны в качестве основы для нового суперкомпьютера по той причине, что они способны обрабатывать и анализировать информацию в 100 раз быстрее по сравнению с традиционными вычислительными системами. «Вычислительная мощность принципиально важна для глубокого обучения. Чем более мощное железо есть в нашем распоряжении, тем с более сложными нейросетевыми архитектурами мы сможем работать. Сложность модели зачастую позволяет совершить революционный скачок в решении практических задач», — говорят в МФТИ. ![]() Ресурсы вычислительного комплекса будут задействованы прежде всего в рамках проекта по созданию разговорного искусственного интеллекта iPavlov, который лаборатория реализует совместно со Сбербанком. Ожидается, что такая система сможет вести содержательный диалог с человеком и достигать цели, поставленной в процессе общения, не только отвечая на вопросы, но и запрашивая недостающую информацию. Для этого специально созданный алгоритм будет обучаться на больших массивах документов и текстовых записей диалогов между людьми.
01.09.2017 [12:00], Алексей Степин
Первые сведения о процессоре машинного обучения Baidu
baidu
hardware
глубинное обучение
машинное обучение
нейронная сеть
процессоры
сопроцессоры
ускорители
Мы продолжаем рассказывать нашим читателям о тенденциях в области аппаратного обеспечения для систем машинного обучения. Все уже знают, что такой гигант, как Google, вложил немалые средства в разработку так называемого «тензорного сопроцессора», о котором не так давно говорилось в одной из наших заметок. Но у Google есть конкурент, а точнее, параллельно работающий с ним гигант — компания Baidu, охватывающая огромный рынок КНР. Неудивительно, что она тоже ведёт исследования в аналогичных областях. Китай — не самая открытая страна, да и коммерческая тайна продолжает оставаться коммерческой тайной, но, тем не менее, кое-что про процессор Baidu под названием XPU стало известно. ![]() Пока китайские разработчики отстают от своих американских коллег: в их распоряжении есть рабочее устройство, но собрано оно на основе больших микросхем программируемой логики (ПЛИС) производства Xilinx. Как показывает практика, это не самое энергоэффективное решение, хотя и более экономичное, нежели использование графических чипов или процессоров x86 общего назначения. По словам главы команды разработчиков, целью является создание универсального процессора, способного справляться с различными задачами и сценариями машинного обучения, и при этом не менее гибкого, нежели обычные ЦП. Пока приходится использовать ПЛИС, а их программирование — сложнейшая задача. Процессор XPU должен будет содержать массив блоков для специализированных вычислений — перемножения матриц, свёртки тензоров и прочих задач. ![]() Этому массиву потребуется широкая шина памяти с высокой пропускной способностью и низкими задержками. Планируется использовать внешнюю DDR4 в связке с многослойной HBM, которая отлично показывает себя в ускорителях NVIDIA. В чипе будет также некоторое количество сверхбыстрой памяти SRAM. Число ядер должно достигнуть 256, а в целом архитектура XPU будет напоминать MIPS. Небольшие ядра обойдутся без кеша, а эффективность будет достигнута за счёт их специализации и параллельного использования. Частота работы всех 256 ядер составит 600 МГц. С системой синхронизации данных масштабируемость устройства будет выше, нежели без таковой. ![]() К сожалению, хотя проект уже и существует в форме ПЛИС, компилятора к новому процессору Baidu пока нет. Код приходится писать на ассемблере, как это делалось раньше в мире x86, но задача значительно сложнее, поскольку приходится заниматься и разделением работы между ядрами, а также проверкой работоспособности в Linux. Пока рано говорить о производительности Baidu XPU, но сама идея выглядит неплохо, и к тому же у компании уже накоплен солидный опыт использования ПЛИС в своих центрах обработки данных. Вполне возможно, что уже подрастает достойный соперник Google TPU, причём, более универсальный.
31.08.2017 [06:40], Алексей Степин
Популярность машинного обучения влияет на эволюцию архитектуры процессоров
hardware
глубинное обучение
машинное обучение
нейронная сеть
процессоры
сопроцессоры
ускорители
эволюция
Процесс развития архитектур центральных процессоров подобен эволюционному. Их создают разработчики для соответствия той или иной эволюционной нише, требующей каких-либо специфических вычислений, наборов инструкций и тому подобное. Иногда эволюционные ниши схлопываются — и вымирают целые семейства процессоров. В качестве примера можно привести Alpha. Сейчас основную нишу удерживают x86-совместимые решения, но о них чуть позже. В 2017 году уже ни у кого нет сомнений, что возникла новая экологическая ниша — специализированные процессоры для нейронных сетей и машинного обучения. ![]() Google TPU О таких решениях мы писали неоднократно. Здесь и Google Tensor Processing Unit, и разработка Fujitsu под названием DLU (Deep Learning Unit), и процессор Graphcore IPU (Intelligent Processing Unit), и многочисленные разработки и прототипы на базе ПЛИС компаний Altera и Xilinx, которыми интересуется всё больше крупных владельцев ЦОД по всему миру, например, Baidu. Да и графические чипы последних поколений отлично справляются с задачей создания и натаскивания нейросетей благодаря глубокой степени параллелизма, хотя делают они это не столь экономично, как специально созданные для этой цели решения. Смысл в том, что эволюционная ниша сформирована, и теперь в ней наблюдается типичная борьба за выживание: в графических чипах NVIDIA появляются специальные ядра для тензорных вычислений (в Volta V100 таких ядер 640). ![]() Intel Knights Mill Обычно эти ядра оперируют математикой с упрощённой точностью (32 и 16 бит с плавающей запятой, а иногда и целочисленными форматами вплоть до 8 битных). У AMD есть аналогичный продукт — ускорители серии Radeon Instinct. Но что самое интересное, эволюционная «мутация» закрепляется и в обычных, казалось бы, x86-совместимых процессорах — совсем недавно мы описывали читателям чипы Intel Knights Mill, в которых часть общей производительности принесена в угоду производительности на специализированных задачах машинного обучения. Кто победит в эволюционной гонке? Пока сказать трудно. Такие решения, как NVIDIA Volta и Radeon Instinct может ждать судьба динозавров — по соотношению энергопотребления к производительности в специальных задачах они проигрывают тому же Google TPU. ![]() Fujitsu Deep Learning Unit Роль протомлекопитающих в этом процессе, судя по всему, играют решения на базе ПЛИС, а королями нейронных сетей станут специализированные мощные процессоры, такие, как Google TPU. Но эволюция — процесс нелинейный, и ряд ниш вполне может найтись для решений, способных не только работать с системами машинного обучения. К тому же, сами системы обучения могут быть очень разными и требовать гибкости, к которой чипы типа ASIC не способны по определению. Может потребоваться и параллельное выполнение задач иного порядка, так что чипам вроде Intel Knights Mill тоже найдётся место на ветвистом дереве эволюции процессоров. Пока ясно одно — «ген» машинного обучения поселился в современных процессорах надолго.
25.08.2017 [12:44], Алексей Степин
Intel проливает свет на архитектуру процессоров Knights Mill
hardware
intel
knights mill
архитектуры
глубинное обучение
машинное обучение
нейронная сеть
процессоры
тензорный процессор
Во времена, когда машинное обучение и технологии на базе нейросетей активно развиваются, прогрессирует и аппаратное обеспечение для этих сфер. Но каждый разработчик подходит к вопросу по-своему: производители графических процессоров полагаются на изначально массивный параллелизм своих разработок, такие компании как Google разрабатывают сравнительно простые чипы, всё в которых подчинено единственной задаче, выполняемой максимально быстро, ну а такие компании как Intel адаптируют существующие процессорные архитектуры. Так, недавно «синие» раскрыли некоторые секреты, касающиеся наследников серии Knights Landing — процессоров Knights Mill. ![]() Конечно, компания исследует и другие направления, например, решения на базе FPGA Altera, а также разрабатывает сопроцессоры Lake Crest и Knights Crest, которые, скорее всего, будут напоминать Google TPU. Однако и наследник серии Knights Landing — чип Knights Mill — получит изменённую с учётом популярности технологий машинного обучения архитектуру. Основа останется прежней, но каждый модуль (VPU) получит вместо двух «больших» блоков FPU (32/64 бита) меньший блок вычислений с плавающей запятой и четыре блока Vector Neural Network Instruction (VNNI). Последние будут поддерживать операции с плавающей запятой одинарной точности, а также получат способность работать со смешанными целочисленными форматами (16 бит на входе, 32 на выходе). Похожие ядра есть в составе NVIDIA V100, но они поддерживают более традиционные форматы FP32/64. ![]() Конечный результат можно предсказать довольно точно: Knights Mill будет вдвое уступать Knights Landing на операциях двойной точности, но вдвое же превосходить на операциях точности одинарной. А появление блоков VNNI с поддержкой целочисленных форматов может поднять производительность Knights Mill в четыре раза в задачах, связанных с глубинным машинным обучением. Таким образом, процессор получится более специализированным, но в своих областях специализации он превзойдёт предшественника весьма существенно. Чипы Knights Mill не будут страдать от нехватки ПСП, поскольку получат 16 Гбайт MCDRAM, дополняющий 6-канальный контроллер DDR4. Общее количество ядер останется прежним — 72, с учётом 256 операций на такт в блоках VPU, Knights Mill сможет продемонстрировать более 27 триллионов операций в секунду при частотах порядка 1,5 ГГц. Это меньше, нежели 92 триллиона операций у Google TPU, но решение Intel выглядит более универсальным и сбалансированным. Появится оно на рынке уже в четвёртом квартале этого года. |
|