Материалы по тегу: ускоритель

20.11.2020 [16:45], Сергей Карасёв

NEC выводит на рынок векторный ускоритель SX-Aurora TSUBASA Vector Engine 2.0

Компания NEC сообщила о том, что с января следующего года заказчикам по всему миру станет доступен акселератор Vector Engine 2.0 серии SX-Aurora TSUBASA, анонсированный ещё летом.

Изделие Type 20B выполнено в виде двухслотовой карты расширения с интерфейсом PCIe. Оно содержит восемь векторных блоков с частотой 1,6 ГГц, обеспечивающих производительность на уровне 2,45 Тфлопс FP64, и 48 Гбайт памяти HBM2 с пропускной способностью приблизительно 1,53 Тбайт/с. При этом энергопотребление находится на уровне 200 Вт. Также есть версия ускорителя Type 20A, которая имеет 10 векторных блоков и производительность 3,07 Тфлопс FP64.

Благодаря векторной архитектуре крупные объёмы данных можно обрабатывать в пределах каждого цикла. Это открывает широкие возможности при решении задач в области искусственного интеллекта, машинного обучения, интенсивных научных вычислений и пр.

Векторный ускоритель Vector Engine 2.0 может использоваться в составе стандартных серверов и рабочих станций с архитектурой х86 от сторонних поставщиков оборудования. Таким образом, заказчики смогут сформировать вычислительную платформу в соответствии со своими требованиями и объёмом финансирования. Данное решение, по словам NEC, ориентировано на предприятия малого и среднего бизнеса, у которых есть потребность в формировании платформы высокопроизводительных вычислений (HPC).

Постоянный URL: http://servernews.ru/1025912
16.11.2020 [17:00], Игорь Осколков

SC20: AMD Instinct MI100 — самый быстрый PCIe-ускоритель на базе новой архитектуры CDNA

AMD Instinct MI100 — первый ускоритель на базе 7-нм архитектуры CDNA, которая в отличие от RDNA ориентирована на вычисления, а не на графику, хотя и сохраняет некоторые компоненты для рендеринга. Тем не менее, пути RDNA и CDNA окончательно разошлись, и новый ускоритель предназначен исключительно для высокопроизводительных вычислений и ИИ.

Первенец серии MI100 имеет 120 CU, которые содержат новые блоки для матричных операций, которые важны в ИИ-нагрузках. Но работают они не в ущерб «классическим» вычислениям — пиковая FP64-производительность составляет 11,5 Тфлопс, а для FP32 ровно в два раза больше, 23 Тфлопс. Эти показатели выше, чем у NVIDIA A100, и AMD настаивает, что именно такой прирост производительности нужен для запланированного достижения заветной производительности в один экзафлопс.

AMD Instinct MI100

AMD Instinct MI100

Впрочем, на другом конце спектра, в bfloat16-вычислениях, новинка от AMD проигрывает — 92,3 Тфлопс против 312 Тфлопс на Tensor Core. Прочие приведённые значения производительности для других показателей точности вычислений варьируются. Кроме того, PCIe-версия A100 в силу более низкого энергопотребления на реальных задачах может быть несколько медленнее, чем SXM-версия. А Instinct MI100, пока во всяком случае, доступна только в форм-факторе полноразмерной PCIe-карты с потреблением на уровне 300 Вт.

Карта оснащена 32 Гбайт HBM2-памяти c пропускной способностью 1,23 Тбайт/с, что несколько меньше, чем у PCIe-версии NVIDIA A100: 40 Гбайт HBM2e и 1,555 Тбайт/с соответственно. У обеих карт есть основной интерфейс PCIe 4.0 x16 (64 Гбайт/с) и дополнительная шина для прямого обмена данными между ускорителями. В случае NVIDIA это NVLink (600 Гбайт/с), который для PCIe-версии ограничен только двумя картами, а в случае AMD — это Infinity Fabric (IF).

У MI100 есть три IF-интерфейса с пропускной способностью 92 Гбайт/c (суммарно 276 Гбайт/с), что даёт возможность объединить до четырёх ускорителей, которые могут общаться друг с другом по схеме каждый-с-каждым. Причём оно не зависит от того, по какому интерфейсу, PCIe 3.0 или 4.0, сами ускорители подключены к хосту. Естественно, наиболее оптимальным вариантом для системы в целом будет связка из AMD EPYC и новых MI100.

Основной же козырь AMD, как это зачастую бывало и ранее — это стоимость новинок. Точные цены компания не приводит, но говорит о том, что по показателю производительность на доллар они 1,8-2,1 раза лучше, чем NVIDIA A100. Среди первых систем, для которых сделана валидация новых ускорителей есть Dell PowerEdge R7525, Gigabyte G482-Z54, HPE Apollo 6500 Gen10 Plus, Supermicro AS-4124GS-TNR. Избранные партнёры уже получили новые ускорители и системы на их основе для оценки производительности и адаптации ПО.

Вместе с выходом Instinct MI100 AMD представила и новый мажорный релиз ROCm 4.0, открытой программной платформы для HPC и ИИ. AMD особо отмечает рост производительности, простоту использования и готовность множества программных решений к работе с новым релизом и новым же «железом». И главное — простоту портирования кода на новую платформу, в первую очередь с NVIDIA CUDA. У некоторых разработчиков на это ушло буквально от нескольких часов до одного дня, или до нескольких недель в более сложных случаях.

Новая программно-аппаратная платформа на базе AMD EPYC, Instinct M100 и ROCm 4.0 ляжет в основу грядущих суперкомпьютеров Frontier и Pawsey. А вот будут ли новые машины с MI100 в свежем рейтинге TOP500, мы узнаем уже завтра. Конкуренцию новинкам составят новые же ускорители NVIDIA A100 с удвоенным объёмом памяти HBM2e.

Постоянный URL: http://servernews.ru/1025425
16.11.2020 [17:00], Игорь Осколков

SC20: NVIDIA представила ускоритель A100 с 80 Гбайт HBM2e и настольный «суперкомпьютер» DGX STATION

NVIDIA представила новую версию ускорителя A100 с увеличенным вдвое объёмом HBM2e-памяти: 80 Гбайт вместо 40 Гбайт у исходной A100, представленной полгода назад. Вместе с ростом объёма выросла и пропускная способность — с 1,555 Тбайт/с до 2 Тбайт/с.

В остальном характеристики обоих ускорителей совпадают, даже уровень энергопотребления сохранился на уровне 400 Вт. Тем не менее, объём и скорость работы быстрой набортной памяти влияет на производительность ряда приложений, так что им такой апгрейд только на пользу. К тому же MIG-инстансы теперь могут иметь объём до 10 Гбайт. PCIe-варианта ускорителя с удвоенной памятью нет — речь идёт только об SXM3-версии, которая используется в собственных комплексах NVIDIA DGX и HGX-платформах для партнёров.

NVIDIA A100 80 Гбайт

NVIDIA A100 80 Гбайт

Последним ориентировочно в первом квартале следующего года будут предоставлены наборы для добавления новых A100 в существующие решения, включая варианты плат на 4 и 8 ускорителей. У самой NVIDIA обновлению подверглись, соответственно, DGX A100 POD и SuperPOD for Enterprise. Недавно анонсированные суперкомпьютеры Cambridge-1 и HiPerGator на базе SuperPOD одними из первых получат новые ускорители с 80 Гбайт памяти. Ожидается, что HGX-решения на базе новой A100 будут доступны от партнёров компании — Atos, Dell Technologies, Fujitsu, GIGABYTE, Hewlett Packard Enterprise, Inspur, Lenovo, Quanta и Supermicro — в первой половине 2021 года.

Но, пожалуй, самый интересный анонс касается новой рабочей станции NVIDIA DGX STATION A100, которую как раз и можно назвать настольным «суперкомпьютером». В ней используются четыре SXM3-ускорителя A100 с не требующей обслуживания жидкостной системой охлаждения и полноценным NVLink-подключением. Будут доступны две версии, со 160 или 320 Гбайт памяти с 40- и 80-Гбайт A100 соответственно. Базируется система на 64-ядерном процессоре AMD EPYC, который можно дополнить 512 Гбайт RAM.

Для ОС доступен 1,92-Тбайт NVMe M.2 SSD, а для хранения данных — до 7,68 Тбайт NVMe U.2 SSD. Сетевое подключение представлено двумя 10GbE-портами и выделенным портом управления. Видеовыходов четыре, все mini Display Port. DGX STATION A100 отлично подходит для малых рабочих групп и предприятий. В том числе благодаря тому, что функция MIG позволяет эффективно разделить ресурсы станции между почти тремя десятками пользователей. В продаже она появится у партнёров компании в феврале следующего года.

Вероятно, все выпускаемые сейчас A100 c увеличенным объёмом памяти идут на более важные проекты. Новинкам предстоит конкурировать с первым ускорителем на базе новой архитектуры CDNA — AMD Instinct MI100.

Постоянный URL: http://servernews.ru/1025432
06.11.2020 [20:34], Алексей Степин

SimpleMachines анонсировала универсальный ИИ-ускоритель Mozart

Молодой стартап SimpleMachines представил своё видение ИИ-сопроцессора, анонсировав 16-нм чип под кодовым названием Mozart. Главным его достоинством разработчики считают универсальность.

В разработке ускорителей существует два основных подхода: выбросить из чипа «всё лишнее», сосредоточившись на как можно более быстром выполнении узкого круга задач, либо напротив, сделать процессор достаточно универсальным, но обычно ценой пиковой производительности. Тензорный сопроцессор Groq можно отнести к первой категории решений. Процессор Mozart, по мнению SimpleMachines, сочетает в себе универсальность и производительность, но всё же его можно отнести ко второму типу решений.

Заявка на универсальность выглядит достаточно серьёзно, благо опыт у разработчиков SimpleMachines есть — в состав стартапа входят бывшие исследователи и разработчики из Qualcomm, Intel и Sun Microsystems. К сожалению, данных о внутренней архитектуре Mozart пока немного. Известно лишь, что она достаточно сложна, и чип имеет собственный банк быстрой памяти HBM2. В производстве используется 16-нм техпроцесс TSMC, образцы в виде PCIe-ускорителя уже существуют «в металле», а сам чип имеет ревизию A0.

Универсальность в Mozart достигается за счет продвинутой программной части. Компилятор, созданный SimpleMachines, базируется на концепции композитных вычислений (Composable Computing) и легко интегрируется с существующими ИИ-фреймворками вроде TensorFlow. Но самое интересное то, что речь, похоже, идёт о чипе, чем-то похожем на программируемые логические матрицы (FPGA), поскольку говорится не просто о трансляции ПО, но и о некоей «реконфигурации и оптимизации аппаратной части на лету».

Ведущий разработчик SimpleMachines, Грег Райт (Greg Wright) говорит о поддержке Mozart очень крупных моделей данных и о способности выполнять до 64 различных ИИ-моделей одновременно. В планах компании он указывает разработку к концу 2021 года нового поколения процессоров такого типа на базе 7-нм техпроцесса. Ожидается, что второе поколение Mozart будет в 20 раз производительнее первого.

Новый сопроцессор благодаря своей универсальности может использоваться в самом широком спектре задач искусственного интеллекта и машинного обучения, включая такие сферы, как распознавание и классификация изображений, машинный перевод, системы рекомендаций, сетевая безопасность, обработка графики и даже секвенирование генетических последовательностей.

В качестве основных клиентов для своей платформы SimpleMachines видит крупные ЦОД, компании, связанные с обеспечением сетевой безопасности, а также страховой и финансовый секторы. Платформа будет доступна как в виде физических ускорителей с интерфейсом PCIe, так и в виде облачной услуги Symphony Cloud Service в Azure, Google Cloud и AWS. Рынок ИИ-сопроцессоров быстро растёт и ожидается, что к 2025 году его объём может достигнуть $91 млрд, но насколько хорошо проявит себя на этом рынке концепция, продвигаемая SimpleMachines, покажет время.

Постоянный URL: http://servernews.ru/1024778
03.11.2020 [01:16], Владимир Мироненко

IBM и Synopsys анонсировали открытый набор инструментов для разработки аналоговых ИИ-чипов будущего

В феврале 2019 года IBM Research открыла центр аппаратных средств ИИ (AI Hardware Center) с целью повысить эффективность вычислений ИИ в 1000 раз в течение десятилетия. В течение последних двух лет, как заявляет IBM, ей удаётся соответствовать амбициозной цели: она увеличивает эффективность вычислений в 2,5 раза в год.

Недавно IBM сообщила о двух ключевых достижениях на пути к повышению эффективности ИИ. Во-первых, IBM сделает цифровые ИИ-ядра совместимыми с экосистемой Red Hat OpenShift. Это позволит разрабатывать аппаратное обеспечение IBM параллельно с программным обеспечением Red Hat, так что к моменту выпуска оборудования ПО уже будет в полной готовности.

Во-вторых, IBM и компания Synopsys, занимающаяся автоматизацией проектирования, открывают исходный код комплекта для разработки аналоговых аппаратных ИИ-ускорителей, подчеркивая возможности, которые может предоставить аналоговое оборудование. Набор инструментов Analog AI нацелен на решение проблемы архитектуры фон Неймана, выполняя вычисления непосредственно в памяти.

По словам Мукеша Харе (Mukesh Khare), вице-президента IBM Systems Research, набор инструментов Analog AI будет доступен для стартапов, учёных, студентов и предприятий. «Они все смогут... узнать, как использовать некоторые из этих новых возможностей, которые появляются в процессе разработки. И я уверен, что сообщество сможет придумать даже лучшие способы использования этого оборудования, чем могли бы некоторые из нас», — говорит Харе.

Большую часть этого набора составляют инструменты проектирования, предоставленные Synopsys. Вместе с тем Арун Венкатачар (Arun Venkatachar), вице-президент по искусственному интеллекту и центральному проектированию Synopsys заявил, что IBM и Synopsys вместе работали над аппаратным и программным обеспечением для набора инструментов Analog AI.

Постоянный URL: http://servernews.ru/1024417
30.10.2020 [16:46], Сергей Карасёв

ИИ-ускорители Flex Logix InferX X1 готовы побороться с NVIDIA Jetson Xavier NX и Tesla T4

Компания Flex Logix анонсировала специализированные ускорители искусственного интеллекта (ИИ), предназначенные для исполнения (инференс) нейронных сетей. В основу изделий положен фирменный чип InferX X1, который, как утверждается, по ряду характеристик превосходит изделия NVIDIA Jetson Xavier NX и Tesla T4.

Решение InferX X1 имеет размеры 21 × 21 мм. В основу положены реконфигурируемые тензорные ядра nnMAX, оптимизированные под периферийные ИИ-вычисления (AI Edge). Рабочая частота в зависимости от модификации варьируется от 533 до 933 МГц. Изделие может работать с оперативной памятью LPDDR4x. Чип содержит 13 Мбайт памяти SRAM. Кроме того, упомянута поддержка интерфейса PCIe Gen 3/4.

Чип InferX X1 стал «сердцем» трёх ускорителей. В частности, представлены карты расширения InferX X1P1 и X1P4 с интерфейсом PCIe х4 и PCIe х8 соответственно. Первая содержит один блок InferX X1, вторая — четыре. Для обоих ускорителей предусмотрено низкопрофильное исполнение. Кроме того, дебютировал акселератор InferX X1M в видем модуля М.2 2280 с интерфейсом PCIe х4.

Цена новинок в зависимости от модификации и рабочей частоты составит от 399 до 999 долларов США. В ближайшее время начнутся пробные поставки, а серийное производство намечено на следующий год.

Постоянный URL: http://servernews.ru/1024237
02.10.2020 [16:47], Алексей Степин

Groq начала поставки самой быстрой в мире ИИ-платформы TSP

Системы машинного интеллекта и особенно инференс-системы, чьей задачей является принятие решений в нейросетевых сценариях обработки, требуют особого подхода к реализации аппаратной части для достижения действительно высокой производительности при приемлемом уровне энергопотребления. Стартап Groq, который ещё осенью 2019 года анонсировал свой тензорный процессор Groq TSP, начал поставки систем на базе этого чипа.

В своё время Groq наделали немало шума, заявив о создании самого быстрого ИИ-процессора с производительностью 1 Петаопс (PetaOPS, 1015 операций в секунду, обычно целочисленных), оставляющего позади даже таких монстров, как NVIDIA Tesla V100. Добиться этого удалось благодаря уникальной многоядерной архитектуре, из которой Groq исключила всё лишнее для тех задач, на которые ориентирован свой процессор.

Подход оказался плодотворным: прототип ускорителя на базе Groq TSP, работая на частоте 1 ГГц, развил 205 Тфлопс в режиме FP16 и 820 Топс в режиме INT8. Для сравнения, V100 при аналогичном потреблении 300 Ватт показала лишь 125 Тфлопс и 250 Топс соответственно. В тесте ResNet-50 новый чип смог достичь производительности на уровне 21700 распознаваний в секунду, уступив лишь проприетарному ASIC Alibaba HanGuang, недоступному для приобретения. 

Архитектура Groq TSP (Изображение: The Next Platform)

Об архитектуре Groq до недавних пор было известно немного, однако компания-разработчик, похоже, успешно набирает обороты: начались коммерческие поставки ускорителей на базе Groq TSP и даже законченных вычислительных узлов, позволяющих организовывать целые кластеры с высочайшим уровнем производительности. На днях компания рассказала The Next Platform об особенностях своих решений.

Шасси Groq (Изображение: The Next Platform)

Главной особенностью своего TSP разработчики по-прежнему называют наличие блока SRAM объёмом 220 Мбайт. Такая память обеспечивает пропускную способность на уровне 80 Тбайт/с, что является настоящим подарком для инференс-сценариев. Кроме того, теперь известно, что каждый TSP содержит два блока матричной математики (320×320 Fused Dot Product, INT8 или FP16, 32-битный аккумулятор) и один блок векторных вычислений (тензорные линейные и нелинейные вычисления в режимах INT8/16/32 и FP16/32, 5120 вычислительных элементов).

Структура узла Groq (Изображение: The Next Platform)

Как обычно, по краям кристалла расположены различные блоки ввода-вывода, в частности, контроллер PCI Express 4.0, а также два I/O-модуля для межпроцессорной связи. Последние обеспечивают Groq TSP 16 линиями с общей пропускной способностью 512 Гбайт/с, так что узким местом в многопроцессорных кластерах на базе TSP они стать не должны. Кроме того, на кристалле присутствует и небольшой блок управления, могущий оперировать очередями из 144 инструкций, так что полностью отказываться от управляющих структур в TSP разработчики всё-таки не стали.

Структура вычислительной системы на базе Groq TSP довольно проста. Она состоит из трёх функциональных блоков, два из которых занимаются собственно вычислениями и управляющего блока с классическими процессорами. Каждый из вычислительных модулей содержит по четыре ускорителя Groq TSP, соединённых по схеме «каждый с каждым» и имеет 16 свободных портов для дальнейшего масштабирования и добавления новых модулей TSP. Ускорители могут использоваться независимо, каждый для своей задачи, либо работать вместе над одной задачей, развивая большую производительность.

Стартовавший, как отдельный ускоритель, Groq TSP вырос в масштабируемый кластер

Стартовавший, как отдельный ускоритель, Groq TSP вырос в масштабируемый кластер (Изображение: The Next Platform)

Управляющая часть с точки зрения архитектуры выглядит несложно: это обычная двухпроцессорная система на базе AMD EPYC 7002, и каждый из четырёх ускорителей подключен к своему процессору посредством PCI Express 4.0 x16. В этой части используются 32-ядерные процессоры AMD и установлен общий пул оперативной памяти объёмом 1 Тбайт. Вся система занимает модифицированный стоечный корпус высотой 5U и потребляет в пределе 3,3 кВт. Производительность такого комплекса заявлена на уровне 6 Петаопс в режиме INT8 и 1,5 Пфлопс в режиме FP16.

Сервер Groq Node

Сервер Groq Node

И это далеко не предел, недаром Groq называет своё решение Node Scalable Compute System. Новинка действительно масштабируется, поскольку каждый из ускорителей имеет по четыре свободных порта интерконнекта. Стойка, разработанная и представленная Groq, может включать в себя 17 вычислительных модулей с вышеописанной архитектурой. 18-ое место занято модулем, содержащим в себе сетевые интерфейсы и дисковую подсистему.

Платформа Groq TSP способна выполнять сложнейшие вычисления в реальном времени

Без программного обеспечения любая система мертва, тем более, с учётом архитектурных особенностей Groq TSP, практически целиком полагающегося на компилятор. Компания сопровождает новые системы комплектом ПО Groqware SDK. Он включает в себя все необходимые средства разработки и набор API, что позволит разработчикам в кратчайшие сроки начать создавать ПО, в полной мере раскрывающее немалый потенциал новой платформы.

Из-за того, что Groq лучше всего раскрывается на задачах с небольшой очередью (в пределе при batch size 1), эта инференс-платформа обеспечивает великолепную латентность, что делает её привлекательной для финансовых структур. Интересна платформа и учёным, но те более заинтересованы в возможностях TSP в области классических вычислений, в частности, линейной алгебры.

Из-за этого сложилась любопытная ситуация: стартовал Groq TSP как инференс-ускоритель, но первые клиенты компании потребовали большей универсальности, так что разработчикам пришлось создать сначала Groq Node, описанный выше, а потом и целый масштабируемый кластер на базе таких узлов. Таким образом, платформа, стартовавшая как узкоспециализированное решение, эволюционировала в более  универсальный вычислительный комплекс, гибкий и масштабируемый.

Постоянный URL: http://servernews.ru/1022060
18.09.2020 [15:55], Алексей Степин

ИИ-ускоритель Qualcomm Cloud AI 100 обещает быть быстрее и экономичнее NVIDIA T4

Ускорители работы с нейросетями делятся, грубо говоря, на две категории: для обучения и для исполнения (инференса). Именно для последнего случая важна не столько «чистая» производительность, сколько сочетание производительности с экономичностью, так как работают такие устройства зачастую в стеснённых с точки зрения питания условиях. Компания Qualcomm предлагает новые ускорители Cloud AI 100, сочетающие оба параметра.

Сам нейропроцессор Cloud AI 100 был впервые анонсирован ещё весной прошлого года, и Qualcomm объявила, что этот чип разработан с нуля и обеспечивает вдесятеро более высокий уровень производительности в пересчёте на ватт, в сравнении с существовавшими на тот момент решениями. Начало поставок было запланировано на вторую половину 2019 года, но как мы видим, по-настоящему ускорители на базе данного чипа на рынке появились только сейчас, причём речь идёт о достаточно ограниченных, «пробных» объёмах поставок.

В отличие от графических процессоров и ПЛИС-акселераторов, которые часто применяются при обучении нейросетей и, будучи универсальными, потребляют при этом серьёзные объёмы энергии, инференс-чипы обычно представляют собой специализированные ASIC. Таковы, например, Google TPU Edge, к этому же классу относится и Cloud AI 100. Узкая специализация позволяет сконцентрироваться на достижении максимальной производительности в определённых задачах, и Cloud AI 100 более чем в 50 раз превосходит блок инференс-процессора, входящий в состав популярной SoC Qualcomm Snapdragon 855.

На приводимых Qualcomm слайдах архитектура Cloud AI 100 выглядит достаточно простой: чип представляет собой набор специализированных интеллектуальных блоков (IP, до 16 юнитов в зависимости от модели), дополненный контроллерами LPDDR (4 канала, до 32 Гбайт, 134 Гбайт/с), PCI Express (до 8 линий 4.0), а также управляющим модулем. Имеется некоторый объём быстрой набортной SRAM (до 144 Мбайт). С точки зрения поддерживаемых форматов вычислений всё достаточно универсально: реализованы INT8, INT16, FP16 и FP32. Правда, bfloat16 не «доложили».

Об эффективности новинки говорят приведённые самой Qualcomm данные: если за базовый уровень принять систему на базе процессоров Intel Cascade Lake с потреблением 440 Ватт, то Qualcomm Cloud AI 100 в тесте ResNet-50 быстрее на два порядка при потреблении всего 20 Ватт. Это, разумеется, не предел: на рынок новый инференс-ускоритель может поставляться в трёх различных вариантах, два из которых компактные, форм-факторов M.2 и M.2e с теплопакетами 25 и 15 Ватт соответственно. Даже в этих вариантах производительность составляет 200 и около 500 Топс (триллионов операций в секунду), а существует и 75-Ватт PCIe-плата формата HHHL производительностью 400 Топс; во всех случаях речь идёт о режиме INT8.

Данные для NVIDIA Tesla T4 и P4 приведены для сравнения

Данные для NVIDIA Tesla T4 и P4 приведены для сравнения

Основными конкурентами Cloud AI 100 можно назвать Intel/Habana Gaia и NVIDIA Tesla T4. Оба этих процессора также предназначены для инференс-систем, они гибче архитектурно — особенно T4, который, в сущности, базируется на архитектуре Turing —, однако за это приходится платить как ценой, так и повышенным энергопотреблением — это 100 и 70 Ватт, соответственно. Пока речь идёт о распознавании изображений с помощью популярной сети ResNet-50, решение Qualcomm выглядит великолепно, оно на голову выше основных соперников. Однако в иных случаях всё может оказаться не столь однозначно.

Новые ускорители Qualcomm будут доступны в разных форм-факторах

Новые ускорители Qualcomm будут доступны в разных форм-факторах

Как T4, так и Gaia, а также некоторые другие решения, вроде Groq TSP, за счёт своей гибкости могут оказаться более подходящим выбором за пределами ResNet в частности и INT8 вообще. Если верить Qualcomm, то компания в настоящее время проводит углублённое тестирование Cloud AI 100 и на других сценариях в MLPerf, но в открытом доступе результатов пока нет. Разработчики сосредоточены на удовлетворении конкретных потребностей заказчиков. Также заявлено о том, что высокая производительность на крупных наборах данных может быть достигнута путём масштабирования — за счёт использования в системе нескольких ускорителей Cloud AI 100.

В настоящее время для заказа доступен комплект разработчика на базе Cloud Edge AI 100. Основная его цель заключается в создании и отработке периферийных ИИ-устройств. Система достаточно мощная, она включает в себя процессор Snapdragon 865, 5G-модем Snapdragon X55 и ИИ-сопроцессор Cloud AI 100. Выполнено устройство в металлическом защищённом корпусе с четырьмя внешними антеннами. Начало крупномасштабных коммерческих поставок намечено на первую половину следующего года.

Постоянный URL: http://servernews.ru/1020978
27.08.2020 [19:13], Алексей Степин

TSMC и Graphcore создают ИИ-платформу на базе технологии 3 нм

Несмотря на все проблемы в полупроводниковой индустрии, технологии продолжают развиваться. Технологические нормы 7 нм уже давно не являются чудом, вовсю осваиваются и более тонкие нормы, например, 5 нм. А ведущий контрактный производитель, TSMC, штурмует следующую вершину — 3-нм техпроцесс. Одним из первых продуктов на базе этой технологии станет ИИ-платформа Graphcore с четырьмя IPU нового поколения.

Британская компания Graphcore разрабатывает специфические ускорители уже не первый год. В прошлом году она представила процессор IPU (Intelligence Processing Unit), интересный тем, что состоит не из ядер, а из так называемых тайлов, каждый из которых содержит вычислительное ядро и некоторое количество интегрированной памяти. В совокупности 1216 таких тайлов дают 300 Мбайт сверхбыстрой памяти с ПСП до 45 Тбайт/с, а между собой процессоры IPU общаются посредством IPU-Link на скорости 320 Гбайт/с.

Colossально: ИИ-сервер Graphcore с четырьмя IPU на борту

Colossально: ИИ-сервер Graphcore с четырьмя IPU на борту

Компания позаботилась о программном сопровождении своего детища, снабдив его стеком Poplar, в котором предусмотрена интеграция с TensorFlow и Open Neural Network Exchange. Разработкой Graphcore заинтересовалась Microsoft, применившая IPU в сервисах Azure, причём совместное тестирование показало самые положительные результаты. Следующее поколение IPU, Colossus MK2, представленное летом этого года, оказалось сложнее NVIDIA A100 и получило уже 900 Мбайт сверхбыстрой памяти.

Машинное обучение, в основе которого лежит тренировка и использование нейронных сетей, само по себе требует процессоров с весьма высокой степенью параллелизма, а она, в свою очередь, автоматически означает огромное количество транзисторов — 59,4 млрд в случае Colossus MK2. Поэтому освоение новых, более тонких и экономичных техпроцессов является для этого класса микрочипов ключевой задачей, и Graphcore это понимает, заявляя о своём сотрудничестве с TSMC.

Тайловая архитектура Graphcore

Тайловая архитектура Graphcore  Colossus MK2

В настоящее время TSMC готовит к началу «рискового» производства новый техпроцесс с нормами 3 нм, причём скорость внедрения такова, что первые продукты на его основе должны увидеть свет уже в 2021 году, а массовое производство будет развёрнуто во второй половине 2022 года. И одним из первых продуктов на базе 3-нм технологических норм станет новый вариант IPU за авторством Graphcore, известный сейчас как N3. Судя по всему, использовать 5 нм британский разработчик не собирается.

В планах компании явно указано использование 3-нм техпроцесса

В планах компании явно указано использование 3-нм техпроцесса

В настоящее время чипы Colossus MK2 производятся с использованием техпроцесса 7 нм (TSMC N7). Они включают в себя 1472 тайла и способны одновременно выполнять 8832 потока. В режиме тренировки нейросетей с использованием вычислений FP16 это даёт 250 Тфлопс, но существует удобное решение мощностью 1 Пфлопс — это специальный 1U-сервер Graphcore, в нём четыре IPU дополнены 450 Гбайт внешней памяти. Доступны также платы расширения PCI Express c чипами IPU на борту.

Дела у Graphcore идут неплохо, её технология оказалась востребованной и среди инвесторов числятся Microsoft, BMW, DeepMind и ряд других компаний, разрабатывающих и внедряющих комплексы машинного обучения. Разработка 3-нм чипа ещё более упрочнит позиции этого разработчика. Более тонкие техпроцессы существенно увеличивают стоимость разработки, но финансовые резервы у Graphcore пока есть; при этом не и исключён вариант более тесного сотрудничества, при котором часть стоимости разработки возьмёт на себя TSMC.

Постоянный URL: http://servernews.ru/1019252
21.08.2020 [20:34], Алексей Степин

Intel Xe готовит ускорители SG1 для обработки потокового видео силами четырёх GPU DG1

Популярность различных служб потокового видео чрезвычайно высока, и это означает, что со стороны серверов и ЦОД востребованность решений, способных в реальном времени транскодировать множество видеопотоков, так же высока. В портфолио Intel уже много лет есть серия особых ускорителей под общим названием Visual Compute Accelerator. До недавнего времени в них использовались процессоры Xeon со встроенной графикой Iris Pro, но с появлением Intel Xe VCA может получить новое дыхание.

Так был устроен Intel VCA2

Так был устроен Intel VCA2

Ускорители из серии VCA действительно уникальные решения: в стандартный двухслотовый конструктив платы расширения PCIe Intel умещала три процессора общего назначения Xeon E3-1200 v4, каждый с собственным модулем eDRAM объёмом 128 Мбайт и массивом DRAM объёмом 32 Гбайт. Такой ускоритель мог обрабатывать 14 потоков в формате 4K при 30 кадрах в секунду или 44 потока в более низком разрешении 1080p. Но не столь давно платы Intel VCA2 получили статус EOL — их жизненный цикл закончен.

Для коммутации VCA2 использвовала два чипа PEX. В SG1 придётся коммутировать PCIe для четырёх чипов

Для коммутации VCA2 использвовала два чипа PEX. В SG1 придётся коммутировать PCIe для четырёх чипов

Прямой замены VCA2 сейчас нет; по всей видимости, такая архитектура не оправдала себя в должной степени. Но, как известно, компания готовится выложить на стол новый козырь в виде графических процессоров Xe. Помимо монструозных Xe-HP, предназначенных для вычислительных задач, «синие» готовят и интегрированную Xe-LP, которая должна дебютировать в новых мобильных процессорах Tiger Lake уже 2 сентября.

Архитектура Xe-LP имеет и дискретный вариант: Discrete Graphics 1 (DG1). Прототип такой платы довольно компактен, он сопоставим по габаритам с графическими картами начального уровня AMD и NVIDIA. Судя по отсутствию дополнительных разъёмов питания, он должен укладываться в 75-ваттный пакет энергопотребления. Похоже, гипотетический ускоритель VCA3 будет называться SG1, поскольку Intel упомянула, что SG1 как раз и нацелен на применение в области ускорения обработки видео и потокового вещания. Это хорошо согласуется с «отставкой» VCA2 — ускорители на базе архитектуры Xe явно производительнее и процессорной части, и Iris Pro, тем более что отдельно последняя не выпускается.

Представитель Intel подтвердил Anandtech, что SG1 будет иметь четыре чипа DG1 на одной плате. Как и VCA2, гипотетический пока ещё VCA3/SG1 должен получить сетевую часть. Какой объём памяти будет сопровождать DG1 в этих платах, пока неизвестно, как и то, каким образом будут распределяться линии PCI Express. Уверенно можно сказать только то, что новый процессор сможет транскодировать видео в форматах AVC, HEVC, MPEG2 и VP9, а также декодировать формат AV1.

Постоянный URL: http://servernews.ru/1018823
Система Orphus