Материалы по тегу: ускоритель
16.04.2021 [00:11], Владимир Мироненко
Groq, разработчик ИИ-ускорителей TSP, привлёк ещё $300 млн инвестицийСтартап Groq Inc., специализирующийся в области ускорителей вычислений для искусственного интеллекта (AI), машинного обучения (ML) и высокопроизводительных вычислений, объявил о завершении раунда финансирования серии C, который возглавили Tiger Global Management и D1 Capital при участии The Spruce House Partnership и Addition,, а также GCM Grosvenor, Xⁿ, Firebolt Ventures, General Global Capital и Tru Arrow Partners. В результате стартапу удалось привлечь $300 млн, а общая сумма инвестиций в него составила $367 млн. ![]() Новые инвестиции позволят Groq наращивать усилия во всех направления, также расширив возможности компании по найму высококвалифицированных специалистов и ускорению разработки продуктов следующего поколения. Компания говорит, что её Tensor Streaming Processor (TSP) является самым быстрым одноядерным процессором в отрасли. Его легче программировать и он обеспечивает в 10 раз меньшую задержку по сравнению с чипами конкурентов. Новые инвестиции помогут компании достигнуть безубыточности. «ИИ ограничен существующими системами, многие из которых отслеживаются или постепенно улучшаются новыми участниками. Независимо от того, сколько денег вы вкладываете в решение этой проблемы, устаревшие архитектуры, такие как GPU и CPU, с трудом справляются с растущими требованиями искусственного интеллекта и машинного обучения, — заявил Джонатан Росс (Jonathan Ross), основатель и генеральный директор Groq. — Наша миссия более прорывная: Groq стремится раскрыть потенциал ИИ, сводя стоимость вычислений к нулю».
12.04.2021 [20:00], Сергей Карасёв
NVIDIA представила младшие серверные ускорители A10 и A30Компания NVIDIA в рамках конференции GPU Technology Conference 2021 анонсировала ускорители A10 и A30, предназначенные для обработки приложений искусственного интеллекта и других задач корпоративного класса. Модель NVIDIA A10 использует 72 ядра RT и может оперировать 24 Гбайт памяти GDDR6 с пропускной способностью до 600 Гбайт/с. Максимальное значение TDP составляет 150 Вт. Новинка выполнена в виде полноразмерной карты расширения с интерфейсом PCIe 4.0: в корпусе сервера устройство займёт один слот расширения. Производительность в вычислениях одинарной точности (FP32) заявлена на уровне 31,2 терафлопса. Новинку можно рассматривать как замену NVIDIA T4. ![]() Модель NVIDIA A30, в свою очередь, получила исполнение в виде двухслотовой карты расширения с интерфейсом PCIe 4.0. Задействованы 24 Гбайт памяти HBM2 с пропускной способностью до 933 Гбайт/с. Показатель TDP равен 165 Вт. Обе новинки используют архитектуру Ampere с тензорными ядрами третьего поколения. ![]() Решения подходят для применения в серверах массового сегмента, рабочих станциях, а также в составе платформы NVIDIA EGX и для периферийных вычислений.
12.04.2021 [20:00], Сергей Карасёв
Ускоритель NVIDIA A16 рассчитан на инфраструктуры VDIКомпания NVIDIA представила сегодня акселератор корпоративного класса A16: анонс новинки состоялся в рамках мероприятия GPU Technology Conference 2021. Ускоритель поможет в организации дистанционной работы, что актуально в текущей эпидемиологической обстановке. В такой ситуации востребованы платформы виртуальных рабочих столов (VDI). В инфраструктуре VDI среды виртуальных рабочих мест размещаются на централизованном сервере и развёртываются по запросу. Для поддержания работы таких систем как раз и предназначен ускоритель NVIDIA A16. Решение объединяет четыре графических процессора с архитектурой Ampere. Также имеются аппаратные (де-)кодеры NVENC (x4) и NVDEC (x8). ![]() Используется 64 Гбайт памяти GDDR6 — по 16 Гбайт на процессор.Устройство позволяет формировать виртуальные GPU (vGPU) с памятью объёмом 1, 2, 4, 8 или 16 Гбайт. Имеется поддержка технологий NVIDIA Virtual PC (vPC), Virtual Applications (vApps), RTX Workstation (vWS), Virtual Compute Server (vCS). Ускоритель выполнен в виде карты расширения с интерфейсом PCIe 4.0. В компьютерном корпусе новинка займёт два слота. Для дополнительного питания служит 8-контактный разъём; заявленный показатель TDP — 250 Вт. Поставки акселератора NVIDIA A16 начнутся в текущем году. Более точные сроки начала продаж и стоимость разработчик раскроет позднее.
03.04.2021 [15:29], Сергей Карасёв
Китайский ускоритель Big Island готов соперничать с решениями AMD и NVIDIAКитайская компания Shanghai Tianshu Intellectual Semiconductor Co. на этой неделе объявила о скором начале массового производства и грядущей коммерческой доступности GPGPU-ускорителей на основе чипа под именем Big Island. Названное решение — это первый ускоритель родом из КНР, для которого предусмотрена 7-нанометровая технология производства. Предполагается, что изделие составит конкуренцию продуктам AMD Instinct MI100 и NVIDIA A100, а в будущем и Intel, в сегменте центров обработки данных и платформ высокопроизводительных вычислений (HPC). ![]() Отмечается, что выпуском графических чипов Big Island займётся компания TSMC с применением своей 7-нанометровой методики FinFET, а интерпозер собственной разработки будет использовать 65-нм техпроцесс TSMC. Новинка будет иметь 24 млрд транзисторов. Ускоритель получит интерфейс PCIe 4.0 x16 и будет доступен как в виде полноразмерной карты расширения, так и в виде OAM-модуля. ![]() Tianshu Zhixin заявляет, что Big Island по производительности практически вдвое превосходит продукты для массового рынка других производителей. При этом достигается меньшее энергопотребление. В целом, новые изделия должны предложить привлекательное соотношение цены и быстродействия. ![]() Разработчик уже обнародовал изображения ускорителей и серверных продуктов на основе Big Island. А слайд ниже даёт представление о производительности новинки. Правда, о скорости вычислений FP64 создатели умалчивают. Зато сказано, что чип получит 32 Гбайт памяти HBM2 с пропускной способностью 1,2 Тбайт/с, а также поддержку виртуализации. ![]()
24.03.2021 [16:08], Сергей Карасёв
Ускоритель Intel Xe Ponte Vecchio получит более 100 млрд транзисторовИсполнительный директор Intel Пэт Гелсингер (Pat Gelsinger) в рамках мероприятия «Intel Unleashed: Engineering the Future» рассказал о реализации проекта по разработке ускорителя Ponte Vecchio, предназначенного для применения в системах высокопроизводительных вычислений (HPC). Отмечается, что немногим более чем за два года существования проекта специалистам Intel удалось добиться выдающихся результатов. В частности, уже создан опытный рабочий образец процессора. Господин Гелсингер в ходе выступления показал такое изделие. Процессор имеет «черепичный» дизайн с 47 элементами, что прекрасно видно на опубликованных изображениях. При производстве используются как 3D-компоновка Foveros, так и соединения EMIB. Общее количество используемых транзисторов превышает 100 млрд. Сообщается также, что решение обеспечивает производительность свыше одного петафлопса. Но не уточняется, о какой точности идёт речь. Для сравнения: у AMD MI100 пиковая FP64-производительность составляет 11,5 Тфлопс (и в два раза больше для FP32), а у NVIDIA A100 — 9,7 Тфлопс для FP64 и 19,5 Тфлопс для FP32. Для других форматов (bfloat16, FP16, INT4 или INT8) эти значения в разы больше у обоих ускорителей. ![]() Графические процессоры Ponte Vecchio будут применяться в тандеме с процессорами Xeon с кодовым названием Sapphire Rapids. Решения Ponte Vecchio, в частности, войдут в состав суперкомпьютера Aurora для Аргоннской национальной лаборатории Министерства энергетики США. Завершить создание этой системы планируется к концу текущего года.
19.03.2021 [23:23], Сергей Карасёв
Фотонные ИИ-сопроцессоры LightOn можно арендовать «всего» за €1900/мес.Базирующийся в Париже (Франция) стартап LightOn представил своё первое коммерческое устройство — самый мощный в мире, по словам компании, фотонный сопроцессор, предназначенный для систем искусственного интеллекта (ИИ) и высокопроизводительных вычислений. Устройство, рассчитанное на монтаж в стойку, выполнено в формате 2U. «Сердце» системы — оптический процессор (OPU) Aurora2, содержащий одно фотонное ядро Nitro второго поколения. Его быстродействие составляет 1,5 TeraOPS при показателе TDP всего в 30 Вт. В ряде задач OPU значительно быстрее CPU и GPU, и при этом потребляет намного меньше энергии. Для работы с устройством необходим сервер с Intel Xeon (на AMD тоже всё должно работать, но совместимость не проверялась), Ubuntu 18.04+ или Debian 10, Python 3.7+ и свободным слотом PCIe 2.0 x4. Поддерживаются PyTorch 1.0+ и scikit-learn, а также фирменная библиотека LightOn ML v1.2 и собственный SDK. Устройство будет доступно заказчикам на условиях аренды. Стоимость начинается с €1900/мес. (без НДС) при заключении контракта на три года. Поставки устройств начнутся в июне 2021 года. Компания также предлагает заранее сконфигурированные решения, техническую поддержку и индивидуальные обучающие курсы. Более подробную информацию о новинке можно найти здесь. Кроме того, у компании есть облачный сервис, где доступны OPU первого поколения.
25.02.2021 [17:04], Алексей Степин
IBM разработала прототип 7-нм высокоэффективного ИИ-сопроцессораВ популярных нынче вычислительных ядрах, процессорах и SoC, нацеленных на рынок машинного обучения, как правило, используются режимы вычисления с пониженной разрядностью, такие, как FP16 или даже INT8. Но для реализации обучения и инференс-систем на периферии даже восьмибитная точность может быть избыточной, а вот экономичность остаётся ключевым фактором. Компания IBM раскрыла некоторые детали относительно своего нового ИИ-чипа, предназначенного специально для периферийных систем. В последние годы наблюдается развитие так называемых периферийных вычислений, в которых первичная обработка потока «сырых» данных выполняется непосредственно в местах их получения, либо наиболее близко к таким местам. В отличие от классической обработки в ЦОД, на периферии такие ресурсы как габариты и энергоснабжение ограничены, вот почему разработчики стараются сделать такие чипы и системы как можно более экономичными и компактными. Среди них компания IBM, которая раскрыла информацию о новом прототипе ИИ-сопроцессора, предназначенном специально для систем машинного обучения и инференс-систем периферийного типа. Как сообщают источники, главным преимуществом новинки является способность выполнять вычисления с ещё менее высокой точностью, чем принято в машинном обучении, однако достаточной для ряда задач. ![]() Новая разработка IBM интересна тем, что обеспечивает сопоставимую точность обучения при использовании менее точных форматов вычислений Изначально в машинном обучении применялись классические вычислительные ядра с точностью вычислений как минимум FP32, однако для ряда случаев такая точность избыточна, а энергопотребление далеко от оптимального. В этом смысле за прошедшие пять лет именно IBM удалось добиться существенных успехов. Ещё в 2019 году компания показала возможность использования 8-битной точности с плавающей запятой для обучения, а для инференса оказалось достаточно даже 4 бит. На конференции NeurIPS 2020 компания отчиталась о дальнейших успехах в этой области: новый периферийный ИИ-сопроцессор, спроектированный с использованием 7-нм технологических норм, обеспечивает достаточно надёжные результаты при обучении в 4-битном режиме, а для инференс-задач он использует и вовсе двухбитный режим. Точность при этом достаточно высока, хотя в некоторых случаях и понижается на несколько процентов, а вот производительность оказывается почти в четыре раза выше, нежели при использовании 8-битного режима. Естественно, возможны и вычисления смешанной точности. ![]() За счёт сочетания пониженной точности и тонкого техпроцесса обеспечивается высокая энергоэффективность, и IBM не без оснований считает, что такие процессоры займут место классических там, где их возможностей достаточно, например, в машинном зрении и системах распознавания речи. Кроме того, IBM разработала новый алгоритм сжатия ScaleCom, позволяющий очень эффективно сжимать именно данные машинного обучения. Говорится о возможности сжатия в 100, а в некоторых случаях и в 400 раз. Подробности можно узнать на сайте компании.
23.01.2021 [21:18], Алексей Степин
Китайский ускоритель Zhaoxin Big Island обещает составить конкуренцию AMD и NVIDIAГрафические процессоры уже давно ускоряют не только графику, но и активно используются для вычислений различного рода, включая задачи машинного обучения. Но дуумвират AMD и NVIDIA подошёл к концу. Помимо Intel с её архитектурой Xe, на рынок ускорителей вышла китайская Zhaoxin Semiconductor. Компания это сравнительно молодая, она была основана в 2013 году как совместное предприятие с некогда популярным производителем VIA Technologies. Инициатором создания Zhaoxin выступило правительство Шанхая. Наряду с наработками в области архитектуры x86, в распоряжение компании попали и разработки бывшей S3 Graphics. В 2020 году компания объявила о намерении выпускать дискретные графические ускорители. ![]() Изначально речь шла о достаточно бюджетном решении. Об этом свидетельствовало намерение использовать уже далеко не новый 28-нм техпроцесс TSMC и уложиться при этом в теплопакет в районе 70 Ватт. Из-за санкций США Zhaoxin отказалась от использования 16-нм техпроцесса. Однако сейчас, похоже, большую часть проблем удалось преодолеть: компания анонсировала первый китайский ускоритель на базе собственной архитектуры и 7-нм техпроцесса! ![]() В распоряжении Zhaoxin Semiconductor собственных полупроводниковых фабрик нет. Конкретного имени контрактного производителя для своей новинки под именем Big Island она не называет, но большую часть 7-нм чипов на сегодня производит TSMC. На тайваньского гиганта указывает и сайт Zhaoxin, там же упоминаются известные разработчики полупроводниковых решений Synopsys и Mentor Graphics. Кроме того, компания подтверждает использование в Big Island компоновки 2.5DCoWoS (2.5D chip-on-wafer-on-substrate), впервые использованной TSMC, так что сомнений насчёт того, кто производит новинку, остаётся немного. ![]() Процессор достаточно сложен, он состоит из 24 млрд транзисторов, что, впрочем, существенно меньше, чем у NVIDIA A100 с его 54 млрд. Тем не менее, поддерживается большинство популярных форматов вычислений, включая FP16, FP32, INT32 и bfloat16. В режиме FP16 пиковая производительность достигает 147 Тфлопс, что выше, нежели 78 Тфлопс A100. Впрочем, лидером здесь является AMD Instinct MI100 с производительностью 184 Тфлопс. Разработка новой архитектуры, как сообщают зарубежные источники, была начата в 2018 году, а первые образцы кремния увидели свет ещё в мае 2020 года, то есть у Zhaoxin было достаточно много времени, чтобы довести Big Island до ума. Ожидается, что массовое производство нового чипа будет развёрнуто в этом году, но точные временные рамки пока неизвестны.
29.12.2020 [14:58], Владимир Мироненко
Производитель ИИ-чипов Graphcore получил $222 млн инвестиций и теперь оценивается почти в $3 млрдПроизводитель ИИ-чипов Graphcore провёл раунд финансирования серии E, в ходе которого собрал $222 млн инвестиций. Генеральный директор и соучредитель Graphcore Найджел Тун (Nigel Toon) сообщил ресурсу TechCrunch, что с учётом этого раунда компания получила в общей сложности $440 млн и оценивается в $2,77 млрд. По его словам, полученные средства компания направит на решение нескольких ключевых задач. Во-первых, благодаря финансированию Graphcore продолжит работу над своей технологией, основанной на архитектуре IPU (Intelligence Processing Unit, интеллектуальный сопроцессор), которая конкурирует с чипами NVIDIA и Intel, тоже оптимизированными для приложений ИИ. Во-вторых, деньги также будут использованы для поддержки финансов Graphcore перед возможным первичным публичным размещением (IPO). ![]() Graphcore «У нас сильные позиции, чтобы удвоить ставки и быстро расти, а также воспользоваться открывающимися перед нами возможностями», — заявил Найджел Тун. Он отметил, что было бы «преждевременным» считать эту серию E как раунд «перед IPO» и добавил: «У нас достаточно денег, и это даёт нам возможность сделать следующий шаг», всё же намекая на такой вариант. По слухам, в последние недели компания рассматривает возможность проведения IPO не на родине (в Великобритании), а на бирже Nasdaq в США. В июле Graphcore выпустила второе поколение своего флагманского чипа GC200 и основанную на нём систему IPU Machine M2000, которую компания описывает как первый ИИ-компьютер с одним петафлопсом вычислительной мощности «размером с коробку из-под пиццы».
10.12.2020 [13:04], Юрий Поздеев
Esperanto представила энергоэффективный ИИ-чип ET-SoC-1 с более чем 1000 ядрами RISC-VНа саммите RISC-V компания Esperanto представила новый чип, предназначенный для машинного обучения, который содержит 1089 ядер с низким энергопотреблением. Компания Esperanto была создана в 2014 году и за последние несколько лет смогла привлечь $77 млн венчурного капитала, что позволило ей разработать несколько новых чипов на базе архитектуры RISC-V. ![]() Новый 64-бит чип Esperanto ET-SoC-1 будет иметь два комплекта ядер: ET-Maxion, представляющий собой высокопроизводительное решение, и ET-Minion — компактное энергоэффективное решение c векторным/тензорным ускорением операций для машинного обучения. Чипы ET-SoC-1 будут выпускаться по 7-нм технологии TSMC, при этом количество транзисторов достигает внушительных 23,8 млрд. До сих пор для рабочих нагрузок ИИ и машинного обучения использовались GPU, которые обладают унифицированными ядрами, однако имеют большое энергопотребление. Решения от Esperanto, как утверждает компания, способны обеспечить больше производительности в пересчете на Вт потребляемой мощности. ![]() ET-Maxion изначально основано на архитектуре процессора Berkeley Out-Of-Order (BOOM) RISC-V с открытым исходным кодом. Хотя Esperanto и планирует значительное расширение архитектуры, преемственность сохраняется, что особенно важно для разработанных решений под данную архитектуру. Esperanto продолжит поддержку репозитория BOOM, однако все расширения технологии будут иметь отдельную платную лицензию. ![]() Ядра ET-Minion разработаны для вычислений с плавающей точкой, он использует 64-битный набор команд RISC-V (in-order), с расширением DSЕ и дополнительными инструкциями для ускорения тензорных и векторных операций, которые могут выполняться параллельно (до 4 потоков). Готовое решение (SoC) будет включать в себя 16 ядер ET-Maxion RISC-V с кешем L1 и L2, 4096 ядер ET-Minion RISC-V, а также аппаратные ускорители. Решение будет иметь единое адресное пространство между ядрами, обеспечивая согласованную поддержку кеш-памяти. Esperanto уже разработала компилятор для своего решения, которое показало себя более энергоэффективным в сравнении с GPU. Обещана поддержка всех основных фреймворков для машинного обучения. ![]() Не стоит думать, что подобные решения отберут значительную долю рынка у GPU: NVIDIA приобретает Arm и собирается выпускать решения на этой архитектуре, которая может составить достойную конкуренцию RISC-V. А сама ниша подобных специализированных решений уже достаточно насыщена: Xilinx, Mythic, Groc, Intel и многие другие компании выпускают энергоэффективные чипы для ускорения разного типа ИИ-нагрузок. |
|