Материалы по тегу: habana

11.11.2023 [15:23], Сергей Карасёв

MLPerf: Intel улучшила производительность Gaudi2, но лидером остаётся NVIDIA H100

Консорциум MLCommons обнародовал результаты тестирования различных аппаратных решений в бенчмарке MLPerf Training 3.1, который оценивает производительность на ИИ-операциях. Отмечается, что корпорация Intel смогла существенно увеличить быстродействие своего ускорителя Habana Gaudi2, но безоговорочным лидером остаётся NVIDIA H100.

Тесты проводились на платформе Xeon Sapphire Rapids. Отмечается, что для некоторых задач Intel реализовала поддержку FP8-вычислений, благодаря чему производительность поднялась в два раза по сравнению с показателями, которые этот же ускоритель демонстрировал ранее.

Согласно результатам тестов, в бенчмарке GPT-3 ускоритель Gaudi2 ровно в два раза проигрывает решению NVIDIA H100. То же самое касается теста Stable Diffusion: при этом нужно отметить, что Gaudi2 использовал формат BF16, а H100 — FP16. В ResNet эти ускорители демонстрируют сопоставимую производительность. В тесте BERT чип H100 при использовании FP8-вычислений показал значительное преимущество перед Gaudi2, который использовал формат BF16.

 Источник изображения: MLCommons

Источник изображения: MLCommons

Сама Intel отмечает, что с внедрением поддержки FP8 система с 384 ускорителями Gaudi2 способна завершить обучение GPT-3 за 153,58 мин. При использовании 64 чипов Gaudi2 тест Stable Diffusion может быть завершён за 20,2 мин (BF16). Для тестов BERT и ResNet-50 на восьми ускорителях Gaudi2 (BF16) результат составляет 13,27 и 15,92 мин соответственно. Вместе с тем стоимость и доступность ускорителей Intel, как считается, существенно лучше, чем у решений NVIDIA.

Постоянный URL: http://www.servernews.ru/1095829
30.09.2023 [23:18], Алексей Степин

Intel отказалась от ИИ-ускорителей Habana Greco

Одним из столпов своей ИИ-платформы Intel сделала разработки поглощённой когда-то Habana Labs. Но если ускорители Gaudi2 оказались конкурентоспособными, то ветку инференс-решений Goya/Greco было решено свернуть.

Любопытно, что на мероприятии Intel Innovation 2023 имя Habana Labs не упоминалось, а использовалось исключительно название Intel Gaudi. Дела у данной платформы, базирующейся на ускорителе Gaudi2, обстоят неплохо. Так, в частности, она имеет поддержку FP8-вычислений и, согласно данным Intel, не только серьёзно опережает NVIDIA A100, но успешно соперничает с H100. Фактически в тестах MLPerf только Intel смогла составить хоть какую-то серьёзную конкуренцию NVIDIA.

 Изображение: Intel

Изображение: Intel

Однако не все разработки Habana имеют счастливую судьбу. В 2022 году одновременно с Gaudi2 был анонсирован и инференс-ускоритель Greco, поставки которого должны были начаться во II полугодии 2023 года. Но сейчас, похоже, данная платформа признана бесперспективной. Intel не только убрала все упоминания Greco со своего сайта и ни словом не обмолвилась о них на мероприятии, но и подчистила Linux-драйвер несколько дней назад. А вот появление Gaudi3 уже не за горами.

Постоянный URL: http://www.servernews.ru/1093830
22.09.2023 [10:59], Сергей Карасёв

Intel создаст мощнейший ИИ-суперкомпьютер с тысячами ускорителей Habana Gaudi2

Корпорация Intel, по сообщению сайта Datacenter Dynamics, намерена создать один из самых мощных в мире суперкомпьютеров для работы с генеративным ИИ. Ресурсы платформы будет использовать компания Stability AI, реализующая проекты в соответствующей сфере. В основу НРС-платформы лягут процессоры Xeon. Кроме того, говорится об использовании приблизительно 4000 ускорителей Gaudi2.

Проект Intel и Stability AI поможет компаниям укрепить позиции на рынке генеративного ИИ. О сроках запуска системы в эксплуатацию и её предполагаемой производительности ничего не сообщается. Ранее Intel обнародовала результаты тестирования Gaudi2 в бенчмарке GPT-J (входит в MLPerf Inference v3.1), основанном на большой языковой модели (LLM) с 6 млрд параметров. По оценкам, Gaudi2 может стать альтернативой решению NVIDIA H100 на ИИ-рынке.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

Тем не менее, H100 по-прежнему превосходит конкурентов в плане обработки ИИ-задач. Ранее NVIDIA анонсировала программное обеспечение TensorRT-LLM с открытым исходным кодом, специально разработанное для ускорения исполнения больших языковых моделей (LLM). По оценкам NVIDIA, применение TensorRT-LLM позволяет вдвое увеличить производительность ускорителя H100 в тесте GPT-J 6B. При использовании модели Llama2 прирост быстродействия по сравнению с А100 достигает 4,6x.

Постоянный URL: http://www.servernews.ru/1093430
14.09.2023 [16:55], Сергей Карасёв

Конкуренцию NVIDIA H100 в MLPerf пока может составить только Intel Habana Gaudi2

Корпорация Intel обнародовала результаты тестирования ускорителя Habana Gaudi2 в бенчмарке GPT-J (входит в MLPerf Inference v3.1), основанном на большой языковой модели (LLM) с 6 млрд параметров. Полученные данные говорят о том, что это изделие может стать альтернативой решению NVIDIA H100 на ИИ-рынке.

В частности, в тесте GPT-J ускоритель H100 демонстрирует сравнительно небольшое преимущество в плане производительности по сравнению с Gaudi2 — ×1,09 в серверном режиме и ×1,28 в оффлайн-режиме. При этом Gaudi2 превосходит ускоритель NVIDIA A100 в 2,4 раза в режиме server и в 2 раза в оффлайн-режиме.

Кроме того, решение Intel опережает H100 на моделях BridgeTower. Этот тест обучен на 4 млн изображений. Говорится, что точность Visual Question Answering (VQAv2) достигает 78,73 %. При масштабировании модель имеет ещё более высокую точность — 81,15 %, превосходя модели, обученные на гораздо более крупных наборах данных.

 Источник изображений: Intel

Источник изображений: Intel

Тест GPT-J говорит о конкурентоспособности Habana Gaudi2. При онлайн-обработке запросов этот ускоритель достигает производительности 78,58 выборки в секунду, а в автономном режиме — 84,08 выборки в секунду. Для сравнения: у NVIDIA H100 эти показатели равны соответственно 85,57 и 107,33 выборки в секунду.

В дальнейшем Intel планирует повышать производительность и расширять охват моделей в тестах MLPerf посредством регулярных обновлений программного обеспечения. Но Intel всё равно остаётся в догоняющих — NVIDIA подготовила открытый и бесплатный инструмент TensorRT-LLM, который не только вдвое ускоряет исполнение LLM на H100, но и даёт некоторый прирост производительности и на старых ускорителях.

Постоянный URL: http://www.servernews.ru/1093009
28.07.2023 [12:58], Сергей Карасёв

Серверное подразделение Intel продолжает терять выручку и терпеть убытки

Корпорация Intel отчиталась о работе во II четверти 2023 финансового года, которая была закрыта 1 июля. Общая выручка составила $12,9 млрд, что примерно на 15 % меньше результата годичной давности, когда компания получила $15,3 млрд. В текущем квартале Intel рассчитывает выручить от $12,9 млрд до $13,9 млрд.

Чистая квартальная прибыль, рассчитанная в соответствии с общепризнанными принципами бухгалтерского учёта (GAAP), зафиксирована на уровне $1,5 млрд. Для сравнения: годом ранее корпорация понесла чистые убытки в размере $454 млн.

Выручка подразделения Datacenter and AI Group (DCAI), которое отвечает за решения для ЦОД и платформ ИИ, продолжает сокращаться. В течение рассматриваемого трёхмесячного периода она составила приблизительно $4,0 млрд против $4,7 млрд годом ранее. Таким образом, падение выручки составило 15 %. При этом операционные убытки подскочили в два раза, достигнув $200 млн.

 Источник изображений: Intel

Источник изображений: Intel

Группа Network and Edge Group (NEX), специализирующееся на сетевых продуктах и периферийных вычислениях, по итогам II квартала 2023 года показала выручку около $1,4 млрд. Это на 38 % меньше результата годичной давности, составлявшего $2,2 млрд. Операционные убытки подразделения достигли $200 млн, тогда как годом ранее была зафиксирована операционная прибыль на уровне $300 млн.

Подразделение Intel Foundry Service, которое специализируется на контрактном производстве чипов, получило $232 млн выручки против $57 млн годом ранее. Операционные убытки по данному направлению составили около $143 млн.

Нужно отметить, что под руководством нынешнего генерального директора Пэта Гелсингера (Pat Gelsinger) Intel избавилась от ряда бизнес-направлений в рамках комплексной программы реструктуризации. В частности, корпорация продала свой бизнес по производству серверов тайваньской MiTAC (Tyan) и свернула разработку накопителей Optane. Кроме того, Intel отказалась от развития коммутаторов, а также закрыла программу Pathfinder for RISC-V. Вместе с тем корпорация намерена продолжить разработку ИИ-ускорителей семейства Habana Gaudi, даже несмотря на существенное ухудшение финансового положения.

Постоянный URL: http://www.servernews.ru/1090679
14.07.2023 [20:00], Владимир Мироненко

Intel представила урезанные версии ИИ-ускорителей Habana Gaudi2 для Китая

Компания Intel провела 11 июля в Пекине мероприятие для клиентов и партнёров на китайском рынке, а также местных СМИ, на котором объявила о доступности ускорителей вычислений Habana Gaudi2, модифицированных с учётом ограничений, наложенных властями США в рамках санкционной политики, сообщил The Register. Таким образом, не желая терять громадный китайский рынок, Intel последовала примеру NVIDIA, выпустившей ускорители A800 и H800, представляющие собой урезанные модификации A100 и H100 соответственно.

Представленный весной 2022 года Gaudi2 позиционируется в качестве конкурента ускорителей A100, популярных у компаний, обучающих большие языковые модели (LLM). Gaudi2 изготовлен с использованием 7-нм техпроцесса и имеет 24 тензорных блока, 96 Гбайт HBM2e и 24 порта 100GbE. Несмотря на то, что согласно внутренним данным Intel, ускоритель Gaudi2 превзошёл в два раза по производительности в тестах ResNet-50 и BERT ускоритель A100, он пока не получил такого широкого распространения, как решения NVIDIA.

 Фото: Intel

Фото: Intel

По словам Digitimes, Intel также оптимизировала ПО Gaudi2 для обучения LLM. Примечательно, что в последнем раунде MLPerf Training v3.0 только ускорители Habana смогли потягаться с чипами NVIDIA в тесте GPT-3. Ожидается, что китайские партнёры Intel, такие как Inspur, New H3C и xFusion, выпустят серверные продукты с Gaudi2. Ранее также сообщалось, что Intel планирует выпустить ускоритель Data Center GPU Max 1450 с меньшей I/O-производительностью, представляющий собой урезанную версию Data Center GPU Max 1550. Как полагает The Register, эта модель тоже в первую очередь предназначена для Китая.

Постоянный URL: http://www.servernews.ru/1089998
29.06.2023 [22:54], Алексей Степин

Intel похвасталась результатами Habana Gaudi2 и Xeon Sapphire Rapids в ИИ-бенчмарке MLPerf Training 3.0

Группа MLCommons, разработчик набора тестов для ИИ-систем MLPerf, опубликовала результаты MLPerf Training v3.0. Среди протестированных устройств есть и ускорители Habana Gaudi2, и процессоры Intel Xeon Sapphire Rapids.

В индустрии распространено мнение о том, что генеративный ИИ и большие языковые модели (LLM) создаются практически исключительно на аппаратном обеспечении NVIDIA. Но как показывают опубликованные результаты, в этом секторе Intel готова конкурировать с NVIDIA.

Программная экосистема Habana, по словам Intel, достигла необходимой степени зрелости, а решения компании позволяют говорить о конкурентоспособности даже с NVIDIA H100. Производительность и масштабируемость Gaudi2 была протестирована с помощью GPT-3 (целиком LLM обучать в рамках бенчмарка не требуется) — покорить этот рубеж в MLPerf смогли только NVIDIA и Intel. Кластер из 384 ускорителей Gaudi2 смог завершить обучение за 311 минут, а при росте количества ускорителей с 256 до 384 показал 95 % эффективность масштабирования.

 Изображения: Intel

Изображения: Intel

Также заслуживает упоминания тот факт, что по сравнению с ноябрьскими результатами Gaudi2 демонстрируют 10-% и 4-% прирост производительности в BERT и ResNet соответственно, причём обошлось без специальной отладки и оптимизации. Кластер из 32 процессоров Intel Xeon Sapphire Rapids тоже заработал «из коробки», показав неплохие в своём классе результаты. Так, в «закрытом» дивизионе он смог «справиться» BERT и ResNet-50 за 48 и 88 минут соответственно. Поддержка матричных расширений Intel Advanced Matrix Extensions (AMX) обеспечила солидный прирост производительности.

Постоянный URL: http://www.servernews.ru/1089194
03.02.2023 [15:27], Сергей Карасёв

Intel продолжит работы над ИИ-ускорителями Habana Gaudi

Корпорация Intel, по сообщению ресурса HPCwire, намерена продолжить разработку ИИ-ускорителей семейства Habana Gaudi, даже несмотря на существенное ухудшение финансового положения и различные рыночные препятствия. Как сообщил Эйтан Медина (Eitan Medina), главный операционный директор Habana Labs, компания раскроет детали о решении Gaudi3 позднее в текущем году.

В мае 2022 года Intel анонсировала ускоритель Gaudi2 (на изображении). Он несёт на борту 96 Гбайт памяти HBM2e с пропускной способностью до 2,45 Тбайт/с и 48 Мбайт памяти SRAM. Предусмотрены два основных типа вычислительных блоков — Matrix Multiplication Engine (MME) и Tensor Processor Core (TPC). Изделие выпускается в форм-факторе OAM с применением 7-нм техпроцесса.

 Источник изображения: Intel

Источник изображения: Intel

Как рассказал господин Медина, для ускорителя Gaudi3 предусмотрено применение 5-нм технологии производства. По сравнению с предшественником новинка получит больше памяти, предоставит более мощные вычислительные ресурсы и расширенные сетевые возможности. Кроме того, планируется реализация дополнительных функций.

«Мы также работаем над оценкой возможностей объединить лучшее из двух миров —архитектур Intel GPU и Habana Gaudi. Такой подход может быть реализован в четвертом поколении ускорителя», — сказал Медина. Не исключено, что Gaudi получит некоторые элементы Intel Xe, ориентированные на высокопроизводительные вычисления. Gaudi3 нацелен на глубокое обучение в корпоративных средах. По всей видимости, объединение компонентов двух изделий позволит будущим версиям Gaudi лучше конкурировать с передовыми ускорителями NVIDIA.

Постоянный URL: http://www.servernews.ru/1081341
28.09.2022 [16:48], Владимир Мироненко

Intel предложила разработчикам опробовать чипы Sapphire Rapids и Habana Gaudi2 в облаке

Компания Intel уже несколько раз переносила сроки начала масштабных поставок нескольких новейших чипов, таких как Sapphire Rapids и Habana Gaudi2. И пока что Intel предложила клиентам опробовать новинки в облаке, чтобы те уже сейчас могли начать работать с ними.

Указанные чипы будут доступны на платформе Intel Developer Cloud, анонсированной компанией на мероприятии Intel Innovation, которое проходит сейчас в Сан-Хосе (Калифорния). Облачный сервис позиционируется как услуга «попробуй и купи». Developer Cloud включает инструменты разработчика, библиотеки и пакеты разработчика, а также примеры кода.

«Вы получите доступ к процессорам Xeon-D, процессорам Habana Gaudi 2… и нашим графическим процессорам», — пообещала Лиза Спелман (Lisa Spelman), корпоративный вице-президент и гендиректор по продуктам Intel Xeon во время пресс-брифинга перед мероприятием.

 Изображения: Intel

Изображения: Intel

Запуск массового производства серверных процессоров Xeon Scalable 4-го поколения (Sapphire Rapids) уже несколько раз откладывался. Согласно последним данным, массовые поставки продукта стартуют в начале следующего года. Задержки с Sapphire Rapids, которая поддерживает новые технологии, в том числе PCIe 5.0, заставили облачные компании и производителей серверов изменить планы выпуска своих новых решений.

Целью нового облачного сервиса является предоставление клиентам доступа к новейшему оборудованию, чтобы те могли разработать приложения к старту массовых поставок чипов. Разработчики получат доступ к таким инструментам, как OneAPI и уровень абстракции SYCL, чтобы можно было развертывать стандартные приложения C++ без запуска конкретных графических процессоров или чипов ИИ для ускорения.

Аналогичным образом поступает NVIDIA, чей сервис Launchpad предлагает доступ к новейшим чипам компании, таким как GPU Hopper, для разработки и тестирования приложений ИИ.

Облачные развёртывания на платформе Intel позволят клиентам далее переносить окончательные версии приложений в другие публичные и частные облачные сервисы, использующие чипы Intel. Компания сообщила, что на этой неделе начнется бета-тестирование платформы Intel Developer Cloud, которая будет включать процессоры Sapphire Rapids в качестве раннего предложения. Intel добавит уникальные функции в Sapphire Rapids для таких приложений, как ИИ и базы данных, которые разработчики смогут тестировать в облаке.

Постоянный URL: http://www.servernews.ru/1074952
10.05.2022 [22:46], Игорь Осколков

Intel анонсировала ИИ-ускорители Habana Gaudi2 и Greco

На мероприятии Intel Vision было анонсировано второе поколение ИИ-ускорителей Habana: Gaudi2 для задач глубокого обучения и Greco для инференс-систем. Оба чипа теперь производятся с использованием 7-нм, а не 16-нм техпроцесса, но это далеко не единственное улучшение.

Gaudi2 выпускается в форм-факторе OAM и имеет TDP 600 Вт. Это почти вдвое больше 350 Вт, которые были у Gaudi, но второе поколение чипов значительно отличается от первого. Так, объём набортной памяти увеличился втрое, т.е. до 96 Гбайт, и теперь это HBM2e, так что в итоге и пропускная способность выросла с 1 до 2,45 Тбайт/с. Объём SRAM вырос вдвое, до 48 Мбайт. Дополняют память DMA-движки, способные преобразовывать данные в нужную форму на лету.

 Изображения: Intel/Habana

Изображения: Intel/Habana

В Gaudi2 имеется два основных типа вычислительных блоков: Matrix Multiplication Engine (MME) и Tensor Processor Core (TPC). MME, как видно из названия, предназначен для ускорения перемножения матриц. TPC же являются программируемыми VLIW-блоками для работы с SIMD-операциями. TPC поддерживают все популярные форматы данных: FP32, BF16, FP16, FP8, а также INT32, INT16 и INT8. Есть и аппаратные декодеры HEVC, H.264, VP9 и JPEG.

Особенностью Gaudi2 является возможность параллельной работы MME и TPC. Это, по словам создателей, значительно ускоряет процесс обучения моделей. Фирменное ПО SynapseAI поддерживает интеграцию с TensorFlow и PyTorch, а также предлагает инструменты для переноса и оптимизации готовых моделей и разработки новых, SDK для TPC, утилиты для мониторинга и оркестрации и т.д. Впрочем, до богатства программной экосистемы как у той же NVIDIA пока далеко.

Интерфейсная часть новинок включает PCIe 4.0 x16 и сразу 24 (ранее было только 10) 100GbE-каналов с RDMA ROcE v2, которые используются для связи ускорителей между собой как в пределах одного узла (по 3 канала каждый-с-каждым), так и между узлами. Intel предлагает плату HLBA-225 (OCP UBB) с восемью Gaudi2 на борту и готовую ИИ-платформу, всё так же на базе серверов Supermicro X12, но уже с новыми платами, и СХД DDN AI400X2.

Наконец, самое интересное — сравнение производительности. В ряде популярных нагрузок новинка оказывается быстрее NVIDIA A100 (80 Гбайт) в 1,7–2,8 раз. На первый взгляд результат впечатляющий. Однако A100 далеко не новы. Более того, в III квартале этого года ожидается выход ускорителей H100, которые, по словам NVIDIA, будут в среднем от трёх до шести раз быстрее A100, а благодаря новым функциям прирост в скорости обучения может быть и девятикратным. Ну и в целом H100 являются более универсальными решениями.

Gaudi2 уже доступны клиентам Habana, а несколько тысяч ускорителей используются самой Intel для дальнейшей оптимизации ПО и разработки чипов Gaudi3. Greco будут доступны во втором полугодии, а их массовое производство намечено на I квартал 2023 года, так что информации о них пока немного. Например, сообщается, что ускорители стали намного менее прожорливыми по сравнению с Goya и снизили TDP с 200 до 75 Вт. Это позволило упаковать их в стандартную HHHL-карту расширения с интерфейсом PCIe 4.0 x8.

Объём набортной памяти всё так же равен 16 Гбайт, но переход от DDR4 к LPDDR5 позволил впятеро повысить пропускную способность — с 40 до 204 Гбайт/с. Зато у самого чипа теперь 128 Мбайт SRAM, а не 40 как у Goya. Он поддерживает форматы BF16, FP16, (U)INT8 и (U)INT4. На борту имеются кодеки HEVC, H.264, JPEG и P-JPEG. Для работы с Greco предлагается тот же стек SynapseAI. Сравнения производительности новинки с другими инференс-решениями компания не предоставила.

Впрочем, оба решения Habana выглядят несколько запоздалыми. В отставании на ИИ-фронте, вероятно, отчасти «виновата» неудачная ставка на решения Nervana — на смену так и не вышедшим ускорителям NNP-T для обучения пришли как раз решения Habana, да и новых инференс-чипов NNP-I ждать не стоит. Тем не менее, судьба Habana даже внутри Intel не выглядит безоблачной, поскольку её решениям придётся конкурировать с серверными ускорителями Xe, а в случае инференс-систем даже с Xeon.

Постоянный URL: http://www.servernews.ru/1065645
Система Orphus