Материалы по тегу: tachyum

04.10.2023 [19:19], Алексей Степин

8 Зфлопс и сотни Пбайт DRAM для ИИ: Tachyum пообещала построить невиданный суперкомпьютер на чипах Prodigy, которых пока никто не видел

Компания Tachyum, разработавшая, по её утверждению, новый тип универсальных процессоров, сочетающих в себе свойства CPU, GPU и TPU заявила о первом крупном заказе на поставку этих чипов, известных под именем Prodigy. Процессоры будут использованы для создания HPC/ИИ-системы производительностью более 50 Эфлопс (точность не указана), а в ИИ-задачах и вовсе обещаны 8 Зфлопс.

Благодаря характеристикам Prodigy, новая система в 25 раз превзойдёт быстрейшие современные суперкомпьютеры, вошедшие в строй в этом году, а в области ИИ сможет использовать модели, превосходящие ChatGPT4 по сложности в 25 тыс. раз. Столь серьёзный прирост производительности, по словам разработчиков, обещает прорывы во многих научных и технических отраслях. Детали контракта, к сожалению, не разглашаются. Известно лишь, что компания-заказчик располагается в США.

 Источник изображений здесь и далее: Tachyum

Источник изображений здесь и далее: Tachyum

Как сказано в официальном пресс-релизе Tachyum, человеческий мозг состоит из примерно 100 млрд нейронов и 200 триллионов синаптических связей межу ними. Если принять одно такое соединение за несколько байт, полная имитация мозга потребует 100 Тбайт памяти. Компания говорит о системе с сотнями петабайт DRAM, что заведомо превзойдёт возможности мозга.

Начало работ над новым суперкомпьютером запланировано на 2024 год, в строй машина должна войти уже в 2025 году. Вот некоторые из её технических характеристик:

  • 8 Зфлопс при обучении больших языковых моделей (LLM);
  • 16 Зфлопс при обработке видео и изображений;
  • Возможность вместить более 100 тыс. моделей PALM2 (530 млрд параметров) или 25 тыс. моделей ChatGPT4 (1,7 трлн параметров);
  • Модернизируемая подсистема памяти объёмом сотни петабайт и флеш-хранилище объёмом порядка экзабайт;
  • Четырёхпроцессорные узлы с водяным охлаждением и 400G-интерконнектом (RoCE) и возможностью модернизации до 800G.

В программной части предполагается использование нового типа данных Tachyum AI (TAI), обещающего выдающуюся эффективность именно в обработке видео и LLM. А универсальная природа процессора Prodigy должна сделать ЦОД на его основе более простым и требующим меньше разнообразного оборудования, что должно положительно сказаться как на стоимости постройки, так и на эксплуатационных расходах.

Напомним, что не так давно Tachyum объявила об изменении характеристик Prodigy: количество ядер было увеличено со 128 до 192, объём кеша вырос соответственно со 128 до 192 Мбайт. Были расширены также коммуникационные средства чипа: число трансиверов SerDes подросло с 64 до 96. Площадь кристалла при использовании 5-нм техпроцесса должна составить 600 мм2.

Однако есть одно существенное «но»: несмотря на внушительные цифры производительности и заявления Tachyum, процессоры Prodigy существуют только на бумаге и в виде эмулируемой с помощью FPGA платформы с небольшим количеством ядер. Похоже, с их воплощением в кремний имеются проблемы. Остаётся надеяться, что они будут успешно решаться: демонстрация первых образцов Prodigy всё ещё запланирована на 2023 год.

Постоянный URL: http://www.servernews.ru/1094007
17.08.2023 [15:33], Сергей Карасёв

Tachyum увеличила количество ядер невыпущенного супепроцессора Prodigy в полтора раза — до 192 шт.

Словацкая компания Tachyum, разработчик семейства процессоров Prodigy, объявила о том, что ей удалось увеличить расчётное количество ядер своего изделия на 50 % — со 128 до 192 шт. Это стало возможным благодаря применению новых средств автоматизированного проектирования (EDA).

О разработке чипов Prodigy стало известно ещё в 2020 году. Эти суперпроцессоры, по словам создателей, объединяют возможности CPU, GPU и TPU. Они предназначены для решения ресурсоёмких задач в сфере облачных и высокопроизводительных вычислений (HPC), ИИ-систем, машинного обучения и пр.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Помимо 50-% увеличения числа ядер, на столько же выросло количество блоков SerDes — с 64 до 96. При этом площадь кристалла показала относительно небольшую прибавку: она теперь составляет 600 мм2 вместо прежних 500 мм2. Теоретически возможно добавление дополнительных ядер с попутным увеличением площади ло 858 мм2, но в этом случае возникнут ограничения в пропускной способности памяти.

Чип уже использует 16-канальный интерфейс DDR5-7200 и поддерживает работу с 32 модулями DIMM. В новой версии реализована поддержка DDR5-6400, а размер кеша L2/L3 увеличен со 128 до 192 Мбайт. Однако, несмотря на все улучшения, Prodigy пока существует только на бумаге. Компания говорит лишь, что демонстрация первых процессоров по-прежнему запланирована на 2023 год.

Постоянный URL: http://www.servernews.ru/1091629
04.08.2022 [15:54], Владимир Мироненко

Разработчик серверных чипов Prodigy с невероятными характеристиками обвинил в своих бедах Cadence

Как сообщает The Register, cтартап Tachyum подал в суд на Cadence Design Systems, обвинив компанию в саботаже при выполнении контракта на поставку IP-блоков для будущих 5-нм серверных процессоров Prodigy. По словам Tachyum, старшие 128-ядерные CPU Prodigy с частотой 5,7 ГГц будут втрое быстрее AMD EPYC 7763 и NVIDIA H100.

В иске утверждается, что заключённая в 2019 году сделка на предоставление решений Cadence для процессоров Prodigy, была сорвана, поскольку Cadence не смогла предоставить необходимые технологии для вывода продукта на рынок. Заказанные Tachyum блоки не относятся к разряду новшеств, и инженеры Cadence уверяли Tachyum, что стандартные компоненты могли быть без труда интегрированы в процессор. Однако график поставок был нарушен, и дошло даже до того, что Cadence посоветовала Tachyum не использовать её компоненты или вообще приобрести аналоги у других поставщиков.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Стартап добавил в иске, что Cadence усугубила ущерб, прекратив доступ Tachyum к ПО eDAcard, тем самым вынудив понести расходы на лицензирование другого ПО и переобучение своих инженеров. Срыв сроков и прочие препятствия привели к задержке выхода Prodigy примерно на два года. Tachyum потребовал возместить упущенную выгоду в размере $206 млн и ещё $27 млн дополнительных затрат на поиск альтернативных решений в сжатые сроки.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Tachyum также указала, что из-за срыва сроков она потеряла возможность получения заказов на поставку чипов для испанского суперкомпьютера MareNostrum 5 стоимостью €151,41 млн. В итоге Барселонский суперкомпьютерный центр (BSC), с которым был подписан меморандум о взаимопонимании, предпочёл компанию Atos. Последняя выбрала ускорители NVIDIA и процессоры Intel, поскольку ни одна европейская компания не могла бы поставить чипы, отвечающие ключевым критериям отбора.

В иске Tachyum отмечает, что тогдашний генеральный директор Cadence Лип-Бу Тан (Lip-Bu Tan) входил в совет директоров двух конкурентов Tachyum — SambaNova и Nuvia (поглощена Qualcomm) — и активно участвовал в фондах Walden International и Walden Catalyst, которые инвестировали в другие «кремниевые» стартапы. Ещё один член совета директоров Cadence, Янг Сон (Young Sohn), также является директором одного из этих инвестфондов. По мнению Tachyum, налицо явный конфликт интересов.

Постоянный URL: http://www.servernews.ru/1071558
14.06.2022 [00:00], Алексей Степин

Tachyum о процессоре Prodigy: 128 VLIW-ядер с частотой 5,7 ГГц будут потреблять 950 Вт

В виде платформы прототипирования на базе FPGA процессор Tachyum Prodigy существует и успешно запускает Linux, но четыре мощных ПЛИС симулируют лишь 8 ядер, тогда как Tachyum говорит о максимальной конфигурации реальных процессоров, содержащей 128 ядер и 16 каналов DDR5 с предельной ПСП на уровне 921,6 Гбайт/с и объёмом 8 Тбайт на процессор. Но даже нацеленность на использование продвинутого техпроцесса TSMC N5P не решает одной важной проблемы, свойственной всем процессорам типа VLIW.

Для достижения действительно высокой производительности им обычно нужна либо тщательнейшая оптимизация кода во время компиляции, либо высокая тактовая частота, которая позволит компенсировать простои исполнительного конвейера. Tachyum как минимум отчасти полагается на второй, экстенсивный путь и говорит о частоте 5,7 ГГц — это очень много даже по меркам новейших процессоров на базе архитектур x86 и Arm.

 Система симуляции кремния Tachuym Prodigy. Слева расположена плата с FPGA. Источник: Tachyum

Система симуляции кремния Tachuym Prodigy. Слева расположена плата с FPGA. Источник: Tachyum

И если модель начального уровня Prodigy T832-LP, располагая всего 32 ядрами и работая на частоте 3,2 ГГц, будет обладать теплопакетом 180 Вт, то аналогичный процессор, разогнанный до 5,7 ГГц, добирается до 300 Вт, а флагманский T16128-AIX — и вовсе до 950 Вт! И всё это несмотря на использование 5-нм технологических норм. Иными словами, потребуется серьезнейшая система охлаждения, особенно для двух- и четырёхпроцессорных серверов на базе Prodigy.

Немецкий ресурс Golem.de опубликовал цифры производительности новинок: вышеупомянутый 128-ядерный чип должен развивать до 90 Тфлопс в классическом режиме FP64 и 12 Пфлопс/Попс в сценариях инференса и обучения нейросетей. Для сравнения, AMD Instinct MI250X развивает 95,7 Тфлопс в FP64-вычислениях при мощности в районе 560 Вт, а 700-Вт SXM-версия NVIDIA H100 предложит до 60 Тфлопс в FP64-расчётах на Tensor-ядрах и 2–4 Пфлопс/Попс на вычислениях смешанной точности в зависимости от формата данных.

 Будущий модельный ряд процессоров Tachyum Prodigy. Источник: Golem.de

Будущий модельный ряд процессоров Tachyum Prodigy. Источник: Golem.de

Иными словами, как и было сказано, VLIW не отличается высокой энергоэффективностью, но у Prodigy есть одно качество, которого нет ни у Instinct, ни у Hopper — он может работать, как процессор общего назначения, выполняя любой код. Как и было рассказано ранее, каждое ядро будет содержать два 1024-битных блока векторных вычислений и 4096-битный блок матричных вычислений, а также по 64 Кбайт L1d- и L1i-кеша, 1 Мбайт L2-кеша и виртуальный L3-кеш, формируемый из L2-кешей простаивающих соседних ядер.

Архитектура Tachyum как таковая не предусматривает внеочередного исполнения, но оптимизация на уровне компилятора допускает до 4 внеочередных инструкций (4-way out-of-order issues). А благодаря ряду оптимизаций Prodigy должен продемонстрировать высочайшую степень параллелизма. Лучше всего архитектура должна показать себя с «родным» кодом, но сможет исполнять и код x86, Arm и RISC-V, правда, на текущий момент ценой потери производительности на уровне 30–40% в случае бинарной трансляции в Qemu.

 Спецификации Prodigy T16128. Источник: Tachyum

Спецификации Prodigy T16128. Источник: Tachyum

Поставка первых реальных процессоров Prodigy первого поколения намечена на конец этого или начало следующего года. Если всё пойдёт по плану, первые пробные кристаллы Prodigy будут выпущены в августе. Их площадь может не превысить 500 мм2. Полноценные образцы должны появиться в декабре, и если их работоспособность подтвердится тестированием, массовое производство может начаться уже в первой половине 2023 года.

До появления реальных чипов сложно сказать, сможет ли новинка избежать судьбы Transmeta Crusoe и Intel Itanium. Пока что сколько-то массовые серверные VLIW-процессоры по большому счёту представлены на рынке только российскими «Эльбрусами», новое поколение которых должно было выйти в этом году. В планах Tachyum уже фигурирует Prodigy 2, который будет разработан с использованием процесса TSMC N3, станет вдвое производительнее при прежнем потреблении, а также получит поддержку PCI Express 6.0.

Постоянный URL: http://www.servernews.ru/1067939
06.06.2022 [15:19], Сергей Карасёв

Tachyum начала приём заказов на тестовую платформу Prodigy Evaluation

Словацкая компания Tachyum, разработчик семейства процессоров Prodigy, сообщает о начале приёма предварительных заказов на аппаратное решение Prodigy Evaluation Platform. Эта платформа будет выпущена ограниченной серией в текущем году и станет доступна ряду квалифицированных заказчиков и партнёров.

Решение Prodigy Evaluation представляет собой сервер в форм-факторе 2U, предназначенный для тестирования универсальных чипов Prodigy. Помимо собственно процессора, платформа содержит память DDR5.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Допускается установка до четырёх высокопроизводительных процессоров Prodigy в различных конфигурациях. Такие чипы, по сути, объединяют возможности CPU, GPU и TPU. Они содержат до 128 ядер, работающих на частоте до 5,7 ГГц. Процессоры подходят для решения различных ресурсоёмких задач в сфере облаков, высокопроизводительных вычислений, ИИ-систем, машинного обучения и пр.

Платформа Prodigy Evaluation использует воздушное охлаждение. Она будет поставляться с прикладным программным обеспечением. Заказы принимаются до 31 июля 2022 года.

Постоянный URL: http://www.servernews.ru/1067366
19.05.2022 [02:15], Игорь Осколков

Tachyum готова всего за €500 млн построить монструозный ИИ-суперкомпьютер производительностью 1 Зфлопс

Tachyum продолжает рассказывать о том, как хороши её грядущие процессоры Prodigy. Вчера компания анонсировала две референсные системы, которые, по словам разработчиков, будут значительно быстрее и энергоэффективнее всех ныне существующих суперкомпьютерных платформ, даже самых производительных. Более того, платформа Tachyum якобы уже сейчас может масштабироваться до зеттафлопсного уровня.

 Изображения: Tachyum

Изображения: Tachyum

Первая система Prodigy Rack с воздушным охлаждением включает 24 2U-узла, каждый их которых содержит четыре процессора Prodigy среднего уровня — суммарно 96 CPU на стойку. В сравнении с кластером из четырёх NVIDIA DGX H100, включающем 32 ускорителя H100 (SXM), решение Tachyum обещает быть до 6,5 раз производительнее в HPC-приложениях, а в ИИ-нагрузках — до 12,5 раз быстрее (без уточнения точности вычислений). При этом по производительности и совокупной стоимости владения (TCO) оно до 16 раз лучше по сравнению с решением NVIDIA.

Вторая референсная система Prodigy Rack, на этот раз с жидкостным охлаждением, включает 36 1U-узлов. Узлы тоже четырёхпроцессорные, но уже с флагманскими 128-ядерными CPU Prodigy, работающими на частоте 5,7 ГГц. У этой системы разница в производительности с решением NVIDIA составляет до 13,5 и 27 раз для HPC- и ИИ-нагрузок соответственно, а по показателю TCO — до 10 раз. Впрочем, на бумаге сравнивать между собой два всё ещё не вышедших продукта можно сколько угодно.

Тем не менее, Tachyum предлагает Словакии построить за €70 млн новый суперкомпьютер, который в ИИ-задачах будет иметь производительность 128 Эфлопс, а в HPC — 500 Пфлопс (FP64). Эта гипотетическая система получит более 1,6 Пбайт RAM и 100-Пбайт хранилище (10 стоек), а её энергопотребление составит 9 МВт. В случае платформы с воздушным охлаждением на вычислительную часть потребуется 197 стоек, а с СЖО можно уложиться и 48 стоек.

Суперкомпьютер Tachyum должен быть всемеро быстрее суперкомпьютера NVIDIA Eos и в 25 раз производительнее машины Fugaku, нынешнего лидера TOP500. В данном случае речь идёт об ИИ-нагрузках, хотя к методике подсчёта Tachyum есть вопросы, поскольку для Eos, например, заявлено 9 Пфлопс для FP16-расчётов, а результат Fugaku в HPL-AI на вычислениях смешанной точности составляет 2 Эфлопс.

 FPGA-эмулятор Tachyum Prodigy

FPGA-эмулятор Tachyum Prodigy

Если и такого суперкомпьютера окажется недостаточно, то Tachyum готова за €500 млн построить настоящего монстра с FP64-производительностью на уровне 4 Эфлопс, а ИИ — сразу 1 Зфлопс (зеттафлопс). Именно до такого уровня, по словам компании, могут масштабироваться её Prodigy-системы первого поколения. Потреблять такая машина должна менее 70 МВт. Но, честно говоря, пока что всё это звучит слишком хорошо, чтобы быть правдой.

Постоянный URL: http://www.servernews.ru/1066207
11.05.2022 [21:40], Игорь Осколков

Tachyum анонсировала универсальные процессоры Prodigy: 128 ядер с частотой 5,7 ГГц, которые втрое быстрее AMD EPYC 7763 и NVIDIA H100

Словацкая компания Tachyum официально представила серверные процессоры Prodigy, над которыми она трудилась несколько лет. По словам создателей, это первые в мире по-настоящему универсальные чипы, которые способны одновременно заменить CPU, GPU и TPU. Более того, Tachyum заявляет, что её процессоры не только быстрее всех остальных, но и дешевле и энергоэффективнее.

Универсальность Prodigy заключается в том числе в возможности запускать бинарные файлы, собранные для архитектур x86-64, Arm и RISC-V в дополнение к нативным для данной 64-бит ISA приложениям. Tachyum говорит, что её чипы подойдут для задач ИИ и HPC, а также будут привлекательными для гиперскейлеров. Тестовые образцы компания начнёт рассылать уже в этом году, а старт массового производства намечен на первую половину 2023-го. Кроме того, компания предлагает IP-блоки TPU для инференс-систем IoT/Edge.

 Изображения: Tachyum

Изображения: Tachyum

Старшая в семействе новых 5-нм CPU, которое включает восемь устройств, модель имеет 128 унифицированных ядер, работающих на частоте 5,7 ГГц. По предварительным данным, у каждого ядра есть по 64 Кбайт L1-кеша для данных и инструкций, а также 128 Мбайт L2+L3. В деталях об архитектуре и микроархитектуре новинок пока не рассказывается, но упоминается внеочередное исполнение и возможность выполнения до четырёх инструкций за такт, а также поддержка виртуализации и расширенных RAS-функций. У каждого ядра есть два 1024-бит векторных блока и один 4096-бит матричный блок.

 FPGA-эмулятор Tachyum Prodigy

FPGA-эмулятор Tachyum Prodigy

Процессор снабжён 16-ю контроллерами памяти с поддержкой модулей DDR5-7200 суммарным объёмом до 8 Тбайт. При этом есть возможность создавать двух- и четырёхпроцессорные системы. Связь с внешним миром обеспечивают 32 контроллера PCIe, которые суммарно дают 64 линии PCIe 5.0. TDP для данной модели не указывается, но компания говорит о возможности использования воздушного и жидкостного охлаждения.

Базовые характеристики впечатляют, но ещё более удивительными выглядят заявления разработчиков о производительности будущего флагмана. В SPECrate 2017 Int он примерно вчетверо быстрее Xeon Platinum 8380 и втрое быстрее EPYC 7763, старших моделей процессоров Intel и AMD текущего поколения. Более того, компания обещает, что FP64-производительность новинок будет втрое больше, чем у грядущих ускорителей NVIDIA H100, то есть составит порядка 180 Тфлопс.

А в FP8-вычислениях производительность будет выше, чем у H100, сразу в шесть раз — 24 Пфлопс! При этом новинки, со слов Tachyum, будут энергоэффективнее всех этих чипов. Для Prodigy заявлена поддержка форматов FP64, FP32, TF32, BF16, INT8, FP8 и некоего TAI, а также работа с т.н. разреженными (sparsed) вычислениями, которые важны для ИИ-нагрузок. Правда, пока что анонс можно назвать «бумажным», поскольку детальные характеристики чипов компания не предоставила, ограничившись лишь рассказами о том, как они хороши.

Тем не менее, о прогрессе разработки Tachyum докладывает регулярно. На текущий момент компания предлагает разработчикам аппаратный эмулятор на базе FPGA — всего 8 ядер Prodigy, но с возможностью масштабирования до 64 ядер. Этот эмулятор компания сама использует для отладки ПО. Она уже адаптировала ядро Linux и базовое окружение, UEFI, KVM/QEMU, GCC, а также успешно сделала порт FreeBSD для своей архитектуры.

Постоянный URL: http://www.servernews.ru/1065734
Система Orphus