Материалы по тегу: cpu

22.09.2021 [21:16], Алексей Степин

Выпущена тестовая партия европейских высокопроизводительных RISC-V процессоров EPI EPAC1.0

Наличие собственных высокопроизводительных процессоров и сопровождающей их технической инфраструктуры — в современном мире вопрос стратегического значения для любой силы, претендующей на первые роли. Консорциум European Processor Initiative (EPI), в течение долгого времени работавший над созданием мощных процессоров для нужд Евросоюза, наконец-то, получил первые весомые плоды.

О проекте EPI мы неоднократно рассказывали читателям в 2019 и 2020 годах. В частности, в 2020 году к консорциуму по разработке мощных европейских процессоров для систем экза-класса присоединилась SiPearl. Но сегодня достигнута первая серьёзная веха: EPI, насчитывающий на данный момент 28 членов из 10 европейских стран, наконец-то получил первую партию тестовых образцов процессоров EPAC1.0.

По предварительным данным, первичные тесты новых чипов прошли успешно. Процессоры EPAC имеют гибридную архитектуру: в качестве базовых вычислительных ядер общего назначения в них используются ядра Avispado с архитектурой RISC-V, разработанные компанией SemiDynamics. Они объединены в микро-тайлы по четыре ядра и дополнены блоком векторных вычислений (VPU), созданным совместно Барселонским Суперкомпьютерным Центром (Испания) и Университетом Загреба (Хорватия).

Строение кристалла EPAC1.0

Строение кристалла EPAC1.0

Каждый такой тайл содержит блоки Home Node (интерконнект) с кешем L2, обеспечивающие когерентную работу подсистем памяти. Имеется в составе EPAC1.0 и описанный нами ранее тензорно-стенсильный ускоритель STX, к созданию которого приложил руку небезызвестный Институт Фраунгофера (Fraunhofer IIS). Дополняет картину блок вычислений с изменяемой точностью (VRP), за его создание отвечала французская лаборатория CEA-LIST. Все ускорители в составе нового процессора связаны высокоскоростной сетью, использующей SerDes-блоки от EXTOLL.

Первые 143 экземпляра EPAC произведены на мощностях GlobalFoundries с использованием 22-нм техпроцесса FDX22 и имеют площадь ядра 27 мм2. Используется упаковка FCBGA 22x22. Тактовая частота невысока, она составляет всего 1 ГГц. Отчасти это следствие использования не самого тонкого техпроцесса, а отчасти обусловлено тестовым статусом первых процессоров.

Но новорожденный CPU жизнеспособен: он успешно запустил первые написанные для него программы, в числе прочего, ответив традиционным «42» на главный вопрос жизни и вселенной. Ожидается, что следующее поколение EPAC будет производиться с использованием 12-нм техпроцесса и получит чиплетную компоновку.

Постоянный URL: http://servernews.ru/1049663
08.09.2021 [19:00], Алексей Степин

Intel представила процессоры Xeon E-2300: Rocket Lake-E для серверов и рабочих станций начального уровня

В современном мире нагрузки на процессор год от года становятся всё сложнее и объёмнее, и не только крупные ЦОД нуждаются в архитектурных новшествах и новых наборах инструкций — малому бизнесу также требуются чипы нового поколения. Корпорация Intel ответила на это выпуском новых процессоров Xeon серии E-2300 и соответствующей платформы для них. Новинки стали быстрее и получили долгожданную поддержку PCI Express 4.0.

Платформа Xeon E-2x00 не обновлялась достаточно давно: процессоры серии E-2200 были представлены ещё в 2019 году. На тот момент это был действительно прорыв в сегменте чипов Intel начального уровня — они впервые получили до 8 ядер Coffee Lake-S, а поддерживаемый объём памяти вырос с 64 до 128 Гбайт. Однако на сегодня таких возможностей уже может оказаться недостаточно: у E-2200 нет AVX-512 с VNNI, шина PCIe ограничена версией 3.0, а графическое ядро HD Graphics P630 и по меркам 2019 года быстрым назвать было нельзя.

10 новых процессоров Xeon E-2300, анонсированных Intel сегодня, должны заполнить пустующую нишу младших бизнес-решений. Нововведений в новой платформе не так уж мало, как может показаться на первый взгляд, ведь максимальное количество процессорных ядер у Xeon E-2300 по-прежнему восемь. Однако их максимальная частота выросла до 5,1 ГГц. Изменился процессорный разъём, теперь это LGA1200.

Ядра 11-го поколения Rocket Lake-E (Cypress Cove) по-прежнему используют 14-нм техпроцесс, но оптимизированная микроархитектура позволила Xeon E-2300 быть быстрее соответствующих моделей предыдущего поколения на 17%, и это без учёта качественных нововведений — теперь у них есть AVX-512 с поддержкой инструкций VNNI, ускоряющих работу нейросетей.

Нововведения касаются и вопросов информационной безопасности, в которой малый бизнес нуждается не меньше крупного. Как и «большие» Xeon на базе Ice Lake-SP, процессоры Xeon E-2300 получили «взрослую» поддержку защищённых анклавов SGX объёмом до 512 Мбайт, что существенно выше максимально доступных для прошлого поколения Xeon E 64 Мбайт. Максимальный объём памяти остался прежним, но скорость подросла — до 128 Гбайт DDR4-3200 ECC UDIMM в двух каналах (2DPC).

Весьма важно также появление нового графического ядра с архитектурой Xe-LP. Конечно, высокой 3D-производительности от него ждать не стоит, но даже в этом оно на шаг впереди устаревшей архитектуры. К этому стоит добавить поддержку HDMI 2.0b и DP 1.4a, аппаратное декодирование 12-бит HEVC и VP9 и 10-бит AV1, а также кодирование в 8-бит AVC и 10-бит HEVC и VP9.

Поддержка PCIe 4.0 пришла и на платформу Xeon E — новые процессоры могут предложить 20 линий PCIe 4.0, причём с поддержкой бифуркации. Ещё 24 линии PCIe 3.0 включает чипсет серии C250. В нём же имеется поддержка 8 портов SATA-3 и USB 3.2 Gen 2x2 — до трёх портов со скоростью 20 Гбит/с. Сетевая часть может быть реализована как на базе недорогих чипов i210, так и более производительных i225 (2,5 Гбит/с) или x550 (10 Гбит/с).

В новой серии, как уже было сказано, представлено 10 процессоров, стоимостью от $182 до $539 и теплопакетами от 65 до 95 Вт. Лишь две младшие модели в списке не имеют поддержки Hyper-Threading. Все Xeon E-2300 располагают встроенным движком Manageability Engine 15 и поддержкой Intel Server Platform Services 6, облегчающей развёртывание и удалённое управление. Свои решения на базе новой платформы представят все ведущие производители серверного оборудования.

Постоянный URL: http://servernews.ru/1048355
01.09.2021 [23:58], Андрей Галадей

Ветераны индустрии основали стартап Ventana для создания чиплетных серверных процессоров RISC-V

Стартап Ventana Micro Systems, похоже, намерен перевернуть рынок серверов. Компания заявила о разработке высокопроизводительных процессоров на архитектуре RISC-V для центров обработки данных. Первые образцы фирменных CPU будут переданы клиентам во второй половине следующего года, а поставки начнутся в первой половине 2023 года. При этом процессоры получат чиплетную компоновку — различные модули и кристаллы на общей подложке.

Основные процессорные ядра разработает сама Ventana, а вот остальные чиплеты будут создаваться под нужды определённых заказчиков. CPU-блоки будут иметь до 16 ядер, которые, как обещается, окажутся быстрее любых других реализаций RV64. Использование RISC-V позволит разрабатывать сверхмощные решения в рекордные сроки и без значительного бюджета. Ядра будут «выпекаться» на TSMC по 5-нм нормам, но для остальных блоков могут использовать другие техпроцессы и фабрики.

Ventana будет следить за процессом их создания и упаковывать до полудюжины блоков в одну SoC. Для соединения ядер, кеша и других компонентов будет использоваться фирменная кеш-когерентная шина, которая обеспечит задержку порядка 8 нс и скорость передачи данных 16 Гбит/с на одну линию. Основными заказчиками, как ожидается, станут гиперскейлеры и крупные IT-игроки, которым часто требуется специализированное «железо» для ЦОД, 5G и т.д.

Сегодня Ventana объявила о привлечении $38 млн в рамках раунда B. Общий же объём инвестиций составил $53 млн. Компания была основана в 2018 году. Однако это не совсем обычный стартап — и сами основатели, и команда являются настоящими ветеранами индустрии. Все они имеют многолетний опыт работы в Arm, AMD, Intel, Samsung, Xilinx и целом ряде других крупных компаний в области микроэлектроники. Часть из них уже имела собственные стартапы, которые были поглощены IT-гигантами.

Постоянный URL: http://servernews.ru/1048096
01.09.2021 [20:25], Алексей Степин

На прототипе уникального серверного процессора Tachyum Prodigy успешно запущен Linux

Компания Tachyum, нацелившаяся ни много ни мало на соперничество с AMD, Ampere и Intel в сегменте серверных процессоров, добилась очевидного прогресса в разработке проекта Prodigy. Пока этот процессор существует лишь в виде реализации на ПЛИС, но даже в такой виде он уже способен запустить Linux.

Проект Prodigy выглядит, напомним, весьма амбициозно: речь идёт о создании полноценного «большого» процессора для ЦОД и серверов, причём процессора 128-ядерного. Разработка продвигается небыстро, поскольку речь идёт о чрезвычайно сложном CPU. Лишь два месяца назад компания отчиталась о поставке I/O-плат для аппаратных эмуляторов Prodigy, однако сейчас достигнута серьёзная веха.

Системная плата комплекса эмуляции Tachyum Prodigy

Системная плата комплекса эмуляции Tachyum Prodigy

Следует отметить, что речи пока не идёт о «настоящем» кремнии Prodigy, а лишь об FPGA-реализации этой архитектуры. Такой аппаратный эмулятор Tachyum протестировала ещё в начале прошлого года. Системная плата эмулятора несёт четыре мощных программируемых матрицы, способных имитировать работу восьми ядер Prodigy. Она дополнена платами ввода/вывода, а вся система предназначается для установки в стандартную 19" стойку.

Основные особенности новой архитектуры

Основные возможности нового процессора

Даже наличие ПЛИС-прототипа не гарантирует успешную работу на нём высокоуровневого кода, ведь в ранних реализациях архитектуры неизбежных ошибки и недоработки. Надо сказать, что загрузчик UEFI для Prodigy существовал и ранее, и вместе с его анонсом была объявлена поддержка со стороны ядра Linux, но лишь к сегодняшнему дню комплексы эмуляции Tachyum Prodigу, можно сказать, достигли нужной степени зрелости.

Архитектура Prodigy изначально разрабатывается, как универсальная

Архитектура Prodigy изначально разрабатывается, как универсальная

Тестовая система смогла успешно загрузить Linux и простую пользовательскую программу, после чего выполнить отключение. По сути, перед нами доказательство того, что базовые функции Prodigy работают стабильно: процессор отрабатывает прерывания и исключения, переключает режимы и имеет корректные тайминги. А значит, Tachyum и её партнёры, наконец-то, могут перейти к разработке системного и, в меньшей степени, пользовательского ПО для новой платформы.

Сам процессор Prodigy сможет работать не только с «родным» кодом, но и запускать код для x86, ARM и RISC-V, что облегчит выход на рынок. Разработчики утверждают, что их детище сможет обеспечить рекордное соотношение цены к производительности, будучи на порядок более экономичным, нежели традиционные серверные процессоры. В настоящее время тестовая система уже доступна заказчикам. Появление первых референсных системных плат с настоящими процессорами Prodigy намечено на первый квартал 2022 года.

Постоянный URL: http://servernews.ru/1048103
24.08.2021 [04:11], Алексей Степин

IBM представила процессоры Telum: 8 ядер, 5+ ГГц, L2-кеш 256 Мбайт и ИИ-ускоритель

Финансовые организации, системы бронирования и прочие операторы бизнес-критичных задач любят «большие машины» IBM за надёжность. Недаром литера z в названии систем означает Zero Downtime — нулевое время простоя. На конференции Hot Chips 33 компания представила новое поколение z-процессоров, впервые в истории получившее собственное имя Telum (дротик в переводе с латыни). «Оружейное» название выбрано неспроста: в новой архитектуре IBM внедрила и новые, ранее не использовавшиеся в System z решения, предназначенные, в частности, для борьбы с фродом.

Пластина с кристаллами IBM Telum

Пластина с кристаллами IBM Telum

Одни из ключевых заказчиков IBM — крупные финансовые корпорации и банки — давно ждали встроенных ИИ-средств, поскольку их системы должны обрабатывать тысячи и тысячи транзакций в секунду, и делать это максимально надёжно. Одной из целей при разработке Telum было внедрение инференс-вычислений, происходящих в реальном времени прямо в процессе обработки транзакции и без отсылки каких-либо данных за пределы системы.

Поэтому инференс-ускоритель в Telum соединён напрямую с подсистемой кешей и использует все механизмы защиты процессора и памяти z/Architecture. И сам он тоже несёт ряд характерных для z подходов. Так, управляет работой акселератора отдельная «прошивка» (firmware), которую можно менять для оптимизации задач конкретного клиента. Она выполняется на одном из ядер и собственно ускорителе, который общается с данным ядром, и отвечает за обращения к памяти и кешу, безопасность и целостность данных и управление собственно вычислениями.

Акселератор включает два вида движков. Первый имеет 128 SIMD-блоков для MAC-операций с FP16-данными и нужен для перемножения и свёртки матриц. У второго всего 32 SIMD-блока, но он может работать с FP16/FP32-данными и оптимизирован для функций активации сети и других, более комплексных задач. Дополняет их блок сверхбыстрой памяти (scratchpad) и «умный» IO-движок, ответственный за перемещение и подготовку данных, который умеет переформатировать их на лету.

Scratchpad подключён к блоку, который подкачивает данные из L2-кеша и отправляет обратно результаты вычислений. IBM отдельно подчёркивает, что наличие выделенного ИИ-ускорителя позволяет параллельно использовать и обычные SIMD-блоки в ядрах, явно намекая на AVX-512 VNNI. Впрочем, в Sapphire Rapids теперь тоже есть отдельный AMX-блок в ядре, который однако скромнее по функциональности.

Доступ к ускорителю возможен из пространства пользователя, в том числе в виртуализированном окружении. Для работы с новым ускорителем компания предлагает IBM Deep Learning Compiler, который поможет оптимизировать импортируемые ONNX-модели. Также есть готовая поддержка TensorFlow, IBM Snap ML и целого ряда популярных средств разработки. На процессор приходится один ИИ-ускоритель производительностью более 6 Тфлопс FP16.

На тестовой RNN-модели для защиты от фрода чип может выполнять 116 тыс. инференс-операций с задержкой в пределах 1,1 мс, а для системы из 32 процессоров этот показатель составляет уже 3,6 млн инференс-операций, а латентность при этом возрастает всего лишь до 1,2 мс. Помимо ИИ-акселератора также имеется общий для всех ядер ускоритель (де-)компрессии (gzip) + у каждого ядра есть ещё и движок для CSMP. Ну и ускорители для сортировки и шифрования тоже никуда не делись.

За надёжность отвечают сотни различных механизмов проверки и перепроверки работоспособности. Так, например, регистры и кеш дублируются, позволяя в случае сбоя ядра сделать его полную перезагрузку и продолжить выполнение задач ровно с того места, где оно прервалось. А для оперативной памяти, которая в обязательном порядке шифруется, используется режим Redundant Array of Memory (RAIM), своего рода RAID-массив, где одна кеш-линия «размазывается» сразу между восемью модулями.

Telum, унаследовав многое от своего предшественника z15, всё же кардинально отличается от него. Процессор содержит восемь ядер с поддержкой «умного» глубокого внеочередного исполнения и SMT2, работающих на частоте более 5 ГГц. Каждому ядру полагается 32 Мбайт L2-кеша, так что на его фоне другие современные CPU выглядят блекло. Но не всё так просто.

IBM Telum

IBM Telum

Между собой кеши общаются посредством двунаправленной кольцевой шины с пропускной способностью более 320 Гбайт/с, формируя таким образом виртуальный L3-кеш объёмом 256 Мбайт и со средней задержкой в 12 нс. Каждый чип Telum может содержать один (SCM) или два (DCM) процессора. А в одном узле может быть до четырёх чипов, то есть до восьми CPU, объединённых по схеме каждый-с-каждым с той же скоростью 320 Гбайт/с.

Таким образом, в рамках узла формируется виртуальный L4-кеш объёмом уже 2 Гбайт. Плоская топология кешей, по данным IBM, обеспечивает новым процессорам меньшую латентность в сравнении с z15. Масштабирование возможно до 32 процессоров, но отдельные узлы связаны несколькими подключениями со скоростью «всего» 45 Гбайт/с в каждую сторону.

В целом, IBM говорит о 40% прироста производительности в сравнении с z15 в пересчёте на сокет. Telum содержит 22 млрд транзисторов и имеет TDP на уровне 400 Вт в нормальном режиме работы. Процессор будет производиться на мощностях Samsung с использованием 7-нм техпроцесса EUV. Он станет основной для мейнфреймов IBM z16 и LinuxNOW. Программной платформой всё так же будут как традиционная z/OS, так и Linux.

Постоянный URL: http://servernews.ru/1047371
24.08.2021 [01:45], Игорь Осколков

Intel Xeon Sapphire Rapids получат UMA-режим, динамический балансировщик нагрузки DLB и поддержку CXL на всех линиях PCIe

На мероприятии Architecture Day Intel, наконец, поделилась некоторыми подробностями о будущих серверных процессорах Xeon Sapphire Rapids, которые станут доступны в первой половине 2022 года. Правда, презентация оставила больше вопросов, чем ответов. Но на HotChips 33 представители компании дали некоторые пояснения и чуть более подробно рассказали о части нововведений.

Например, компания назвала типичный уровень задержек между отдельными тайлами, соединёнными между собой десятью EMIB-мостиками — в среднем от 4 до 8 нс (но не более 10 нс) за один переход по мостику. Причём этот показатель может чуть плавать в зависимости от обращения к соседу слева/справа или снизу/сверху (подключений по диагонали нет). Поскольку все ресурсы для всех тайлов и ядер/потоков общие, наихудшая ситуация наступает тогда, когда запрос и ответ к памяти соседнего тайла пойдут в обход по всем тайлам. То есть на пути туда-обратно запрос совершит четыре перехода по мостикам.

Избавиться от такой ситуации можно как формированием NUMA-кластеров, так и новым UMA-режимом (квадрант в терминологии Intel), в котором  системный агент каждого тайла «привязывается» к контроллеру памяти на том же самом тайле. Это требует симметричного размещения памяти на всех контроллерах, зато снижает задержки (как при использовании NUMA), сохраняя при этом «цельность» процессора при взгляде со стороны, то есть не требует модификации ПО. Вероятно, именно этот режим работы будет рекомендовано использовать по умолчанию.

Число линий PCIe так и не было названо, однако было сказано, что все они будут поддерживать CXL (блоками по x16) — у AMD EPYC Genoa, если верить утечкам, это не так. Режим работы будет автоматически выбираться в зависимости от типа устройства при загрузке. Интересно, что ускорители Ponte Vecchio, вероятно, будут поддерживать только PCIe-режим. Это, правда, не помешает реализовать обещанную когда-то поддержку общей когерентной памяти в связке CPU-GPU.

Кроме того, текущая реализация CXL не поддерживает режим Type 3, который, в частности, позволяет наращивать объём доступной CPU памяти путём подключения внешних блоков DRAM/SCM. Дополнительно отмечено, что HBM-память, тоже подключаемая посредством EMIB, будет иметь собственные контроллеры, так что все 8 каналов DRAM никуда не денутся. Любопытно, что SKU с малым числом ядер будут иметь то же число каналов памяти, линий PCIe/UPI и т.д., но при этом могут оказаться вовсе не состоящими из тайлов.

Помимо прочего, докладчик поделился некоторыми сведениями о новых или расширенных возможностях Sapphire Rapids. В частности, они получат поддержку Virtual Shared Memory, позволяющую ПО, использующему CPU и ускорители (интегрированные или дискретные), иметь для удобства работы единое адресное пространство с поддержкой целостности и когерентности памяти. В том числе для виртуальных машин. Для них же (и для контейнеров) пригодится технология Intel Scalable IO Virtualization (S-IOV), расширяющая возможности SR-IOV.

Про акселераторы DSA и QAT уже говорилось в прошлый раз. Сейчас же было немного рассказано про DLB (Dynamic Load Balancer), динамический балансировщик нагрузки, который распределяет её между ядрами, принимая решения 400 млн раз в секунду, и ускоряет операции, связанные с этим процессом. Он отслеживает потребление ресурсов и позволяет задать приоритеты для различных нагрузок. Для работы со всеми этими ускорителями и нужен новый набор инструкций AiA (Accelerator Interfacing Architecture), который позволяет управлять ими из режима пользователя.

Постоянный URL: http://servernews.ru/1047385
19.08.2021 [16:00], Игорь Осколков

Intel представила Xeon Sapphire Rapids: четырёхкристалльная SoC, HBM-память, новые инструкции и ускорители

В рамках Architecture Day компания Intel рассказала о грядущих серверных процессорах Sapphire Rapids, подтвердив большую часть опубликованной ранее информации и дополнив её некоторыми деталями. Intel позиционирует новинки как решение для более широкого круга задач и рабочих нагрузок, чем прежде, включая и популярные ныне микросервисы, контейнеризацию и виртуализацию. Компания обещает, что CPU будут сбалансированы с точки зрения вычислений, работой с памятью и I/O.

Новые процессоры, наконец, получили чиплетную, или тайловую в терминологии Intel, компоновку — в состав SoC входят четыре «ядерных» тайла на техпроцессе Intel 7 (10 нм Enhanced SuperFIN). Каждый тайл объединён с соседом посредством EMIB. Их системные агенты, включающие общий на всех L3-кеш объём до 100+ Мбайт, образуют быструю mesh-сеть с задержкой порядка 4-8 нс в одну сторону. Со стороны процессор будет «казаться» монолитным.

Каждые ядро или поток будут иметь свободный доступ ко всем ресурсам соседних тайлов, включая кеш, память, ускорители и IO-блоки. Потенциально такой подход более выгоден с точки зрения внутреннего обмена данными, чем в случае AMD с общим IO-блоком для всех чиплетов, которых в будущих EPYC будет уже 12. Но как оно будет на самом деле, мы узнаем только в следующем году — выход Sapphire Rapids запланирован на первый квартал 2022-го, а массовое производство будет уже во втором квартале.

Ядра Sapphire Rapids базируются на микроархитектуре Golden Cove, которая стала шире, глубже и «умнее». Она же будет использована в высокопроизводительных ядрах Alder Lake, но в случае серверных процессоров есть некоторые отличия. Например, увеличенный до 2 Мбайт на ядро объём L2-кеша или новый набор инструкций AMX (Advanced Matrix Extension). Последний расширяет ИИ-функциональность CPU и позволяет проводить MAC-операции над матрицами, что характерно для такого рода нагрузок.

Для AMX заведено восемь выделенных 2D-регистров объёмом по 1 Кбайт каждый (шестнадцать 64-байт строк). Отдельный аппаратный блок выполняет MAC-операции над тремя регистрами, причём делаться это может параллельно с исполнением других инструкций в остальной части ядра. Настройкой параметров и содержимого регистров, а также перемещением данных занимается ОС. Пока что в процессорах представлен только MAC-блок, но в будущем могут появиться блоки и для других, более сложных операций.

В пике производительность AMX на INT8 составляет 2048 операций на цикл на ядро, что в восемь раз больше, чем при использовании традиционных инструкций AVX-512 (на двух FMA-портах). На BF16 производительность AMX вдвое ниже, но это всё равно существенный прирост по сравнению с прошлым поколением Xeon — Intel всё так же пытается создать универсальные ядра, которые справлялись бы не только с инференсом, но и с обучением ИИ-моделей. Тем не менее, компания говорит, что возможности AMX в CPU будут дополнять GPU, а не напрямую конкурировать с ними.

К слову, именно Sapphire Rapids должен, наконец, сделать BF16 более массовым, поскольку Cooper Lake, где поддержка этого формата данных впервые появилась в CPU Intel, имеет довольно узкую нишу применения. Из прочих архитектурных обновлений можно отметить поддержку FP16 для AVX-512, инструкции для быстрого сложения (FADD) и более эффективного управления данными в иерархии кешей (CLDEMOTE), целый ряд новых инструкций и прерываний для работы с памятью и TLB для виртуальных машин (ВМ), расширенную телеметрию с микросекундными отсчётами и так далее.

Последние пункты, в целом, нужны для более эффективного и интеллектуального управления ресурсами и QoS для процессов, контейнеров и ВМ — все они так или иначе снижают накладные расходы. Ещё больше ускоряют работу выделенные акселераторы. Пока упомянуты только два. Первый, DSA (Data Streaming Accelerator), ускоряет перемещение и передачу данных как в рамках одного хоста, так и между несколькими хостами. Это полезно при работе с памятью, хранилищем, сетевым трафиком и виртуализацией.

Второй упомянутый ускоритель — это движок QAT (Quick Assist Engine), на который можно возложить операции или сразу цепочки операций (де-)компрессии (до 160 Гбит/с в обе стороны одновременно), хеширования и шифрования (до 400 Гбитс/с) в популярных алгоритмах: AES GCM/XTS, ChaChaPoly, DH, ECC и т.д. Теперь блок QAT стал частью самого процессора, тогда как прежде он был доступен в составе некоторых чипсетов или в виде отдельной карты расширения. Это позволило снизить задержки и увеличить производительность блока.

Кроме того, QAT можно будет задействовать, например, для виртуализации или Intel Accelerator Interfacing Architecture (AiA). AiA — это ещё один новый набор инструкций, предназначенный для более эффективной работы с интегрированными и дискретными ускорителями. AiA помогает с управлением, синхронизацией и сигнализацией, что опять таки позволит снизить часть накладных расходов при взаимодействии с ускорителями из пространства пользователя.

Подсистема памяти включает четыре двухканальных контроллера DDR5, по одному на каждый тайл. Надо полагать, что будут доступные четыре же NUMA-домена. Больше деталей, если не считать упомянутой поддержки следующего поколения Intel Optane PMem 300 (Crow Pass), предоставлено не было. Зато было официально подтверждено наличие моделей с набортной HBM, тоже по одному модулю на тайл. HBM может использоваться как в качестве кеша для DRAM, так и независимо. В некоторых случаях можно будет обойтись вообще без DRAM.

Про PCIe 5.0 и CXL 1.1 (CXL.io, CXL.cache, CXL.memory) добавить нечего, хотя в рамках другого доклада Intel ясно дала понять, что делает ставку на CXL в качестве интерконнекта не только внутри одного узла, но и в перспективе на уровне стойки. Для объединения CPU (бесшовно вплоть до 8S) всё так же будет использоваться шина UPI, но уже второго поколения (16 ГТ/с на линию) — по 24 линии на каждый тайл.

Конкретно для Sapphire Rapids Intel пока не приводит точные данные о росте IPC в сравнении с Ice Lake-SP, ограничиваясь лишь отдельными цифрами в некоторых задачах и областях. Также не был указан и ряд других важных параметров. Однако AMD EPYC Genoa, если верить последним утечкам, даже по чисто количественным характеристикам заметно опережает Sapphire Rapids.

Постоянный URL: http://servernews.ru/1047107
17.08.2021 [15:31], Владимир Агапов

AMD EPYC Genoa получат до 96 ядер Zen 4, 12 каналов DDR5, поддержку AVX-512 и пиковое потребление до 700 Вт

Первые 5-нм серверные процессоры AMD EPYC Genoa на базе микроархитектуры Zen4 ожидаются в 2022 г. Согласно информации, просочившейся в Сеть, наиболее мощный процессор в новой линейке получит 96 ядер и 192 потоков. Теперь же появились неофициальные подтверждения этих слухов. По информации ComputerBase источником утечки стали ресурсы компании Gigabyte, подвергшейся на днях хакерской атаке.

Среди десятков гигабайт конфиденциальной информации оказались сведения о более крупных разъёмах AMD SP5 (на 6096 контактов) для EPYC 7004 и AM5. Скриншоты с соответствующей информацией опубликованы Twitter-пользователем @KittyYYuko. Судя по сообщениям пользователя, технические подробности о новых AMD EPYC взяты из документов, датированных весной-летом 2021 года.

Документы описывают рекомендации для разработчиков материнских плат по совместимости температурного режима и питания, а также сведения о самих процессорах EPYC 7004. Будущие процессоры по-прежнему будут использовать восьмиядерные комплексы CCD, а за функции связи между ними и с внешними устройствами будет отвечать отдельный IO-контроллер.

Источник: Yuko Yoshida @KittyYYuko

Источник: Yuko Yoshida @KittyYYuko

Размер кристаллов CPU, изготовленного по 5-нм техпроцессу, изменится незначительно. Согласно документу, он должен составить около 72 мм². Площадь IO-контроллера тоже практически не изменится и составит 397 мм². Тот факт, что после перехода с 7- на 5-нм техпроцесс размер кристаллов существенно не уменьшился, объясняется новыми функциями, такими как поддержка AVX-512 и увеличение числа каналов памяти (DDR5) с 8 до 12.

Источник: Yuko Yoshida @KittyYYuko

Источник: Yuko Yoshida @KittyYYuko

Поскольку CCD теперь тоже 12, суммарное число ядер достигает 96 (192 потока). Кроме того, подтверждается и то, что топовая модель процессоров Genoa будут иметь TDP 320 Вт по умолчанию и максимум 400 Вт. При этом, судя по опубликованным данным, пиковая потребляемая мощность такой модели (обозначенной литерой E) может достигать 700 Вт в течение 1 мс.


Постоянный URL: http://servernews.ru/1046893
13.08.2021 [00:31], Игорь Осколков

AMD SEV и Intel SGX снова оказались уязвимы, но на этот раз патчи не помогут

Технологии AMD SEV и Intel SGX позволяют создавать защищённые и зашифрованные области в памяти с ограниченным доступом. Первая в большей степени ориентирована на виртуализацию, вторая — на конфиденциальные вычисления. И для обеих исследователи нашли способ обойти защиту и ограничения, причём в обоих случаях используются атаки на аппаратном уровне с манипуляцией напряжением.

В статье, озаглавленной One Glitch to Rule Them All (Один глитч чтобы править всеми), исследователи из Берлинского технического университета (TU Berlin) описывают метод атаки на AMD Platform Secure Processor (PSP), независимый чип, присутствующий во всех процессорах EPYC всех поколений. PSP отвечает за безопасность платформы в целом, и за работу технологии SEV (Secure Encrypted Virtualization) во всех её вариантах. PSP проверяет целостность и корректность прошивок, загружаемых по цепочке во время старта системы.

Первичный загрузчик считывается из необновляемой ROM-области, после чего управление передаётся следующему загрузчику. Он проверяет и запускает внутреннюю ОС (PSP OS) и прошивку SEV, образы которых находятся уже в отдельной флеш-памяти на шине SPI. Атака, упрощённо говоря, сводится к инициированному сбою во время первичного общения PSP c ROM, что позволяет с некоторой долей вероятности заставить PSP посчитать ключ атакующего корректным и затем без проблем загрузить подписанные этим ключом и модифицированные по желанию атакующего образы из флеш-памяти на SPI.

Указанный сбой можно вызвать, точно манипулируя напряжением питания PSP. Для этого исследователи задействовали микроконтроллер Teensy 4.0, который подключался к шинам управления регулятором напряжения и SPI, а также к линии ATX для сброса CPU по питанию. Так как каждый сервер уникален, нужно время на первичную настройку параметров (около получаса), после чего микроконтроллер в автоматическом режиме начнёт атаковать систему со скоростью порядка 1100 попыток в час.

Ограничением в данном случае является тайм-аут линии ATX, поскольку после каждой неудачной попытки необходимо сбрасывать питание CPU. Это увеличивает время загрузки — от старта атаки до получения полного контроля проходит в среднем от 13,5 (Zen 1) до 46,5 (Zen 3) минут. Исследователи оговариваются, что это именно средние значения, так как разброс достаточно велик и неравномерен и не даёт даже приблизительно оценить время успешной атаки.

Схема атаки

Схема атаки

Тем не менее, есть шанс, что увеличенное время загрузки никто не заметит, поскольку крупные системы (в первую очередь с большим объёмом памяти) и так могут загружаться не один десяток минут. В случае успешной атаки её будет весьма трудно обнаружить, поскольку появляется возможность подавить любые дальнейшие проверки и подменить данные внутренней телеметрии.

Основную опасность данный метод атаки представляет для облачных провайдеров и крупных корпоративных заказчиков — модификация сервера может быть произведена в цепочке поставок или сотрудником компании с нужными полномочиями. На подготовку тестовой системы на базе платы Supermicro H11DSU-iN и AMD EPYC 72F3 исследователям понадобилось менее четырёх часов. При это атака очень дешёвая — никакого особого оборудования не нужно, а из расходных материалов требуется только микроконтроллер (примерно $30) и SPI-программатор (около $12).

Маскировка лишних чипов на плате тоже вряд ли вызовет особые проблемы. В целом, данный сценарий очень напоминает историю Bloomberg от 2018 года о «жучках» в серверах Supermicro, поставляемых крупным американским IT-игрокам, которая не нашла официального подтверждения со стороны упомянутых в ней компаний.

Атака на AMD PSP была вдохновлена работой исследователей из Бирмингемского университета, которые развили идеи Plundervolt (CVE-2019-11157) и назвали свой метод VoltPillager. В случае Plundervolt точное манипулирование напряжением CPU позволяла нарушить корректность работы SGX (Software Guard Extensions) и целостность защищённых анклавов памяти, что в итоге позволяло восстановить ключи и получить содержимое анклавов.

Тестовый вариант VoltPillager

Тестовый вариант VoltPillager

Атака требовала привилегированного доступа к системе и точно так же задействовала шину регулятора напряжения (SVID, Serial Voltage Identification). Доступ к этой шине можно было получить программно, так что Intel выпустила соответствующие патчи, позволяющие принудительно отключить эту возможность. Но против модификации «железа» они не помогают. В данном случае требуется только микроконтроллер (тот же Teensy 4.0) и доступ к системе.

И для AMD, и для Intel, по мнению исследователей, для защиты требуется аппаратная модификация самих процессоров, которые, в первую очередь, должны самостоятельно отслеживать питание и команды, управляющие им. Аналогичные методы атаки изучены и для других архитектур и чипов.

Что касается описанных выше методов, то AMD пока никак не прокомментировала ситуацию, а Intel сообщила, что данный метод находится вне фокуса защиты SGX, поскольку подразумевает модификацию «железа». За последние полгода это уже четвёртая атака на AMD SEV — для двух, выявленных весной, и ещё одной, под названием CIPHERLEAKS, признанной на днях, компания уже выпустила патчи и обновления. А Intel SGX успела пострадать и от Spectre, и от других уязвимостей.

Постоянный URL: http://servernews.ru/1046589
12.08.2021 [19:03], Владимир Мироненко

TrendForce: Intel продолжит доминировать на серверном рынке, а к концу года доля Xeon Ice Lake-SP превысит 30 %

Весной началось массовое производство серверных x86-процессоров Intel Xeon Ice Lake-SP и AMD EPYC Milan. Согласно данным TrendForce, изначально небольшие объёмы новых чипов поставлялись лишь некоторым североамериканским клиентам в сегменте облаков и телекоммуникаций. Ожидается, что эти процессоры получат более широкое распространение на рынке в третьем квартале этого года.

Исследователи отмечают, что новые условия работы в постпандемическую эпоху побудят клиентов частично перейти на платформу Ice Lake-SP, доля которой на рынке серверов, согласно прогнозу TrendForce, в четвёртом квартале этого года превысит в 30 %. Что касается AMD, то ожидается, что AMD EPYC Milan обгонят предшественников по поставкам уже в третьем квартале этого года.

TrendForce ожидает, что увеличение объёмов производства процессоров для платформы Eagle Stream, скорее всего, произойдёт во втором квартале 2022 года. Новые Xeon Sapphire Rapids получат набортную память HBM и предложат гораздо более разнообразную линейку продуктов по сравнению с прошлым поколением. Предыдущие ожидания рынка относительно наращивания производства уже в 4 квартале 2021 года не оправдались — процессоры для Eagle Stream в это время лишь войдут в финальную стадию квалификации продукта, после чего Intel начнёт предоставлять некоторым ведущим клиентам небольшие партии.

То есть график производства Sapphire Rapids, вероятно, будет похож на график выпуска Ice Lake-SP. Что касается AMD, то процессоры Genoa, видимо, будут следовать тому же графику производства, поскольку чипы с использованием 5-нм техпроцесса пока имеют относительно небольшие объёмы. Однако серверные процессоры AMD имеют конкурентное преимущество с точки зрения соотношения цены и производительности, количества ядер и интерфейсов. Кроме того, в этом году постепенно увеличивалось использование AMD EPYC публичными облачными провайдерами, включая Google Cloud Platform, Microsoft Azure и Tencent.

В настоящее время уровень проникновения процессоров AMD у этих трёх провайдеров превысил 10%. Переход на 5-нм техпроцесс в конце 2021 года позволит компании ещё больше оптимизировать стоимость, энергопотребление и производительность своих процессоров. Поэтому TrendForce ожидает, что в 2022 году доля процессоров AMD на мировом рынке серверов составит 15 %.

Также TrendForce отмечает, что хотя архитектура Arm начинает набирать популярность, чипы в основном изготавливаются на заказ из-за относительно небольшого спроса. Arm-процессоры в этом году начали набирать обороты на рынке, но наибольшую долю заняли чипы Graviton, которые доступны только в облаке AWS. Ampere и Marvell предлагают более гибкие Arm-платформы, валидация которых, как ожидается, также начнётся в 4 квартале 2021 года.

Однако на рынке серверов по-прежнему преобладают x86-процессоры x86, на которые в настоящее время приходится 97 % общего объёма поставок. И оба ключевых производителя продолжают развивать свои продукты. Поэтому TrendForce считает, что процессоры ARM не будут конкурировать с процессорами x86 на рынке серверов до 2023 года.

Одним из преимуществ новых x86-платформ станет поддержка DDR5, а также PCIe 5.0 и CXL (Compute Express Link). Удвоение пропускной способности PCIe положительно отразится на приложениях ИИ и Big Data, а CXL в Eagle Stream сможет предложить значительные улучшения для «тяжёлых» рабочих нагрузок и гетерогенных вычислений. CXL позволит преодолеть ограничения, накладываемые на текущую аппаратную архитектуру в отношении передачи данных, и тем самым обеспечит более эффективные интегрированные вычислительные возможности.

Что касается памяти, то и Eagle Stream, и Genoa получат поддержку DDR5 нового поколения, которая обеспечивает более высокую скорость передачи данных, что сделает эти новые серверные процессоры более привлекательными в сравнении с прошлым поколением. Поставщики NAND и DRAM планируют начать массовое производство PCIe 5.0 SSD и DDR5 RDIMM в конце 2 квартала 2022 года в ожидании спроса, вызванного выпуском платформ Eagle Stream и Genoa.

Постоянный URL: http://servernews.ru/1046546
Система Orphus