Материалы по тегу: ram
07.09.2024 [11:41], Сергей Карасёв
Micron представила 12-ярусные чипы HBM3E: 36 Гбайт и 1,2 Тбайт/сКомпания Micron Technology сообщила о начале пробных поставок 12-ярусных (12-Hi) чипов памяти HBM3E, предназначенных для высокопроизводительных ИИ-ускорителей. Изделия проходят квалификацию в экосистеме отраслевых партнёров, после чего начнутся их массовые отгрузки. Новые чипы имеют ёмкость 36 Гбайт, что на 50 % больше по сравнению с существующими 8-слойными вариантами HBM3E (24 Гбайт). При этом, как утверждает Micron, достигается значительно более низкое энергопотребление. Благодаря применению 12-ярусных чипов HBM3E крупные модели ИИ, такие как Llama 2 с 70 млрд параметров, могут запускаться на одном ускорителе. Заявленная пропускная способность превышает 9,2 Гбит/с на контакт, что в сумме обеспечивает свыше 1,2 Тбайт/с. Появление новой памяти поможет гиперскейлерам и крупным операторам дата-центров масштабировать растущие рабочие нагрузки ИИ в соответствии с запросами клиентов. Реализована полностью программируемая функция MBIST (Memory Built-In Self Test), которая способна работать на скоростях, соответствующих системному трафику. Это повышает эффективность тестирования, что позволяет сократить время вывода продукции на рынок и повысить надёжность оборудования. При изготовлении памяти HBM3E компания Micron применяет современные методики упаковки чипов, включая усовершенствованную технологию сквозных соединений TSV (Through-Silicon Via). Нужно отметить, что о разработке 12-слойных чипов HBM3E ёмкостью 36 Гбайт в начале 2024 года объявила компания Samsung. Эти решения обеспечивают пропускную способность до 1,28 Тбайт/с. По данному показателю, как утверждается, чипы более чем на 50 % превосходят доступные на рынке 8-слойные стеки HBM3. Наконец, старт массового производства 12-Hi модулей HBM3E от SK hynix с ПСП 1,15 Тбайт/с намечен на октябрь.
05.09.2024 [11:21], Сергей Карасёв
Innodisk представила CXL-модули памяти объёмом 64 Гбайт для ИИ-серверовКомпания Innodisk анонсировала модуль памяти CXL (Compute Express Link), разработанный с прицелом на системы ИИ и облачные дата-центры. Массовые поставки изделия планируется организовать в I квартале 2025 года. Спрос на ИИ-серверы быстро растет. Согласно прогнозам Trendforce, в 2024 году такие системы займут примерно 65 % глобального рынка серверов (в деньгах). По словам Innodisk, сейчас ИИ-системам требуется не менее 1,2 Тбайт оперативной памяти для эффективной работы. Традиционные изделия DDR не всегда способны удовлетворить предъявляемые требования, что приводит к таким проблемам, как недоиспользование ресурсов CPU и увеличение задержек, говорит компания. Модули CXL призваны устранить подобные ограничения. Напомним, CXL — это высокоскоростной интерконнект, обеспечивающий взаимодействие хост-процессора с акселераторами, буферами памяти, устройствами ввода/вывода и пр. Решение Innodisk использует интерфейс PCIe 5.0 x8 и имеет ёмкость 64 Гбайт. Модуль обеспечивает пропускную способность до 32 Гбайт/с. Говорится о совместимости с CXL 1.1/2.0. Устройство выполнено в форм-факторе E3.S 2T и оснащено коннектором EDSFF 2C. Диапазон рабочих температур простирается от 0 до +70 °C. Отмечается, что в случае установки четырёх модулей Innodisk CXL на 64 Гбайт каждый в сервер, который несёт на борту восемь DIMM по 128 Гбайт, общий объём памяти может быть увеличен на четверть, а общая пропускная способность — на 40 %. При этом CXL обеспечивает пулинг памяти, что позволяет оптимизировать совместное использование ресурсов и повысить общую эффективность системы.
27.07.2024 [23:44], Алексей Степин
Не так просто и не так быстро: учёные исследовали особенности работы памяти и NVLink C2C в NVIDIA Grace HopperГибридный ускоритель NVIDIA Grace Hopper объединяет CPU- и GPU-модули, которые связаны интерконнектом NVLink C2C. Но, как передаёт HPCWire, в строении и работе суперчипа есть некоторые нюансы, о которых рассказали шведские исследователи. Им удалось замерить производительность подсистем памяти Grace Hopper и интерконнекта NVLink в реальных сценариях, дабы сравнить полученные результаты с характеристиками, заявленными NVIDIA. Напомним, для интерконнекта изначально заявлена скорость 900 Гбайт/с, что в семь раз превышает возможности PCIe 5.0. Память HBM3 в составе GPU-части имеет ПСП до 4 Тбайт/с, а вариант с HBM3e предлагает уже до 4,9 Тбайт/с. Процессорная часть (Grace) использует LPDDR5x с ПСП до 512 Гбайт/с. В руках исследователей оказалась базовая версия Grace Hopper с 480 Гбайт LPDDR5X и 96 Гбайт HBM3. Система работала под управлением Red Hat Enterprise Linux 9.3 и использовала CUDA 12.4. В бенчмарке STREAM исследователям удалось получить следующие показатели ПСП: 486 Гбайт/с для CPU и 3,4 Тбайт/с для GPU, что близко к заявленным характеристиками. Однако результат скорость NVLink-C2C составила всего 375 Гбайт/с в направлении host-to-device и лишь 297 Гбайт/с в обратном направлении. Совокупно выходит 672 Гбайт/с, что далеко от заявленных 900 Гбайт/с (75 % от теоретического максимума). Grace Hopper в силу своей конструкции предлагает два вида таблицы для страниц памяти: общесистемную (по умолчанию страницы размером 4 Кбайт или 64 Кбайт), которая охватывает CPU и GPU, и эксклюзивную для GPU-части (2 Мбайт). При этом скорость инициализации зависит от того, откуда приходит запрос. Если инициализация памяти происходит на стороне CPU, то данные по умолчанию помещаются в LPDDR5x, к которой у GPU-части есть прямой доступ посредством NVLink C2C (без миграции), а таблица памяти видна и GPU, и CPU. Если же памятью управляет не ОС, а CUDA, то инициализацию можно сразу организовать на стороне GPU, что обычно гораздо быстрее, а данные поместить в HBM. При этом предоставляется единое виртуальное адресное пространство, но таблиц памяти две, для CPU и GPU, а сам механизм обмена данными между ними подразумевает миграцию страниц. Впрочем, несмотря на наличие NVLink C2C, идеальной остаётся ситуация, когда GPU-нагрузке хватает HBM, а CPU-нагрузкам достаточно LPDDR5x. Также исследователи затронули вопрос производительности при использовании страниц памяти разного размера. 4-Кбайт страницы обычно используются процессорной частью с LPDDR5X, а также в тех случаях, когда GPU нужно получить данные от CPU через NVLink-C2C. Но как правило в HPC-нагрузках оптимальнее использовать 64-Кбайт страницы, на управление которыми расходуется меньше ресурсов. Когда же доступ в память хаотичен и непостоянен, страницы размером 4 Кбайт позволяют более тонко управлять ресурсами. В некоторых случаях возможно двукратное преимущество в производительности за счёт отсутствия перемещения неиспользуемых данных в страницах объёмом 64 Кбайт. В опубликованной работе отмечается, что для более глубокого понимания механизмов работы унифицированной памяти у гетерогенных решений, подобных Grace Hopper, потребуются дальнейшие исследования.
18.07.2024 [00:05], Владимир Мироненко
Micron начала рассылку образцов модулей памяти DDR5-8800 MRDIMMКомпания Micron Technology объявила о старте рассылки образцов модулей памяти DDR5 MRDIMM (Multiplexed Rank Dual Inline Memory Module), специально разработанной для приложений ИИ и HPC. По сравнению с обычными RDIMM у модулей MRDIMM до 39 % выше пропускная способность памяти, на 15 % выше эффективность работы шины и до 40 % ниже задержка. MRDIMM-модули будут иметь ёмкость 32, 64, 96, 128 и 256 Гбайт. Модули памяти обеспечивают скорость передачи данных 8800 МТ/с и выпускаются в двух форматах: стандартной и увеличенной (TFF, Tall Form Factor) высоты, которые подходят для серверов высотой 1U и 2U. Благодаря улучшенной конструкции модулей TFF температура DRAM снижается до 20 °С при той же мощности и потоке воздуха, обеспечивая более эффективное охлаждение в ЦОД и оптимизируя общее энергопотребление системы для рабочих нагрузок с интенсивным использованием памяти. Сообщается, что новое предложение представляет собой первое поколение семейства Micron MRDIMM и будет совместимо только с процессорами Intel Xeon 6, поскольку стандарт JEDEC для памяти MRDIMM официально ещё не выпущен. Массовые поставки Micron MRDIMM начнутся во II половине 2024 года. Компания сообщила, что последующие поколения MRDIMM будут по-прежнему обеспечивать до 45 % лучшую пропускную способность памяти на канал по сравнению с RDIMM аналогичного поколения. Ранее образцы MRDIMM (или MR-DIMM) показала ADATA. А SK hynix совместно с Intel и Renesas ещё в конце 2022 года объявила о создании похожего типа памяти — DDR5 MCR (Multiplexer Combined Ranks) DIMM. Весной этого года Micron также показала образцы DDR5-8800 MCR DIMM.
15.07.2024 [12:02], Сергей Карасёв
Пристегните ремни: Apacer представила «резиночки» для крепления модулей памятиКомпания Apacer анонсировала специальные ремешки, предназначенные для удержания модулей оперативной памяти в разъёмах. Это предотвращает их смещение в индустриальных системах в случае тряски, вибрации или ударов. Таким образом, повышаются стабильность и надёжность работы. Промышленные модули ОЗУ могут применяться в компьютерах, рассчитанных на сложные условия эксплуатации. Это могут быть бортовые автомобильные или авиационные системы, интеллектуальные edge-устройства и пр. Вибрация со временем может привести к изменению положения модулей, что спровоцирует сбои в работе. Новые ремешки решают указанную проблему. Они обеспечивают надёжную фиксацию DIMM в своих слотах. Ремешки имеют три точки крепления в отличие от обычных зажимов с двумя точками. Заявлена совместимость со всеми современными материнскими платами, что позволяет применять ремешки в существующих устройствах. Изделия выполнены из огнестойкого полисилоксана, благодаря чему выдерживают температуры до 200 °C. Разработчик также говорит о высокой эластичности и гибкости, которые сохраняются даже при низких температурах. Такие характеристики дают возможность использовать ремешки в самых суровых условиях без риска короткого замыкания, разрыва или повреждений. Плюс к этому изделия успешно прошли испытания на соответствие военным стандартам MIL-STD-833K и MIL-STD-810G в плане устойчивости к ударам и вибрации.
03.07.2024 [23:49], Сергей Карасёв
Panmnesia расширит память GPU с помощью DRAM или даже SSDЮжнокорейский стартап Panmnesia сообщил о разработке специализированного CXL-решения, которое позволяет расширять встроенную память ускорителей на базе GPU путём подключения внешних блоков DRAM или даже SSD. Отмечается, что современным приложениям ИИ и НРС требуется значительный объём быстрой памяти, но возможности ускорителей в этом плане ограничены. Сложность расширения памяти актуальных ускорителей заключается в том, что в таких изделиях отсутствуют логическая структура CXL и компоненты, поддерживающие DRAM и/или SSD. Кроме того, подсистемы кеша и памяти GPU не распознают никаких расширений. В лучшем случае предлагается механизм унифицированной виртуальной памяти (UVM) для совместного доступа к содержимому памяти и CPU, и GPU. Однако этот механизм довольно медленный. Panmnesia обошла существующие ограничения путём создания собственного root-комплекса, совместимого со стандартом CXL 3.1 и предоставляющего несколько root-портов. Он и обеспечивает поддержку внешней памяти через PCIe. При этом задействован особый декодер HDM (Host-managed Device Memory), отвечающий за работу с адресными пространствами. Это сложное решение в каком-то смысле «обманывает» подсистему памяти ускорителя, заставляя ее рассматривать внешнюю PCIe-память как доступную напрямую. Прототип, основанный на кастомизированном GPU, в ходе тестов продемонстрировало задержки менее 100 нс при передаче данных в обоих направлениях. При этом решение Panmnesia предоставляет более гранулярный доступ к памяти в сравнении с UVM. Быстродействие CXL-системы Panmnesia оказалось в 3,22 раза выше в пересчёте на IPC по сравнению с UVM.
27.06.2024 [09:30], Илья Коваль
Ловкий патч и никакого мошенничества: эмуляция NUMA повышает производительность Raspberry Pi 5 на 18 %Портал Phoronix обратил внимание на необычный патч, заметно повышающий производительность Raspberry Pi 5. Инженеры Igalia в результате экспериментов с эмуляцией NUMA на UMA-системах с чипами ARM64 (AArch64) добились повышения эффективности использования памяти. Так, простой патч для ядра Linux позволил улучшить результаты в Geekbench на 6 % в однопоточном режиме и на целых 18 % — в многопоточном. Авторы патча пишут, что разделение RAM на несколько независимых блоков с последующим попеременными доступом (interleaving) позволяет контроллеру в Broadcom BCM2712 более полно использовать параллелизм на уровне физической организации чипов памяти (parallelism in physical memory chip organisation). Почему так происходит, авторы не уточняют, но, вероятно, это связано с особенностями организации кеша в SoC. 16-нм SoC BCM2712 включает четыре ядра Cortex-A76 (2,4 ГГц), каждому из которых полагается по 64 Кбайт кеша для инструкций и данных и 512 Кбайт L2-кеша. Объём общего L3-кеша составляет 2 Мбайт. Встроенный 32-бит контроллер памяти предлагает LPDRR4x-интерфейс, теоретическая пропускная способность которого достигает 17 Гбайт/с. Важно отметить, что этот чип не создавался эксклюзивно для Raspberry Pi — он был выбран среди актуальных массовых решений Broadcom из-за удачного сочетания цены, производительности и доступности. Патч добавляет в Kconfig новую опцию, а для активации эмуляции NUMA (Non-uniform memory access) нужно передать соответствующий параметр при загрузке ядра. Дальнейшая работы осуществляется с помощью стандартной утилиты numactl.
04.06.2024 [11:49], Сергей Карасёв
Goodram Industrial представила SSD серии M1000 Gen 2 с широким температурным диапазономКомпания Goodram Industrial, принадлежащая Wilk Elektronik SA, анонсировала SSD семейства M1000 Gen 2, обладающие повышенной надёжностью. Устройства ориентированы на применение в коммерческом и промышленном секторах: это могут быть встраиваемые решения, системы автоматизации, индустриальные компьютеры и пр. Изделия выполнены в SFF-стандарте с применением чипов флеш-памяти BiCS5 3D TLC NAND. Для подключения служит интерфейс SATA-3. Заявленная скорость передачи данных составляет до 550 Мбайт/с при чтении и до 510 Мбайт/с при записи. В серию M1000 Gen 2 входят модели вместимостью 128, 256 и 512 Гбайт, а также 1 Тбайт. Диапазон рабочих температур простирается от -40 до +85 °C. Каждый накопитель, как утверждается, проходит строгие испытания качества, включая тестирование в климатической камере, имитирующей сложные условия окружающей среды (перепады температуры, влажность). Среди поддерживаемых технологий упомянуты средства Over-provisioning (резервируют некоторый объем SSD под нужды контроллера), инструмент управления питанием Low Power Management, функции контроля износа (Static and Dynamic Wear Leveling) и управление поврежденными блоками (Bad Block Management).
03.06.2024 [13:18], Руслан Авдеев
Dell прогнозирует рост цен на 20 % на DRAM и SSD до конца 2024 годаDell ожидает, что уже во II половине 2024 года цена DRAM и SSD вырастет на 15–20 %. По словам вице-председателя и операционного директора компании Джеффа Кларка (Jeff Clarke), цены вырастут как на компоненты, так и на логистику. The Register сообщает, что в связи с этим Dell намерена обновить цены на свою продукцию. По его словам, это связано с недостатком капитальных инвестиций, низкой загрузкой производств и другими факторами. Большая часть спроса придётся на продукцию для ИИ-серверов, за квартал принёсших Dell $1,7 млрд — рост квартал к кварталу составил более 100 %. Подобному оборудованию нужно много памяти с большой пропускной способностью, ёмкое внутренее и внешнее хранилище. По словам Кларка, компания уже начала пересмотр ценообразования с учётом новых реалий, что помогло Dell улучшить показатели своего серверного бизнеса. Речь как обычном оборудовании, так и о комплектах для ИИ. Объём невыполненных заказов на ИИ-серверы Dell достиг $3,8 млрд, но, по словам Кларка, NVIDIA справляется со спросом, поэтому задержек в поставках ускорителей H200 во II квартале опасаться не стоит. А вот ускорители B200, как и предупреждала NVIDIA, пока в дефиците.
24.05.2024 [15:09], Сергей Карасёв
Разработчик «компрессора» для оперативной памяти ZeroPoint получил первые инвестицииСтартап ZeroPoint Technologies AB, разрабатывающий специализированные аппаратные решения для сжатия данных в высокопроизводительных системах, объявил о проведении раунда финансирования Series A, в ходе которого на развития привлечено €5 млн. ZeroPoint — это дочерняя компания Технического университета Чалмерса (Chalmers University of Technology) в Гётеборге (Швеция). Стартап запущен с целью коммерциализации исследований в области методов сжатия данных, которые его соучредители Пер Стенстрём (Per Stenström) и Ангелос Арелакис (Angelos Arelakis) проводили в вузе. Скорость, с которой серверный процессор может извлекать данные из DRAM, напрямую влияет на его производительность, а значит, и на быстродействие всей системы в целом. При этом, как заявляет ZeroPoint, обычно до 70 % хранимых данных являются избыточными. Одним из способов ускорить процесс получения информации является сжатие. Однако исторически применение этого метода было непрактичным, поскольку даже самые продвинутые алгоритмы компрессии относительно медленны, что сводит на нет любую потенциальную выгоду. ZeroPoint решает проблему с помощью, как утверждается, первого в своём роде подхода с аппаратным ускорением. Технология сочетает в себе сверхбыстрое сжатие данных без потерь и на лету, уплотнение в реальном времени и «прозрачное» управление памятью. Для выполнения этих задач применяется небольшой IP-блок Ziptilion-BW, который может быть интегрирован практически с любым стандартным контроллером памяти и совместим с (LP)DDR4/5 и HBM. ZeroPoint заявляет, что предложенный подход позволят увеличить эффективную ёмкость памяти в 2–4 раза, а также обеспечивает повышение производительности на Ватт до 50 %. Таким образом, общая стоимость владения серверами в дата-центрах может быть снижена на 25 %. Утверждается, что технология ZeroPoint в 1000 раз быстрее, чем другие существующие методы сжатия. ZeroPoint использует проприетарные методы, которые динамически определяют, какие именно данные можно сжать и каким именно образом. Для дополнительного ускорения извлечения данных в устройство интегрирован собственный кеш. Раунд финансирования Series A возглавила мюнхенская компания Matterwave Ventures. Средства также предоставили Industrifonden, Climentum Capital и Chalmers Ventures. Деньги будут использованы для дальнейших разработок и коммерциализации технологии. Компания также предлагает «компрессоры» для L2/L3-кеша и CXL/NVMe-устройств, ускоритель для zram/zswap и блок (де-)шифрования. |
|