Материалы по тегу: ethernet
02.07.2024 [23:55], Алексей Степин
15 тыс. ускорителей на один ЦОД: Alibaba Cloud рассказала о сетевой фабрике, используемой для обучения ИИAlibaba Cloud раскрыла ряд сведений технического характера, касающихся сетевой инфраструктуры и устройства своих дата-центров, занятых обработкой ИИ-нагрузок, в частности, обслуживанием LLM. Один из ведущих инженеров компании, Эньнань Чжай (Ennan Zhai), опубликовал доклад «Alibaba HPN: A Data Center Network for Large Language Model Training», который будет представлен на конференции SIGCOMM в августе этого года. В качестве основы для сетевой фабрики Alibaba Cloud выбрала Ethernet, а не, например, InfiniBand. Новая платформа используется при обучении масштабных LLM уже в течение восьми месяцев. Выбор обусловлен открытостью и универсальностью стека технологий Ethernet, что позволяет не привязываться к конкретному вендору. Кроме того, меньше шансы пострадать от очередных санкций США. Отмечается, что традиционный облачный трафик состоит из множества относительно небыстрых потоков (к примеру, менее 10 Гбит/с), тогда как трафик при обучении LLM включает относительно немного потоков, имеющих периодический характер со всплесками скорости до очень высоких значений (400 Гбит/с). При такой картине требуются новые подходы к управлению трафиком, поскольку традиционные алгоритмы балансировки склонны к перегрузке отдельных участков сети. ![]() Источник здесь и далее: Alibaba Cloud Разработанная Alibaba Cloud альтернатива носит название High Performance Network (HPN). Она учитывает многие аспекты работы именно с LLM. Например, при обучении важна синхронизация работы многих ускорителей, что делает сетевую инфраструктуру уязвимой даже к единичным точкам отказа, особенно на уровне внутристоечных коммутаторов. Alibaba Cloud использует для решения этой проблемы парные коммутаторы, но не в стековой конфигурации, рекомендуемой производителями. ![]() Характер трафика при обучении LLM Каждый хост содержит восемь ИИ-ускорителей и девять сетевых адаптеров. Каждый из NIC имеет по паре портов 200GbE. Девятый адаптер нужен для служебной сети. Между собой внутри хоста ускорители общаются посредством NVLink на скорости 400–900 Гбайт/с, а для общения с внешним миром каждому из них полагается свой 400GbE-канал с поддержкой RDMA. При этом порты сетевых адаптеров подключены к разным коммутаторам из «стоечной пары», что серьёзно уменьшает вероятность отказа. ![]() В докладе говорится, что Alibaba Cloud использует современные одночиповые коммутаторы с пропускной способностью 51,2 Тбит/с. Этим условиям отвечают либо устройства на базе Broadcom Tomahawk 5 (март 2023 года), либо Cisco Silicon One G200 (июнь того же года). Судя по использованию выражения «начало 2023 года», речь идёт именно об ASIC Broadcom. Своё предпочтение именно одночиповых коммутаторов компания объясняет просто: хотя многочиповые решения с большей пропускной способностью существуют, в долгосрочной перспективе они менее надёжны и стабильны в работе. Статистика показывает, что аппаратные проблемы у подобных коммутаторов возникают в 3,77 раза чаще, нежели у одночиповых. Одночиповые решения класса 51,2 Тбит/с выделяют много тепла, но ни один поставщик оборудования не смог предложить Alibaba Cloud готовые решения, способные удерживать температуру ASIC в пределах 105 °C. Выше этого порога срабатывает автоматическая защита. Поэтому для охлаждения коммутаторов Alibaba Cloud создала собственное решение на базе испарительных камер. ![]() Сетевая фабрика позволяет создавать кластеры, каждый из которых содержит 15360 ускорителей и располагается в отдельном здании ЦОД. Такое высокоплотное размещение позволяет использовать оптические кабели длиной менее 100 м и более дешёвые многомодовые трансиверы, которые дешевле одномодовых примерно на 70 %. Ёмкость такого дата-центра составляет около 18 МВт. Но есть у HPN и недостаток: использование топологии с двумя внутристоечными коммутаторами и другие особенности архитектуры усложняют кабельную подсистему, поэтому инженеры поначалу столкнулись с ростом ошибок при подключении сетевых интерфейсов. В настоящее время активно используются тесты, позволяющие проверить каждое подключение на соответствие идентификаторов портов и коммутаторов рабочим схемам. Отмечается, что параметры Ethernet-коммутаторов удваиваются каждые два года, поэтому компания уже разрабатывает сетевую архитектуру следующего поколения, рассчитанную на применение будущих ASIC 102,4 Тбит/с. По словам Alibaba Cloud, обучение LLM с сотнями миллиардов параметров потребует огромного распределённого кластера, количество ускорителей в котором исчисляется миллионами. И ему требуется соответствующая сетевая инфраструктура.
02.07.2024 [12:10], Сергей Карасёв
Dell'Oro: продажи кампусных Ethernet-коммутаторов рухнули на 23 %По оценкам Dell'Oro Group, выручка от реализации кампусных Ethernet-коммутаторов в I квартале 2024 года в глобальном масштабе сократилась практически на четверть — на 23 % — по сравнению с аналогичным периодом предыдущего года. В результате объём рынка достиг двухлетнего минимума. Говорится, что снижение спроса зафиксировано во всех регионах, за исключением Центральной и Латинской Америки (CALA). Отмечается сокращение отгрузок портов практически всех типов. Кроме того, в годовом исчислении снизилась средняя стоимость коммутаторов. ![]() Источник изображения: Dell'Oro Group Среди ведущих игроков названы Arista Networks, Cisco и Ubiquiti. У первой из названных компаний выручка от поставок кампусных Ethernet-коммутаторов в I четверти 2024-го поднялась более чем на 80 % год к году. Третий квартал подряд Arista наращивает рыночную долю. Ubiquiti также смогла незначительно увеличить объём реализации. У Cisco продажи, напротив, резко сократились: падение в годовом исчислении превысило 25 %. Годом ранее Cisco продемонстрировала существенный рост, связанный с удовлетворением отложенного спроса. В исследовании отмечается, что некоторые поставщики кампусных Ethernet-коммутаторов в I квартале 2024 года смогли увеличить среднюю стоимость портов благодаря расширению ассортимента продукции. Прогнозируется, что спрос на устройства с поддержкой 5GbE-портов увеличится на фоне роста востребованности точек доступа стандарта Wi-Fi 7.
10.06.2024 [13:06], Сергей Карасёв
Разработчик СХД Qumulo присоединился к консорциуму Ultra EthernetКомпания Qumulo сообщила о вступлении в консорциум Ultra Ethernet Consortium (UEC), который был сформирован в июле 2023 года. Кроме того, Qumulo объявила о сотрудничестве с Intel и Arista Networks для продвижения передовых IT-инфраструктур, использующих современные сетевые технологии, а также средства хранения и управления данными. Группа Ultra Ethernet занимается разработкой открытой высокопроизводительной сетевой архитектуры с полным коммуникационным стеком, отвечающей задачам современных рабочих нагрузок ИИ и НРС. Основателями UEC стали AMD, Arista, Broadcom, Cisco, Eviden (Atos), HPE, Intel, Meta✴ и Microsoft. Впоследствии к группе присоединились многие другие компании, включая Nokia, Lenovo, Baidu, Dell, Huawei, IBM, Supermicro, Tencent и пр. В состав Ultra Ethernet Consortium также вошла Cornelis Networks, поставщик HPC-интерконнекта Omni-Path. А вот NVIDIA в UEC не входит. Qumulo, как отмечается, стала первым разработчиком хранилищ, присоединившимся к консорциуму Ultra Ethernet. Технический директор отмечает, что новые решения, разрабатывающиеся в рамках консорциума, в перспективе будут определять способы передачи данных по сетям, улучшая взаимодействие вычислительных систем и хранилищ информации. При этом станет возможным упрощение архитектуры при одновременном повышении производительности и надёжности. На сегодняшний день Qumulo развернула более 1 Эбайт хранилищ среди сотен клиентов, используя системы на базе Arista Extensible Operating System (EOS). Вице-президент по развитию бизнеса и стратегическим альянсам Arista Networks говорит о том, что участие Qumulo в Ultra Ethernet Consortium будет способствовать ускорению внедрения новых технологий. Ожидается, что результаты работы группы помогут в развёртывании высокопроизводительных и масштабируемых сетей для современных приложений, связанных в том числе с ИИ.
09.06.2024 [12:46], Сергей Карасёв
Arista представила сетевые ИИ-решения Etherlink с прицелом на крупные кластерыКомпания Arista Networks анонсировала сетевые платформы Etherlink AI, созданные, как утверждается, для обеспечения оптимальной производительности при выполнении наиболее требовательных рабочих нагрузок ИИ, включая обучение больших языковых моделей (LLM) и их инференс. Решения Arista Etherlink AI поддерживают кластеры ИИ, насчитывающие от тысяч до сотен тысяч xPU. Используются эффективные одно- и двухуровневые сетевые топологии для обеспечения оптимальной производительности. Все коммутаторы Etherlink поддерживают новые стандарты Ultra Ethernet Consortium (UEC), которые, как ожидается, в перспективе дадут дополнительные преимущества в плане производительности. В семейство Arista Etherlink AI входят коммутаторы 7060X6 AI Leaf, построенные на базе ASIC Tomahawk 5 разработки Broadcom. Это изделие способно осуществлять коммутацию на скоростях до 51,2 Тбит/с. Новые устройства поддерживают до 60 портов 800GbE или до 128 портов 400GbE. В семействе сетевых платформ также представлены модульные системы Arista 7800R4 AI Spine 4-го поколения. В них применяются чипы-коммутаторы Broadcom Jericho3-AI, ориентированные специально на ИИ-задачи. Устройства Arista 7800R4 AI Spine поддерживают пропускную способность до 460 Тбит/с в одном шасси: 576 портов 800GbE или 1152 портов 400GbE. Наконец, дебютировали коммутаторы 7700R4 AI Distributed Etherlink Switch (DES), рассчитанные на наиболее крупные кластеры ИИ. Используя архитектуру Jericho3-AI, они обеспечивают распределение трафика без перегрузок. Это первые решения в новой серии сверхмасштабируемых интеллектуальных распределенных систем, которые способны поддерживать высочайшую пропускную способность для самых ресурсоёмких ИИ-задач, говорит компания.
24.05.2024 [10:30], Сергей Карасёв
Broadcom представила 400GbE-адаптеры P1400GD и N1400GDКорпорация Broadcom анонсировала высокопроизводительные Ethernet-адаптеры 400G, которые, как утверждается, призваны революционизировать экосистему дата-центров в эру ИИ. Изделия помогут устранить узкие места в системах коммутации на фоне стремительного роста объёмов передаваемых данных. По заявлениям Broadcom, дебютировавшие устройства — это первые на рынке адаптеры Ethernet, в основу которых положен контроллер (BCM57608), изготовленный по 5-нм технологии. В качестве ключевых сфер применения названы облачные и корпоративные среды, HPC-платформы, серверы хранения данных, приложения ИИ и машинного обучения. ![]() Источник изображения: Broadcom В семейство вошли модели P1400GD и N1400GD, выполненные в виде карт PCIe и OCP 3.0 соответственно. Используется интерфейс PCIe 5.0 x16. Адаптеры соответствуют стандарту 400GbE, кроме того, поддерживаются режимы 200/100/50/25GbE. В обоих случаях присутствует коннектор QSFP112-DD. Реализована поддержка RDMA over Converged Ethernet (RoCEv2). Упомянуты технологии TruFlow (ускорение сетевых операций) и TruManage (управление серверами). На аппаратном уровне реализованы инструменты обеспечения безопасности Root-of-Trust (RoT). Средства Multi-host позволяют сразу нескольким CPU обращаться к одному Ethernet-адаптеру. Говорится о совместимости с Red Hat Enterprise Linux, SUSE Linux Enterprise Server, Ubuntu, DPDK.
22.04.2024 [09:09], Сергей Карасёв
От LTO к iSCSI: Atto представила мост XstreamCORE 8100TКомпания Atto представила устройство XstreamCORE 8100T — специализированный мост, позволяющий подключать ленточные накопители к сети 10GbE iSCSI. Таким образом, упрощается формирование систем для резервного копирования и восстановления информации. Новинка заключена в корпус с габаритами 30,5 × 103,5 × 240 мм и весит около 0,91 кг. К одному мосту могут быть подключены до четырёх приводов стандартов LTO-9, LTO-8 и LTO-7 с интерфейсом SAS-3 (порт mini-SAS HD). Для подключения к сети есть два порта 10GbE. При этом в составе IT-инфраструктуры можно задействовать несколько мостов. Анонсированы модификации устройства XCET-8100-TS0 и XCET-8100-TN0. Первая использует порты SFP+, вторая предлагает RJ-45/SFP. Заявленная установившаяся скорость передачи данных в обоих случаях достигает 2 Гбайт/с, а технология SpeedWrite оптимизирует использование доступной полосы пропускания. Предусмотрен выделенный порт управления 1GbE RJ-45. Диапазон рабочих температур — от +5 до +40 °C. Энергопотребление у модели XCET-8100-TS0, согласно техническим характеристикам, не превышает 25 Вт, у модификации XCET-8100-TN0 — 29 Вт. Стоят эти устройства $2895 и $3095 соответственно. Для управления служит веб-интерфейс; мосты могут использоваться в составе инфраструктур с любыми ОС. Разработчик говорит о простоте развёртывания.
22.03.2024 [21:10], Сергей Карасёв
Консорциум Ultra Ethernet пополнился 45 участниками, но NVIDIA среди них так и нетКонсорциум Ultra Ethernet объявил о том, что в его состав вошли 45 новых участников. Таким образом, на сегодняшний день общее количество членов этой организации достигает 55. К участию в Ultra Ethernet приглашаются и другие заинтересованные компании и институты. Напомним, консорциум был создан в июле 2023 года. Его задача заключается в разработке основанной на Ethernet открытой высокопроизводительной архитектуры с полным коммуникационным стеком, отвечающей задачам современных рабочих нагрузок ИИ и НРС. Изначально в состав Ultra Ethernet входили AMD, Arista, Broadcom, Cisco, Eviden (Atos), HPE, Intel, Meta✴ и Microsoft. Позднее к консорциуму присоединилась компания Cornelis Networks, поставщик HPC-интерконнекта на базе Omni-Path. С ноября 2023-го организация начала принимать новых участников в массовом порядке. С тех пор инициативу поддержали Nokia, Lenovo, Baidu, Dell, Huawei, IBM, Supermicro, Tencent и многие другие компании. Примечательно, что в списке участников так и нет AWS, Google и NVIDIA. Последняя по-прежнему считает InfinBand лучшим интерконнектом для HPC/ИИ-кластеров и является фактически единственным поставщиком данной технологии. Более того, даже Ethernet-решения NVIDIA подвергаются критике со стороны конкурентов. Для тех, кто заинтересован в работах в рамках проекта, Ultra Ethernet предлагает различные варианты участия через восемь технических групп. В их число, в частности, входят физический, транспортный и программный уровни, хранение, управление, отладка и пр. В настоящее время ведётся активная работа над спецификацией Ultra Ethernet версии 1.0: представить её планируется в III квартале текущего года. Ожидается, что совместная работа десятков IT-компаний в перспективе позволит создать революционные коммуникационные платформы.
22.03.2024 [09:09], Алексей Степин
NVIDIA представила 800G-платформы Quantum-X800 и Spectrum-X800 для InfiniBand- и Ethernet-фабрик нового поколенияДополнением к только что представленным ИИ-ускорителям NVIDIA Blackwell станут новые сетевые 800G-платформы Quantum-X800 и Spectrum-X800, а также сетевые адаптеры ConnectX-8. Именно они позволят вывести масштабирование ИИ-кластеров на новый уровень и позволят «прокормить» гигантские массивы ускорителей в дата-центрах гиперскейлеров. Платформа NVIDIA Quantum-X800 ориентирована на наиболее производительные ИИ- и HPC-кластеры. Она использует новое поколение технологии InfiniBand, всё ещё обладающей рядом преимуществ в сравнении с Ethernet, и включает в себя обновлённые SHARP-движки. Технология SHARPv4 реализует «вычисления в сети» (In-Network Computing), что позволяет не только существенно разгрузить вычислительные узлы и серверы, но и обеспечить более высокую пропускную способность интерконнекта вкупе с более серьёзными возможностями его масштабирования. Основой платформы Quantum-X800 стал 4U-коммутатор Q3400-RA, впервые в индустрии, как говорит компания, использующий 200G-блоки SerDes для каждой линии InfiniBand. Коммутатор располагает 144 портами 800G в 72 OSFP-модулях и выделенным портом для Unified Fabric Manager. Новинка имеет стандартное 19″ исполнение с воздушным охлаждением, но есть и вариант Q3400-LD с жидкостным охлаждением, предназначенный для 21″ OCP-стоек. В двухуровневом варианте fat tree коммутаторы позволят объединить 10 368 NIC. Основным адаптером для новой платформы InfiniBand является ConnectX-8 SuperNIC с интерфейсом PCIe 6.0. Он является частью SHARPv4 и предлагается в однопортовом (OSFP224) и двухпортовом (QSFP112) вариантах и в нескольких форм-факторах, включая OCP 3.0. На платах также имеется разъём SocketDirect на 16 линий PCIe. Также компания представила компоненты NVIDIA LinkX: оптические трансиверы 2xDR4/2xFR4 и активные медные кабели (LACC). Не забыла NVIDIA и про Ethernet: здесь вывести производительность сети на новый уровень должна платформа Spectrum-X800. Её основой служит новейший коммутатор SN5600 — это, по словам NVIDIA, первый в мире Ethernet-коммутатор класса 800GbE, специально разработанный для применения гиперскейлерами в крупных облачных ИИ-комплексах. Применяемая архитектура позволяет гарантировать каждому клиенту оптимальный и постоянный уровень производительности, а потоковая телеметрия позволит находить и ликвидировать возможные «бутылочные горлышки» в сети буквально на лету. Общая пропускная способность SN5600 составляет 51,2 Тбит/с. Коммутатор располагает 64 портами 800GbE в формате OSFP. В нём используется ASIC пятого поколения на базе архитектуры Spectrum-4. В качестве основного адаптера предлагается SuperNIC на базе DPU BlueField-3 с двумя 400GbE-портами. Spectrum-X800 сопровождает полноценный спектр инфраструктурных компонентов, включая кабели DAC и LACC. С оптическими трансиверами длина соединения 800GbE может достигать двух километров. Начиная со следующего года, решения на базе новых сетевых платформ NVIDIA будут доступны от широкого круга поставщиков оборудования, включая Aivres, DDN, Dell Technologies, Eviden, Hitachi Vantara, HPE, Lenovo, Supermicro и VAST Data.
11.03.2024 [16:47], Алексей Степин
Synopsys завершила разработку платформы Ethernet 1,6 Тбит/сИзвестный разработчик микроэлектроники, компания Synopsys сообщила о завершении работ над новым сверхскоростным вариантом Ethernet, способным работать на скорости 1,6 Тбит/с, что вдвое превышает достигнутые коммерческими решениями на сегодня скорости. Эта разработка нацелена главным образом на рынок крупных ЦОД, особенно связанных с ИИ-технологиями, предъявляющими высокие требования к характеристикам сетевых каналов и интерконнектов. В настоящее время стандарт 1.6TbE не ратифицирован IEEE, и случится это не ранее 2026 года, но Synopsys считает, что применение её наработок в этой области позволит производителям микрочипов начать работу над созданием соответствующих контроллеров уже сейчас. Предварительная версия стандарта 802.3dj, описывающего базовые характеристики таких устройств, должна быть завершена уже в этом году. Дизайн IP-блоков, созданный Synopsys, базируется именно на 802.3dj. Он предусматривает скорости 4 × 400 Гбит/с, 2 × 800 Гбит/с, либо один канал со скоростью 1,6 Тбит/с. В разработке используются блоки SerDes со скоростью 112 и 224 Гбит/с, отвечающие спецификациям OIF-112G и OIF-224G соответственно. В IP-решении Synopsys используются трансмиттеры PAM4, в которых реализована продвинутая обработка сигнала (feed-forward equalization), ресиверы же содержат продвинутый DSP. Это сочетание позволяет соединению работать при потере сигнала в канале, составляющей 45 дБ. Synopsys утверждает, что её технологии позволят реализовать Ethernet со скоростью 1,6 Тбит/с с 50 % экономией площади кремния. Продвинутая архитектура коррекции ошибок при этом должна обеспечить латентность на 40 % ниже в сравнении с классической реализацией. В состав решения Synopsys входят блоки MAC, PCS, контроллер физического уровня (PHY) на основе прошедших тестирование и доказавших свою эффективность SerDes-блоков 224G, а также IP-модуль верификации, который должен помочь разработчикам чипов ускорить и упростить разработку новых сверхскоростных Ethernet-чипов. Все IP-компоненты доступны сейчас и ими уже воспользовались многочисленные клиенты, сообщает Synopsys. Новая разработка Synopsys получила одобрение со стороны консорциума Ethernet.
27.02.2024 [21:27], Сергей Карасёв
«Морион» наладил в Перми серийное производство отечественных управляемых Ethernet-коммутаторовМинистерство промышленности и торговли Пермского края сообщило о том, что местный разработчик и производитель оборудования связи «Морион» организовал серийный выпуск управляемых Ethernet-коммутаторов для построения высокопроизводительных сетей связи. Организовано серийное производство коммутаторов КРМ-5960 и КАМ-3284. Устройства первого семейства относятся к моноблочному типу: они оснащены 20 портами 1GbE RJ-45, четырьмя разъёмами 1GbE RJ-45/SFP и четырьмя портами 10GbE SFP+. Диапазон рабочих температур в зависимости от модификации простирается от 0 до +50 °C или от +5 до +40 °C. Решения КАМ-3284 представлены в блочно-модульном исполнении: они содержат по четыре оптических или электрических порта на модуль — до 24 портов в блоке. Эти коммутаторы могут эксплуатироваться при температурах от -10 до +55 °C при воздействии вибрации, многократных ударов и соляного тумана. Устройства можно применять в подвижных комплексах связи, в прибрежных морских зонах, на надводных лодках и пр. Упомянуты функции контроля доступа с высоким уровнем безопасности и ограничением трафика, в том числе при работе с инфраструктурой, построенной на базе российской платформы Astra Linux. Отмечается, что изделия изготавливаются преимущественно из российских комплектующих — уровень локализации составляет 70 %. Правда, не уточняется, о каких именно компонентах идёт речь. «Морион» уже поставляет коммутаторы для ведомственных и технологических сетей связи нефте- и газотранспортных предприятий, железнодорожных и сетевых компаний энергетической системы. В 2024 году планируется выпуск более 140 моделей управляемых коммутаторов. Инвестиции в проект превышают 140 млн руб. Из них 46 млн руб. предоставил федеральный Фонд развития промышленности (ФРП), ещё 20 млн руб. — региональный ФРП Пермского края. Нужно отметить, что выпуск коммутаторов наладили и многие другие российские компании. В их число входят производитель инфраструктурного IT-оборудования Fplus, поставщик сетевого телекоммуникационного оборудования операторского класса N3COM, дочернее предприятие Росатома «ТВЭЛ» и «Аквариус». |
|