Материалы по тегу: facebook

25.01.2022 [03:33], Владимир Мироненко

Meta и NVIDIA построят самый мощный в мире ИИ-суперкомпьютер RSC: 16 тыс. ускорителей A100 и хранилище на 1 Эбайт

Meta (ранее Facebook) анонсировала новый крупномасштабный исследовательский кластер — ИИ-суперкомпьютер Meta AI Research SuperCluster (RSC), предназначенный для ускорения решения задач в таких областях, как обработка естественного языка (NLP) с обучением всё более крупных моделей и разработка систем компьютерного зрения.

На текущий момент Meta RSC состоит из 760 систем NVIDIA DGX A100 — всего 6080 ускорителей. К июлю этого года, как ожидается, система будет включать уже 16 тыс. ускорителей. Meta ожидает, что RSC станет самым мощным ИИ-суперкомпьютером в мире с производительностью порядка 5 Эфлопс в вычислениях смешанной точности. Близкой по производительность системой станет суперкомпьютер Leonardo, который получит 14 тыс. NVIDIA A100.

Изображения: Meta

Изображения: Meta

Meta RSC будет в 20 раз быстрее в задачах компьютерного зрения и в 3 раза быстрее в обучении больших NLP-моделей (счёт идёт уже на десятки миллиардов параметров), чем кластер Meta предыдущего поколения, который включает 22 тыс. NVIDIA V100. Любопытно, что даже при грубой оценке производительности этого кластера он наверняка бы попал в тройку самых быстрых машин нынешнего списка TOP500.

Новый же кластер создаётся с прицелом на возможность обучения моделей с триллионом параметров на наборах данных объёмом порядка 1 Эбайт. Именно такого объёма хранилище планируется создать для Meta RSC. Сейчас же система включает массив Pure Storage FlashArray объемом 175 Пбайт, 46 Пбайт кеш-памяти на базе систем Penguin Computing Altus и массив Pure Storage FlashBlade ёмкостью 10 Пбайт. Вероятно, именно этой СХД и хвасталась Pure Storage несколько месяцев назад, не уточнив, правда, что речь шла об HPC-сегменте.

Итоговая пропускная способность хранилища должна составить 16 Тбайт/с. Meta RSC сможет обучать модели машинного обучения на реальных данных, полученных из социальных сетей компании. В качестве основного интерконнекта используются коммутаторы NVIDIA Quantum и адаптеры HDR InfiniBand (200 Гбит/с), причём, судя по видео, с жидкостным охлаждением. Каждому ускорителю полагается выделенное подключение. Фабрика представлена двухуровневой сетью Клоза.

Meta также разработала службу хранения AI Research Store (AIRStore) для удовлетворения растущих требований RSC к пропускной способности и ёмкости. AIRStore выполняет предварительную обработку данных для обучения ИИ-моделей и предназначена для оптимизации скорости передачи. Компания отдельно подчёркивает, что все данные проходят проверку на корректность анонимизации. Более того, имеется сквозное шифрование — данные расшифровываются только в памяти узлов, а ключи регулярно меняются.

Однако ни о стоимости проекта, ни о потребляемой мощности, ни о физическом местоположении Meta RSC, ни даже о том, почему были выбраны узлы DGX, а не HGX (или вообще другие ускорители), Meta не рассказала. Для NVIDIA же эта машина определённо стала очень крупным и важным заказом.

Постоянный URL: http://servernews.ru/1058640
26.12.2021 [15:15], Владимир Мироненко

FCC рекомендуют одобрить подводный интернет-кабель Pacific Light Cable Network между США и Азией

Комитет Team Telecom, объединяющий представитилей нескольких министерств США и изучающий вопросы безопасности телекоммуникационных проектов с зарубежным участием, рекомендовал FCC одобрить использование кабеля Pacific Light Cable Network (PLCN), соединяющего США и Азию, после того, как Google и Meta (Facebook) договорились «ограничить доступ к информации и инфраструктуре третьему члену консорциума, китайской компании Pacific Light Data Communications Co Ltd».

Прокладка 120-Тбит/с кабеля Pacific Light Cable Network протяжённостью почти 12 тыс. км практически завершена, но его ввод в эксплуатацию неоднократно откладывали из-за отсутствия утверждения Федеральной комиссии по связи (FCC). Кабель, содержащий шесть оптоволоконных пар, изначально был предназначен для соединения США, Тайваня, Филиппин и Гонконга. Но в связи с ростом напряжённости между США и Китаем и усилением контроля Пекина над Гонконгом регулирующие органы США отказались одобрять проект.

Изначальный маршрут PLCN (Изображение: Pacific Light Data Communication Co., Ltd)

Изначальный маршрут PLCN (Изображение: Pacific Light Data Communication Co., Ltd)

В июне 2020 года FCC призвали отклонить проект, который стал бы первой возможностью обеспечения связи напрямую между США и Гонконгом. В 2016 году, когда было объявлено о прокладке кабеля, крупнейшим инвестором проекта была китайская компания Pacific Light Data Communications Co. (PLDC). Затем магнат Вэй Цзюнькан (Wei Junkang) продал большую часть своей доли в PLDC, владеющей четырьмя парами волокон, «дочке» китайской телеком-компании Dr. Peng Telecom & Media Group, которую подозревают в связи с Huawei и властями Китая соответственно.

Теперь Google и Meta договорились, что PLDC будет иметь ограниченный доступ к инфраструктуре и информации, а также отказались от использования гонконгского участка кабеля. Компании также планируют ежегодно проводить оценку рисков в отношении сохранности конфиденциальных данных и рассмотрят возможность добавления маршрутов до Индонезии, Сингапура и Вьетнама.

Постоянный URL: http://servernews.ru/1056765
17.12.2021 [14:18], Руслан Авдеев

Meta (Facebook) построит крупнейший в Нидерландах дата-центр: 1,38 ГВт, 166 га и €700 млн

Как сообщает Reuters, город Зееволде, расположенный в 50 км от Амстердама, одобрил планы Meta, готовой построить крупнейший в Нидерландах дата-центр. Основным назначением нового ЦОД станет обслуживание пользователей Facebook, Instagram и WhatsApp на территории Западной Европы. Представитель Meta сообщил, что первоначальные затраты на строительство составят порядка €700 млн, а дата завершения постройки пока не определена.

Объект площадью 166 га будет потреблять 1,38 ГВт и, как ожидается, будет использовать только «зелёную» энергию, в то же время являясь значимым фактором роста для локальной экономики — центр позволит создать 400 рабочих мест в населённом пункте с населением 20 000 человек. Тем не менее, идея его создания неоднократно критиковалась некоторыми политиками и экоактивистами. По оценкам НКО Dutch Data Centre Association, расположенные в Нидерландах ЦОД используют порядка 3 % всей электроэнергии в стране, но к 2030 году этот показатель может вырасти до 10 %.

Изображение: www.zeewolde.nl

Изображение: www.zeewolde.nl

Хотя предыдущий состав голландского министерства экономики лоббировал строительство новых ЦОД в стране, включая реализацию крупных проектов компаниями вроде Google и Microsoft, недавно политики начали задаваться вопросами — не должны ли число и местоположение дата-центров определяться национальным правительством? По мнению представителей партий, формирующих новое правительство, дата-центры требуют «необоснованно много» доступной возобновляемой энергии в сравнении с их общественной и экономической значимостью. Об этом они заявили ещё до голосования, проведённого городским советом Зееволде.

Члены правящих партий пообещали в будущем уделять больше внимания национальной координации подобной деятельности и уточнить критерии получения лицензий для такой активности. Тем не менее многие политики признают, что, несмотря на недостатки, связанные с постройкой большого ЦОД в маленьком городе, имеются более важные преимущества, способствующие развитию населённого пункта, причём дата-центры просто необходимы для современной инфраструктуры. Вопрос в том, где именно они будут построены — выгоднее создавать их в Западной Европе, под европейской юрисдикцией.

UPD 22.12.2021: как сообщает Data Center Dynamics, постройка нового дата-центра снова оказалась под угрозой, поскольку парламент страны временно приостановил сделку по продаже земли компании Meta.

Постоянный URL: http://servernews.ru/1056133
03.12.2021 [18:30], Сергей Карасёв

Meta (Facebook) укрепляет отношения с облаком AWS

Компания Meta, являющаяся материнской структурой Facebook, Instagram, WhatsApp и Oculus, объявила о намерении расширить сотрудничество с облачной платформой Amazon Web Services (AWS). В то же время Meta продолжит инвестировать средства в развитие собственной инфраструктуры.

В ходе конференции AWS Re:Invent в Лас-Вегасе (Невада, США) компания Meta заявила, что Amazon станет её долгосрочным стратегическим провайдером облачных сервисов. Это означает, что Meta расширит сферу применения вычислительных ресурсов и хранилищ на базе AWS. В частности, облачную платформу Amazon планируется задействовать для упрощения поглощений сторонних компаний, которые уже используют сервисы AWS.

Источник изображения: pixabay.com / RobertCheaib

Источник изображения: pixabay.com / RobertCheaib

Мощности AWS также помогут Meta в осуществлении исследований и разработок, связанных со средствами искусственного интеллекта и машинного обучения. «Meta и AWS расширяли сотрудничество на протяжении последних пяти лет. Данное соглашение подразумевает, что AWS продолжит поддерживать исследования и разработки Meta, ускорять инновации, обеспечивать взаимодействие с третьими сторонами и сообществом open source», — отмечает облачная платформа.

Вместе с тем основная часть нагрузок Facebook, Instagram, WhatsApp и Oculus, как и прежде, будет работать в собственных центрах обработки данных Meta. Ежегодно компания тратит десятки миллиардов долларов на расширение своих IT-площадок, установку серверов и прокладку подводных интернет-кабелей.

Постоянный URL: http://servernews.ru/1055139
21.11.2021 [01:54], Игорь Осколков

Meta (Facebook) и Intel показали прототип сервера с CXL-памятью: DDR4 поверх PCIe 5.0

На SC21 консорциум CXL не только объявил о поглощении всех наработок Gen-Z, но и представил несколько демо от разных участников консорциума. Одним из самых интересных стал показ прототипа сервера с CXL-памятью от Meta (бывшая Facebook). Доклад о нём был сделан ещё на OCP Global Summit, но вот видеодемонстрация стала публичной только на этой неделе.

FPGA-протототип CXL-модуля с DDR4 (Фото: Intel)

FPGA-протототип CXL-модуля с DDR4 (Фото: Intel)

Перед Meta давно встала проблема увеличения ёмкости и плотности размещения DRAM. Причём у компании, как и других гиперскейлеров, очень жёсткие ограничения на физические размеры, энергопотребление и стоимость систем — создание и содержание парка в миллионы серверов выливается в круглые суммы. Представитель Meta в ходе доклада отметил несколько важных факторов, учитываемых при создании новых платформ.

Здесь и ниже изображения Meta

Здесь и ниже изображения Meta

Так, в последние годы цена за 1 Гбит DRAM перестала существенно падать, поэтому память становится всё более дорогим компонентом в составе сервера. И не только с точки зрения финансов, но и по энергопотреблению, что отрицательно влияет на совокупную стоимость владения (TCO). Кроме того, производительность процессоров заметно выросла, в основном благодаря увеличению числа ядер (в три с лишним раза). Однако пропускная способность памяти в пересчёте на канал в среднем лишь удвоилась, а в пересчёте на ядро — и вовсе упала почти вдвое.

Тем не менее, ядра CPU всё равно надо как-то «прокормить», поэтому приходится искать новые пути масштабирования пула DRAM. Простым увеличением числа DIMM-слотов не обойтись — каждый «лишний» канал памяти обходится в дополнительные пару сотен дорожек в разводке платы, что при росте числа каналов приводит к увеличению числа слоёв материнской платы (и буквально её толщины). А попутное увеличение скорости памяти ведёт к необходимости использования более дорогих материалов и всё тем же проблемам.

Как отмечают некоторые аналитики, платформы следующего поколения с поддержкой DDR5 будут дороже нынешних, но дело не в самой памяти, динамика удешевления которой будет примерно той же, что у DDR4, а именно в необходимости увеличения числа слоёв в материнских платах где-то на треть. Решением мог бы стать переход на последовательные интерфейсы — буферизованная DDIM-память (OMI) уже используется в серверах IBM E1080, но компактной её не назовёшь.

Однако у нас и так уже есть другой, универсальный и широко распространённый последовательный интерфейс — это шина PCI Express 4.0, а в ближайшем будущем и 5.0. Она обеспечивает приемлемую скорость передачи данных, но требует где-то на три четверти меньше сигнальных линий, которые могут иметь бо́льшую протяжённость по сравнению с DDR. Строго говоря, попытки создать PCIe-фабрики для дезагрегации ресурсов уже предприняты, к примеру, GigaIO и Liqid. С приходом CXL это станет ещё проще.

CXL позволит задействовать разные типы памяти с разными характеристиками, используя единый интерфейс. Например, можно с одной и той же платформой использовать и DDR5, и DDR4, и SCM (PMem). Чем-то похожим занимался и консорциум Gen-Z, куда, как ни странно, не входила Intel, которая и стала одним из основателей и апологетов Compute Express Link. С ней-то Meta и работает около года над прототипом нового сервера и платы расширения с DRAM для него.

Прототип использует сервер с инженерным образцом Intel Xeon Sapphire Rapids и стандартную карту расширения для платформы Yosemite v3. Карта с x16-подключением PCIe 5.0 несёт на борту инженерную версию FPGA (вероятно, что-то из серии Agilex) с двумя контроллерами памяти и двумя же слотами DIMM для обычной регистровой DDR4 суммарным объёмом 64 Гбайт. На базе FPGA реализован интерфейс CXL 2.0, который имеет поддержку протокола CXL.memory и даёт расширенные возможности мониторинга и отладки.

При старте системы происходит опрос доступных PCIe-устройств и согласование с ними скоростей и возможностей, после чего становится доступна оперативная память, физически размещённая на карте расширения, а не только локальная DDR5, «привязанная» к процессору. В этом случае система «видит» несколько NUMA-доменов — два от самого CPU и ещё один «безпроцессорный». Прототип успешно проходит все базовые тесты, так что программно-аппаратный стек уже достаточно хорошо проработан.

Постоянный URL: http://servernews.ru/1054197
15.11.2021 [23:18], Руслан Авдеев

Meta (Facebook) и GlobeNet проложат подводный интернет-кабель Malbec

Компания Meta объединила усилия с GlobeNet для запуска кабеля Malbec — подводного канала связи протяжённостью 2500 км, соединяющего бразильские Рио-де-Жанейро и Сан-Паулу. В будущем он также свяжет бразильский Порту-Алегри и Буэнос-Айрес (Аргентина). Кабель использует новейшие разработки в области оптоволоконных технологий, включая SDM, а также современные усилители и транспондеры. Он позволит гражданам и бизнесу получить более быстрый и надёжный доступ в интернет.

Источник изображения: engineering.fb.com

Источник изображения: engineering.fb.com

Наземная станция связи, к которой выводится кабель, расположена в аргентинском Лас-Тониньяс. Malbec не только увеличит доступную пропускную способность интернет-связи для Аргентины, но и повысит надёжность связи для страны в целом. По данным консалтинговой компании NERA Economic Consulting, кабель увеличит уровень проникновения интернета в Аргентине на 6 %, а в Бразилии — на 3 %.

Постоянный URL: http://servernews.ru/1053778
11.11.2021 [18:01], Алексей Степин

Meta уже использует в своей инфраструктуре чипы Broadcom Tomahawk 4

О планах Meta (ранее известной как Facebook) уже рассказывалось неоднократно — так, к примеру, на OCP Global Summit компания сообщила о том, что открытые технологии позволяют ей использовать сетевые процессоры разных производителей. Есть и более любопытная новость: Broadcom объявила о том, что первой в индустрии массовой платформой на базе нового коммутатора Tomahawk 4 стала система Meta Minipack2.

Если серия коммутаторов Wedge 400 базируется на кремнии с предельной производительностью обработки трафика 12,8 Тбит/с, то в основе Minipack2 лежит наиболее продвинутая на сегодня разработка Broadcom, чип Tomahawk 4 (BCM56990), способный «прокачивать» трафик на вдвое большей скорости — 25,6 Тбит/с. Этот ASIC в максимальной конфигурации способен обслуживать до 64 портов 400GbE и вдвое больше портов 200GbE. В настоящее время это единственный производимый в достаточных количествах 7-нм коммутатор с такой производительностью.

Meta Minipack2

Meta Minipack2

Благодаря 7-нм техпроцессу Tomahawk4 обеспечивает низкий удельный уровень энергопотребления и тепловыделения, а эти факторы критичны с учётом сверхплотной компоновки ЦОД Meta. Так, максимальный TDP нового чипа составляет всего 450 Ватт, и с учётом вдвое более высокой производительности по сравнению с Tomahawk 3 — это совсем немного, поскольку у последнего этот показатель составлял 300 Ватт.

Архитектура Broadcom Tomahawk 4

Архитектура Broadcom Tomahawk 4

Платформа Meta Minipack2 относится к коммутаторам класса leaf/spine, в ней ASIC Broadcom работает в конфигурации 128 × 200GbE, но сам коммутатор, как и его предшественник первого поколения, имеет модульную конструкцию, позволяющую использовать разные типы сетевых интерфейсов: либо 128 портов QSFP56, либо 64 порта QSFP-DD (для новой 400GbE-топологии F16). Дополняют Tomahawk 4 ретаймеры Barchetta 2 на базе SerDes-блоков PAM4 56 Гбит/с, а также Intel Xeon D-1527.

Arista Networks 7388X5 также имеет модульную конструкцию

Arista Networks 7388X5 также имеет модульную конструкцию

Но Minipack2 не единственная новинка Meta — компания активно сотрудничает с Arista Networks, представившей коммутатор Arista 7388X5, который также базируется на Tomahawk 4. Этот коммутатор также имеет модульную компоновку, но отличается большей ориентированностью на инфраструктуру гиперскейлеров и имеет выделенный криптографический SerDes-сопроцессор Credo MACSec, обеспечивающий шифрование AES-256.

Постоянный URL: http://servernews.ru/1053522
11.11.2021 [16:55], Руслан Авдеев

Meta (Facebook) удвоит число дата-центров

По словам президента по вопросам инфраструктуры и ЦОД Meta (бывшей Facebook) Тома Фарлонга (Tom Furlong), к 48 активным дата-центрам компании в ближайшем будущем добавится ещё 47. Компания уже активно ведёт строительство. Сейчас у неё есть 18 кампусов ЦОД по всему миру.

По завершении строительства их общая площадь составит почти 372 га. Создание такого количества мощностей обязательно станет серьёзной проблемой в условиях пандемии, перебоев в цепочках поставщиков и роста цен. В следующем году капитальные расходы Meta составят до $34 млрд, тогда как в этом году они скромнее — до $19 млрд. Также компания подписала контракты на поставку ещё 7 ГВт «зелёной» энергии от солнечных и ветряных электростанций.

Источник изображения: about.fb.com

Источник изображения: about.fb.com

Компания не одинока — крупнейшие операторы ЦОД и облаков вынуждены тратить миллиарды долларов на расширение мощностей для удовлетворения растущего спроса на облачную IT-инфраструктуру. По данным Synergy Research Group в 2021 году капитальные расходы гиперскейлеров выросли на треть — 19 крупнейших игроков за шесть месяцев в совокупности потратили $83 млрд. Масштабы затрат могут легко увеличиться с учётом амбиций Meta и деятельности конкурентов. Только Microsoft намерена строить по 50-100 дата-центров ежегодно.

Постоянный URL: http://servernews.ru/1053517
10.11.2021 [17:08], Алексей Степин

Meta представила 400G-коммутаторы Wedge 400 и 400C на чипах Broadcom и Cisco

На саммите OCP компания Meta (ранее Facebook) рассказала о своей новой сетевой платформе, которая является основой инфраструктуры её дата-центров. В частности, Meta с прошлого года использует новые модульные ToR-коммутаторы, которые не только основаны на более современных чипах, но и используют открытые API.

Meta давно переросла статус просто «социальной сети». Очевидно, что ИТ-компания таких масштабов нуждается в подходящей сетевой и вычислительной инфраструктуре. С учётом того, что Meta планирует активно развивать направления виртуальной и дополненной реальности, уже существующих мощностей может и не хватить, поэтому в своём выступлении на OCP Global Summit компания рассказала о планах по модернизации сетевых решений.

Wedge 400C (Здесь и далее изображения Meta/OCP)

Wedge 400C (Здесь и далее изображения Meta/OCP)

Предыдущее поколение коммутаторов top-of-rack (ToR) Meta Wedge 100 было разработано Edgecore Networks. Это достаточно мощные устройства, базирующиеся на платформе Broadcom Tomahawk и CPU Intel Pentium D1508. Но предельная скорость 100 Гбит/с на порт уже недостаточна для задач Meta, поэтому компания активно заменяет эти коммутаторы на более новые Wedge 400 и 400C, производство которых снова отдано Celestica. Процесс перехода начался ещё в июле 2020 года.

Wedge 400 базируется на чипе Broadcom Tomahawk 3, а в основе модели Wedge 400C лежит чип Cisco Silicon One. В обоих случаях используются ASIC, способные обрабатывать трафик на скорости 12,8 Тбит/с. Дополняет их Intel Xeon D-1527. Модульная конструкция Wedge 400(C) позволяет заменять большинство компонентов, включая процессорные модули, на лету. На переднюю панель выведено 16 портов 400GbE (QSFP-DD) и 32 порта 200GbE (QSFP56). При этом шасси имеет высоту всего 2OU.

Примечательно, что в этом поколении используется открытый стандарт SAI, продвигаемый консорциумом OCP в сотрудничестве с Broadcom и Cisco. Сетевой ОС Meta по-прежнему является Facebook Open Switching System (FBOSS), доработанная с учётом SAI. Это позволяет компании использовать сетевые процессоры разных производителей в единой системе без необходимости глубокой адаптации под каждую платформу.

Также стоит отметить, что в своих ЦОД Meta уже перешла на оптическое подключение 200G-FR4 и активно работает над переходом к 400G-FR4. Отдельное внимание уделено совместимости — новые модули будут работать как минимум с двумя поколениями коммутаторов, а то и с тремя.

Постоянный URL: http://servernews.ru/1053412
10.11.2021 [00:49], Игорь Осколков

North Dome — первый сервер Meta (Facebook) с процессорами AMD EPYC Milan

В рамках OCP Global Summit компания Meta (ранее известная как Facebook) показала свои первые серверы North Dome на базе процессоров AMD EPYC Milan. Но сразу же стоит уточнить два момента. Во-первых, сама платформа фактически была представлена ещё в сентябре. Во-вторых, в экосистеме OCP это не первые серверы с процессорами AMD.

В рамках Project Olympus от Microsoft различные варианты серверов с 2017 года представили MiTAC, Quanta и ZT Systems. У MiTAC также есть свежие решения Tioga Pass этого года, но появление платформы от самой Meta гораздо важнее, поскольку компания ранее предпочитала решения Intel. Meta отмечает существенный прирост в производительности на Ватт по сравнению с серверами Twin Lakes на базе Intel Xeon D-2100. Да и наличие «второго источника» для неё, вероятно, тоже стало критичным.

Сервер North Dome (Здесь и далее изображения Meta/OCP)

Сервер North Dome (Здесь и далее изображения Meta/OCP)

North Dome предназначен для платформы Yosemite V2, а не более свежей Yosemite V3, которая использует уже процессоры Intel Xeon Cooper Lake-SP. Тем не менее, обе эти платформы модульные и не привязаны к конкретному производителю CPU, GPU, SSD и прочих компонентов. Поскольку это платформа с достаточно высокой плотностью размещения и воздушным охлаждением, существенным ограничением для процессоров является типовой уровень TDP — обычно от 85 до 105 Вт.

Сервер North Dome имеет один сокет SP3 и поддерживает установку и Rome, и Milan, но полная валидация сделана только для последнего поколения EPYC. Вокруг сокета есть шесть DIMM-слотов (1DPC) для модулей памяти DDR4-2667/3200. На обратной стороне платы есть два слота для NVMe SSD: M.2 2280 и 22110. Суммарно сервер предоставляет 29 линий PCIe 3.0/4.0: x16 и x8 с возможностью бифуркации + x4 + x1. Также доступен один порт USB 2.0 и интерфейсы I2C и UART.

В сервере используется кастомный 36-ядерный процессор EPYC Milan c TDP 95 Вт, оптимизированный для достижения лучшего соотношения производительности (общей и на каждый поток), энергопотребления и латентности. Доработке подверглись BIOS, ОС и средства разработки. AMD и Meta совместно работают над оптимизацией рабочих нагрузок. Это в основном веб, ИИ и СУБД.

Постоянный URL: http://servernews.ru/1053355
Система Orphus