Материалы по тегу: google cloud platform

22.05.2024 [21:45], Руслан Авдеев

Google обогнала AMD на рынке процессоров для ЦОД и вот-вот догонит Intel

В прошлом месяце компания Google анонсировала долгожданный серверный CPU на архитектуре Arm. Впрочем, как сообщает The Register, она уже оказалась третьей на рынке процессоров для ЦОД (сюда входят не только CPU, но и GPU, TPU и иные ускорители). Согласно отчёту TechInsights, компания теперь уступает только NVIDIA и Intel и давно обогнала AMD.

 Источник изображения: Google

Источник изображения: Google

Как и другие крупные облачные операторы, IT-гигант выпускает собственные чипы TPU, шестое поколение которых было представлено на прошлой неделе. Хотя на сторону их не продают, компания заказывает огромные партии TPU для оснащения собственных ЦОД — только в прошлом году речь шла о 2 млн штук. Ключевым партнёром Google в создании кастомного «кремния» является Broadcom.

Поставки TPU нарастают с каждым поколением, следуя за ростом самой компании. После премьеры TPU v4 в 2021 году в связи с развитием больших языковых моделей (LLM) объём полупроводникового бизнеса Google значительно вырос. TPU применяются компанией для внутренних задач, а ускорители NVIDIA — для облака. В TechInsights считают, что на сегодняшний день у Google имеется крупнейшая в отрасли база установленных ИИ-ускорителей и самая масштабная ИИ-инфраструктура.

 Источник изображения: TechInsights

Источник изображения: TechInsights

В прошлом году на серверным рынке произошла «масштабная коррекция запасов» — гиперскейлеры увеличили срок службы оборудования, отложив замену серверов общего назначения и повысив капитальные затраты на ИИ-серверы и ускорители NVIDIA. Аналитики Omdia говорят о таких тенденциях на рынке что в прошлом, что в начале этого года. В TechInsights считают, что по итогам I квартала 2024 года Google сможет догнать или даже перегнать Intel по доле на этом рынке.

Конечно, Google — не единственная облачная компания, разрабатывающая собственные чипы. Microsoft работает над серверным CPU Azure Cobalt и ИИ-ускорителями Maia 100. AWS и вовсе годами использует собственные Arm-процессоры Graviton и ИИ-ускорители серий Trainium и Inferentia. В прошлогоднем докладе Bernstein Research сообщалось, что архитектуру Arm используют уже около 10 % серверов по всему миру, а более 50 % из них внедряется AWS. Softbank в начале 2023 года говорила о том, что Arm захватила 5 % облачного рынка.

 Источник изображения: TechInsights

Источник изображения: TechInsights

Впрочем, с появлением процессоров TPU V5e и TPU V5p решения Google будут использоваться всё шире из-за «взрывного роста» больших языковых моделей вроде Gemini. В 2024 году у Google появится Arm-процессор Axion. И его внедрение, по мнению TechInsights, будет происходить намного быстрее, чем Graviton, поскольку у Google уже имеется программная инфраструктура для такого чипа. Всё это необходимо компании, чтобы идти в ногу с AWS, Microsoft и, в меньшей степени, Alibaba. При этом в докладе упоминается, что рынок полупроводников для ЦОД быстро меняется — раньше на нём доминировала Intel с архитектурой x86. Теперь его структура определяется потребностями ИИ-систем.

Постоянный URL: http://www.servernews.ru/1105235
20.05.2024 [13:50], Руслан Авдеев

Google Cloud умудрилась поломать собственную сетевую инфраструктуру, но быстро исправилась

Прошла всего неделя после того, как Google удалила облачную учётную запись австралийского пенсионного фонда UniSuper, но, похоже, инженеры компании только начинают входить во вкус. По данным The Register, в минувшую пятницу Google Cloud нарушила работу десятков сервисов.

Изначально в Google Cloud объявили о запуске «автоматизации техобслуживания для отключения неиспользуемого компонента контроля сети в одной локации». Но в результате отключение состоялось сразу в 40 локациях, так что почти три часа пользователи 33 сервисов Google Cloud, включая крупные службы вроде Compute Engine и Kubernetes Engine, столкнулись с рядом проблем:

  • новые инстансы не имели сетевого подключения;
  • перенесённые/перезапущенные виртуальные машины потеряли сетевое подключение;
  • конфигурации виртуальных сетей (брандмауэров и т.п.) обновить не удалось;
  • частичная потеря пакетов для отдельных сетевых потоков VPC (Virtual Private Cloud) в регионах us-central1 и us-east1;
  • невозможность выделения портов (DPA) в Cloud NAT;
  • сбои при создании новых узлов и пулов GKE (Google Kubernetes Engine).

Прочие сервисы, требовавшие использования виртуальных машин в Google Cloud Engine или обновление конфигураций сети, столкнулись с проблемами с 15:22 по 18:10 по тихоокеанскому времени США.

 Источник изображения: NOAA/unsplash.com

Источник изображения: NOAA/unsplash.com

В Google объяснили инциденты ошибкой в системе автоматизированного отключения сетей. После перезапуска некорректно работавшего компонента проблема была устранена. Инструмент автоматизации заблокировали до принятия необходимых мер безопасности, а клиентам сообщили, что пока риска повторения сбоев нет. Впрочем, подмоченная репутация компании позволяет усомниться в её заявлениях. Облачное подразделение Google пообещало со временем раскрыть больше информации о произошедшем.

Постоянный URL: http://www.servernews.ru/1105075
09.05.2024 [21:40], Владимир Мироненко

Google Cloud случайно удалила частное облако австралийского пенсионного фонда UniSuper. И запасное тоже

Около недели более полумиллиона участников австралийского пенсионного фонда UniSuper не имели доступа к своим аккаунтам из-за сбоя, который привёл к удалению частного облака фонда в Google Cloud, пишет The Guardian. Главы UniSuper и Google Cloud выступили с совместным заявлением, согласно которому это был «отдельный, “единственный в своем роде случай”, который никогда раньше не происходил ни с одним из клиентов Google Cloud во всем мире».

В Google Cloud отметили, что «сбой произошёл из-за беспрецедентной последовательности событий, в результате которых непреднамеренная неправильная конфигурация во время предоставления услуг частного облака UniSuper в конечном итоге привела к удалению подписки фонда на частное облако». Облачный провайдер заявил, что выявил события, которые привели к этому сбою, и принял меры, чтобы это больше не повторилось.

 Источник изображения: UniSuper

Источник изображения: UniSuper

UniSuper дублирует данные в двух географических регионах, чтобы восстановить работу в случае потери одного из них. Но поскольку была удалена облачная подписка фонда целиком, это привело к потере в обоих облачных регионах. К счастью, фонд имел резервные копии у другого провайдера, поэтому данные удалось восстановить. Ранее UniSuper распределял рабочие нагрузки между сервисами Azure и двумя собственными ЦОД, но в прошлом году перенёс большую часть нагрузок на платформу Google Cloud Platform. UniSuper управляет средствами на сумму около $125 млрд.

К полудню четверга по австралийскому времени облачная инфраструктура UniSuper восстановила работу, а участники фонда получили доступ к своим аккаунтам. Вместе с тем балансы счетов пока не будут обновляться, хотя, как сообщается, часть операций уже доступна, а финансы участников не пострадали. Google также заверила членов UniSuper, что сбой не был вызван кибератакой и, следовательно, их конфиденциальные данные не были раскрыты неавторизованным лицам.

Сбои облачных сервисов случались и раньше, причём с ним сталкивались и основные провайдеры, включая AWS и Microsoft Azure. Но они справлялись с проблемами довольно быстро, чего не произошло в случае с UniSuper. Это может нанести ущерб Google с репутационной точки зрения и вызвать у клиентов недоверие к компании как поставщику услуг, говорит глава EEITrend. «На устранение сбоя в облаке UniSuper в Google Cloud в Австралии ушло необычно много времени, что негативно влияет на репутацию Google Cloud в регионе», — отметил он.

Постоянный URL: http://www.servernews.ru/1104573
27.04.2024 [14:32], Сергей Карасёв

Google вложит в развитие ЦОД до $50 млрд в 2024 году

Холдинг Alphabet, материнская структура Google, отрапортовал о работе в I четверти текущего финансового года, которая была закрыта 31 марта. Облачное подразделение Google Cloud Platform продемонстрировало значительный рост ключевых показателей, что объясняется расширением инфраструктуры дата-центров и стремительным развитием ИИ.

В период с января по март включительно выручка Google в облачном сегменте составила приблизительно $9,57 млрд. Это на 28 % больше прошлогоднего результата, когда было получено $7,45 млрд. При этом операционная прибыль взлетела в годовом исчислении практически в пять раз — со $191 млн до $900 млн.

Финансовый директор холдинга Alphabet Рут Порат (Ruth Porat) отмечает, что капитальные затраты Google за I квартал 2024 года достигли $12 млрд. Основная часть этой суммы пошла на расширение технической инфраструктуры: крупнейшей статьёй расходов стали закупки серверного оборудования, вслед за которыми идут инвестиции в расширение сети ЦОД. По словам Порат, в течение 2024-го в целом квартальные капитальные затраты Google будут примерно соответствовать сумме, потраченной в I четверти года. Таким образом, суммарные затраты на дата-центры в этом году составят почти $50 млрд. Для сравнения — Meta в этом году планирует потратить на те же нужды $35–$40 млрд.

 Источник изображения: Google

Источник изображения: Google

«Значительный рост инвестиций в инфраструктуру в течение последних кварталов отражает нашу уверенность в возможностях, которые предоставляют технологии ИИ», — сказала Порат.

В течение последнего времени Google анонсировала несколько крупных проектов по развитию дата-центров. Компания, в частности, построит кампус ЦОД стоимостью $1 млрд в британском Хартфордшире. Такую же сумму планируется выделить на создание площадки в Бельгии. Ещё в $1 млрд обойдётся строительство ЦОД-объектов в Аризоне, а на кампус дата-центров в Индиане будет затрачено $2 млрд. Наконец, €600 млн Google потратит на проект своего первого кампуса ЦОД в Норвегии.

Постоянный URL: http://www.servernews.ru/1103942
14.04.2024 [01:00], Владимир Мироненко

VAST Data Platform теперь доступна в облаке Google

Компания VAST Data адаптировала своё ПО Data Platform для облачной платформы Google, что позволит пользователям развёртывать на ней кластеры хранения VAST, пишет ресурс Blocks & Files. VAST предлагает платформу управления данными. В 2023 году она адаптировала софт для облачной платформы AWS. Вероятно, не за горами и появление решений VAST в Microsoft Azure.

В настоящее время VAST сосредоточилась на технологиях ИИ, заключая сделки с поставщиками кластеров ускорителей, такими как CoreWeave, и занимается разработкой систем класса Thinking Machines. VAST заявила, что её ПО на платформе Google Cloud открывает путь к бесшовному гибридному и облачному решению, которое предлагает централизованное управления данными посредством глобального пространства имён для файлов, объектов и структурированных данных.

 Источник изображения: VAST Data

Источник изображения: VAST Data

VAST сообщила, что её платформа будет способствовать в Google Cloud упрощению и ускорению работы, и обеспечению безопасности конвейеров ИИ в гибридном облаке. Также сообщается, что ПО VAST в Google Cloud снижает расходы на облако за счёт глобального сокращения данных, минимизируя количество копий данных. VAST утверждает, что разработка ИИ-проектов и обработка рабочих нагрузок станут эффективнее с помощью базы данных VAST и Apache Spark.

В описании решения VAST говорится, что присутствие в Google Cloud означает, что «использование локальных данных в GCP никогда не было проще благодаря глобальному пространству имён, что расширяет возможности сотрудничества и инноваций». «Это меняет правила игры в области эффективного управления и использования данных в гибридных средах, значительно повышая производительность и экономическую эффективность в облачных проектах искусственного интеллекта и аналитики», — утверждает компания.

Постоянный URL: http://www.servernews.ru/1103251
10.04.2024 [23:25], Владимир Мироненко

Google Cloud объявила о масштабном обновлении AI Hypercomputer

Google Cloud объявила о масштабном обновлении программно-аппаратного стека AI Hypercomputer, а также о новых инстансах на базе передовых ускорителей NVIDIA, пишет ресурс SiliconANGLE. Также компания представила обновлённую инфраструктуру хранения данных для рабочих нагрузок ИИ, базовое ПО для запуска моделей и более гибкие варианты использования ресурсов.

Компания объявила о доступности TPU v5p в GKE, что позволит клиентам обучать и обслуживать ИИ-модели, работающие в крупномасштабных кластерах TPU. В качестве альтернативы клиенты также смогут использовать ускорители NVIDIA H100 в составе инстансов A3. Одним из основных преимуществ нового подсемейства A3 Mega является поддержка конфиденциальных вычислений. В Google подчеркнули важность этой функции, поскольку обработка чувствительных данных в облаке считалась слишком рискованной из-за возможной утечки. Google Cloud пообещала предоставить клиентам ускорители NVIDIA Blackwell.

 Источник изображений: Google

Источник изображений: Google

Обновления включают в себя доступность модуля Cloud Storage FUSE, который предоставляет файловый доступ к ресурсам облачного хранилища. По данным Google, GCS FUSE обеспечивает увеличение производительности обучения в 2,9 раза по сравнению с существующими СХД. Другие улучшения включают появление поддержки кеширования в превью Parallelstore, высокопроизводительной параллельной файловой системы, оптимизированной для нагрузок ИИ и HPC. Благодаря кешированию Parallelstore позволит сократить время обучения до 3,9 раз и повысить производительность обучения в 3,7 раза.

Компания также объявила об оптимизации службы Google Cloud Filestore, ориентированной на ИИ, которая представляет собой сетевую файловую систему, позволяющую целым кластерам ускорителей получать одновременный доступ к одним и тем же данным. Ещё одно новшество — сервис Hyperdisk ML, предоставляющий блочное хранилище, доступный сейчас в качестве превью. Google Cloud сообщила, что его использование позволит ускорить загрузку модели до 12 раз по сравнению с альтернативными сервисами.

Кроме того, компания представила Jetstream, новую систему инференса LLM. Это открытое решение, оптимизированное по пропускной способности и использованию памяти для ИИ-ускорителей вроде TPU. По словам компании, новинка обеспечит в три раза более высокую производительность на доллар для Gemma 7B и других открытых ИИ-моделей, а это важно, поскольку клиенты переносят свои ИИ-нагрузки в облако и им нужен экономичный, но производительный инференс. JetStream предлагает поддержку моделей, обученных с помощью JAX и PyTorch/XLA, а также включает оптимизацию для популярных открытых моделей, таких как Llama 2 и Gemma.

Что касается собственно моделей, то компания представила MaxDiffusion для генерации изображений, добавила в MaxText ряд новых моделей, в том числе Gemma, GPT3, Llama 2 и Mistral. MaxDiffusion и MaxTest базируются на высокопроизводительном фреймворке JAX, который интегрирован с оптимизирующим компилятором OpenXLA. Заодно Google объявила о поддержке последней версии PyTorch — PyTorch/XLA 2.3.

Постоянный URL: http://www.servernews.ru/1103080
10.04.2024 [21:16], Владимир Мироненко

«Железо», ПО и доступ к инвесторам: NVIDIA и Google Cloud вместе помогут стартапам в области генеративного ИИ

NVIDIA и Google Cloud объявили о расширении сотрудничества, чтобы помочь стартапам в создании приложений и сервисов на базе генеративного ИИ. В рамках сотрудничества компании объединили программы NVIDIA Inception и Google for Startups Cloud Program, чтобы расширить доступ стартапам к облачным кредитам, предоставить им техническую экспертизу и помочь с выходом на рынок.

Прошедшие отбор участники NVIDIA Inception, глобальной программы, уже поддерживающей более 18 тыс. стартапов, получат возможность использования инфраструктуры Google Cloud и облачные кредиты в размере до $350 тыс. А участники Google for Startups Cloud Program смогут присоединиться к NVIDIA Inception и получить доступ к знаниям, курсам NVIDIA Deep Learning Institute, «железу» и ПО NVIDIA и многому другому.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Более того, отобранные участники Google for Startups Cloud Program смогут присоединиться к платформе NVIDIA Inception Capital Connect, связывающей стартапы с венчурными капиталистами. Также разработчики ПО, участвующие в этих программах, смогут получить ускоренную адаптацию к Google Cloud Marketplace, поддержку совместного маркетинга и разработки продуктов.

Ранее NVIDIA вместе с Google занялась оптимизацией моделей Gemma. Google Cloud анонсировала инстансы A3 Mega на базе ускорителей NVIDIA H100, которые отличаются вдвое большей пропускной способностью интерконнекта между ускорителями по сравнению с обычными A3. Наконец, было обещано, что в начале следующего года в Google Cloud появятся решения NVIDIA Blackwell: NVIDIA HGX B200 и NVIDIA GB200 NVL72.

Постоянный URL: http://www.servernews.ru/1103055
10.04.2024 [01:30], Алексей Степин

Google анонсировала Axion, свой первый серверный Arm-процессор

Компания Google объявила о выпуске собственного процессора для своих ЦОД. В основу новинки, получившей имя Axion, легла архитектура Arm, что ставит её в один ряд с Amazon Graviton, Alibaba Yitian и Microsoft Cobalt.

Это не первый процессор, разработанный Google: c 2015 года компания успела создать пять поколений ИИ-ускорителей Tensor Processing Units (TPU), а в 2018 она представила процессор Video Coding Unit (VCU) Argos для транскодирования видео. Но Axion стал первым чипом Google, который подпадает под определение «процессор общего назначения». При его создании компания сделала упор не только на энергоэффективность, но и на высокий уровень производительности, достаточный для использования в современных серверах.

 Источник изображений: Google

Источник изображений: Google

В основу Axion легли Armv9-ядра Neoverse V2 (Demeter). Этот же дизайн используется в AWS Graviton4 и NVIDIA Grace. К сожалению, архитектурных подробностей Google пока не раскрывает, известно лишь, что ядра Neoverse V2 работают совместно с фирменными контроллерами Titanium. Последние отвечают за работу с сетью, защиту и разгрузку IO-операций при работе с блочным хранилищем Hyperdisk, то есть чем-то напоминают AWS Nitro. При этом Google вложилась в SystemReady Virtual Environment (VE), чтобы упростить перенос нагрузок на новые чипы как для себя, так и для пользователей облака.

Если верить разработчикам, на момент анонса Google инстансы на базе Axion минимум на 30 % производительнее инстансов на базе самых быстрых Arm-процессоров других вендоров, а по сравнению с сопоставимыми по классу x86-процессорами преимущество может достигать и 50 % при 60 % выигрыше в энергоэффективности. Судя по всему, Axion ранее был известен под кодовым именем Cypress. А ещё один Arm-процессор Google Maple, который, по слухам, являлся наследником почивших Marvell ThunderX, в серию, видимо, не пошёл.

Сама компания уже начала переводить на Axion сервисы BigTable, Spanner, BigQuery, Blobstore, Pub/Sub, Google Earth Engine и YouTube Ads. Ряд клиентов и партнёров Google уже оценили Axion по достоинству. Виртуальные машины с новыми процессорами будут доступны в ближайшие месяцы. Они же будут доступны и в Kubernetes Engine, Dataproc, Dataflow, Cloud Batch и т.д.

Постоянный URL: http://www.servernews.ru/1103000
21.03.2024 [23:54], Владимир Мироненко

В Google Cloud появятся ускорители NVIDIA Grace Blackwell

Google Cloud и NVIDIA объявили о расширении партнёрства, в рамках которого новая ИИ-платформа NVIDIA Grace Blackwell и NVIDIA DGX Cloud на её основе появятся в Google Cloud Platform, а клиентам станут доступны инференс-микросервисы NVIDIA NIM. Также было сказано об общедоступности DGX Cloud на базе NVIDIA H100.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Среди ключевых нововведений отмечены следующие:

  • Внедрение NVIDIA Grace Blackwell для работы с ИИ-моделями с триллионами параметров. Google станет одним из первых облачных провайдеров, предлагающих инстансы на базе Blackwell.
  • Переход DGX Cloud в Google Cloud Platform на суперускорители GB200 NVL72. Текущий вариант DGX Cloud теперь общедоступен и работает на базе инстансов Google Cloud A3 с ускорителями NVIDIA H100.
  • Возможность использование JAX с ускорителями NVIDIA H100 посредством MaxText и Accelerated Processing Kit (XPK).
  • Появление NVIDIA NIM в Google Kubernetes Engine (GKE)
  • Упрощённое развёртывание NVIDIA NeMo с помощью GKE и Google Cloud HPC Toolkit.
  • Vertex AI теперь поддерживает инстансы Google Cloud A3 с NVIDIA H100 и инстансы G2 с NVIDIA L4.
  • Сервис Dataflow теперь также поддерживает обработку данных на ускорителях NVIDIA.
Постоянный URL: http://www.servernews.ru/1102087
13.03.2024 [20:02], Сергей Карасёв

Генеральным директором Equinix стала руководитель платформы Google Cloud

Компания Equinix, один из крупнейших в мире операторов дата-центров, определилась с кандидатурой нового генерального директора. Им стала Адэйр Фокс-Мартин (Adaire Fox-Martin), которая сменит на данном посту Чарльза Мейерса (Charles Meyers). Изменения вступят в силу в конце II квартала 2024 года.

Фокс-Мартин имеет более чем 25-летний опыт работы в технологической сфере. В частности, она исполняла обязанности президента облачной платформы Google Cloud и главы ирландского подразделения Google. До этого Фокс-Мартин занимала руководящие должности в SAP и Oracle. С 2020 года она является членом совета директоров Equinix.

 Источник изображения: Equinix

Источник изображения: Equinix

В свою очередь, Мейерс присоединился к Equinix в 2010 году, а в 2018-м был назначен генеральным директором этой компании. Отмечается, что за время своей работы в качестве главы Equinix он реализовал успешную стратегию развития бизнеса. Под его руководством компания смогла увеличить выручку в шесть раз. До прихода в Equinix Мейерс работал в Bell South (позже AT&T), IBM, Level3 и VeriSign.

Изменения в руководящем составе Equinix предполагают, что Мейерс переходит на должность исполнительного председателя правления. Вместе с тем Питер Ван Кэмп (Peter Van Camp), который в настоящее время занимает указанный пост, снимет с себя формальные обязанности члена совета директоров и будет играть роль специального советника правления.

На сегодняшний день Equinix оперирует примерно 260 дата-центрами в 33 странах по всему миру и продолжает расширять свою инфраструктуру.

Постоянный URL: http://www.servernews.ru/1101663

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus