Материалы по тегу: сбой

30.01.2023 [23:44], Владимир Мироненко

Минус £1,4 млн, 100 приёмов врачей и один орган для трансплантации: NHS подсчитала потери двух лондонских больниц из-за сбоя ЦОД

Отключение доступа к IT-сервисам в двух лондонских больницах в связи со сбоем в работе ЦОД из-за аномальной жары в июле прошлого года принесло Национальной службе здравоохранения Великобритании (NHS) убытки в размере £1,4 млн, сообщил ресурс DatacenterDynamics со ссылкой на отчёт ведомства.

Два дата-центра, которые обеспечивали поддержку компьютерных систем больниц фонда Guy's and St Thomas' NHS Foundation Trust, столкнулись с проблемами в функционировании оборудования из-за рекордной температуры в более чем +40 °C. О сбоях в системах охлаждения ЦОД и массовых отключениях сервисов тогда сообщили Google и Oracle. А из-за перегрева оборудования в некоторых ЦОД поливали водой из шлангов внешние модули систем кондиционирования на крыше, чтобы хоть как-то их охладить.

Источник изображения: Pixabay

В результате сбоя врачи были вынуждены перейти на бумажные медицинские карты, а более 100 приёмов пришлось отложить или отменить. Также не удалось получить орган для трансплантации одному из пациентов больницы. В отчёте NHS сообщается, что возникшие проблемы вызвали «усталость, стресс, а также оказали негативное влияние на моральный дух» персонала. На полное восстановление сервисов потребовалось шесть недель.

NHS отметила, что этого можно было бы избежать, если бы дата-центры были должным образом подготовлены к подобной ситуации. В частности, дефектный разъем шланга стал причиной задержки в запуске системы охлаждения одного из ЦОД, в то время как в другом были обнаружены проблемы с водоснабжением.

Постоянный URL: http://www.servernews.ru/1081084

09.01.2023 [17:39], Сергей Карасёв

Промедление смерти равно: масштабный сбой Rackspace Hosted Exchange произошёл из-за задержки с установкой патчей, но возобновлять работу сервиса компания не намерена

Компания Rackspace Technology, провайдер облачных услуг, раскрыла причины масштабного инцидента, из-за которого пришлось отключить службу Microsoft Exchange. Как сообщает ресурс Datacenter Dynamics, причиной сбоя послужил эксплойт для уязвимости «нулевого дня».

Хакерская атака была организована в начале декабря 2022 года. Компания заявила, что причиной послужило проникновение в IT-инфраструктуру программы-вымогателя. Справиться с последствиями инцидента Rackspace не может несколько недель, а службу Microsoft Exchange пришлось отключить. Калифорнийская Cole & Van Note уже подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов.

Источник изображения: Rackspace

Как теперь стало известно, для проведения атаки злоумышленник использовал ранее неизвестный эксплойт для уязвимости, описанной в бюллетене Microsoft CVE-2022-41080. Изначально говорилось, что брешь позволяет злоумышленнику повысить привилегии в атакуемой системе. Но затем выяснилось, что дыра может использоваться для удалённого выполнения произвольного кода (CVE-2022-41082) через Outlook Web Access (OWA). Атака было проведена с использованием зловредов семейства PLAY (PlayCrypt). Аналогичные атаки проводятся с лета 2022 года, нацелены они на организации в Латинской Америке, Европе и Индии.

Rackspace опровергла предположения о том, что первопричиной инцидента стал эксплойт ProxyNotShell. Сторонний эксперт сообщил Dark Reading, что Rackspace воздерживалась от применения патча для ProxyNotShell из-за опасений по поводу возможных «ошибок аутентификации», которые, предположительно, могли вывести из строя её службы Exchange. В результате, это промедление обернулось масштабным сбоем, хотя компания в итоге и реализовала рекомендованные Microsoft меры безопасности.

Что касается сервисов Hosted Exchange, то возобновлять их работу Rackspace не планирует. Компания всё ещё работает над восстановлением пользовательских данных. Говорится, что из почти 30 тыс. пользователей Hosted Exchange злоумышленник получил доступ к PST-файлам 27 клиентов. Для более половины пострадавших данные восстановлены частично или полностью, но возможностью их загрузки мало кто воспользовался. «Это указывает нам на то, что многие из наших клиентов имеют локальные резервные копии или архивы, а поэтому не нуждаются в восстановленной информации», — подчёркивается в сообщении.

Постоянный URL: http://www.servernews.ru/1079983

07.01.2023 [22:27], Владимир Мироненко

Смайлики и немного денег: Kakao предложила компенсацию пострадавшим от самого масштабного в мире сбоя ЦОД

Южнокорейская интернет-компания Kakao анонсировала план компенсации пользователям её мессенджера KakaoTalk, пострадавшим из-за пожара в ЦОД SK C&C в октябре прошлого года. План предусматривает раздачу трёх пакетов смайлов в качестве общей компенсации всем пользователям мессенджера KakaoTalk.

Следует отметить, что из трёх «подаренных» наборов эмодзи лишь один предоставлен в полностью бесплатное пользование, а срок бесплатного пользования остальных истекает через 90 дней. Компания также предложила 3 млн ваучеров на бесплатный доступ в течение одного месяца к своей службе резервного копирования данных Talk Drawer Plus. После окончания бесплатного периода пользователи будут автоматически подписаны на платную версию службы.

Изображение: KakaoTalk

Кроме того, предпринимателям, сообщившим об убытках из-за сбоя в размере менее 300 тыс. вон ($240), будет выплачена компенсация ущерба в размере 30 тыс. вон ($24), а если заявленный убыток составил менее 500 тыс. вон ($399,2), выплата составит 50 тыс. вон ($39,92). Те, кто сообщил о потере доходов из-за сбоя выше 500 тыс. вон, могут получить дополнительную компенсацию после того, как будет проведена проверка их заявлений. Также компания предоставит два купона для платформы Kakao Makers.

Пожар привёл к остановке 32 тыс. серверов, прекратили работу ключевые сервисы Kakao, в том числе KakaoTalk с аудиторией в среднем 45 млн человек (население всей страны — почти 52 млн человек), произошли сбои в работе платёжной системы KakaoPay, почтовой службы, такси и других сервисов компании. На полное восстановление работоспособности всех сервисов потребовалось пять дней. На текущий момент данный инцидент является крупнейшим в мире ЦОД. Предложенные Kakao варианты компенсации были раскритикованы пользователями.

Постоянный URL: http://www.servernews.ru/1079922

30.12.2022 [19:27], Руслан Авдеев

Глава Alibaba взял на себя прямое управление Alibaba Cloud после самого масштабного сбоя облака за последние 10 лет

После масштабного сбоя в работе сервисов Alibaba Cloud Джеффу Чжану Цзяньфэню (Jeff Zhang Jianfeng) пришлось покинуть пост руководителя облачного сервиса. Как сообщает South China Morning Post, управление взял на себя сам генеральный директор Alibaba Group Holding Дэниэл Чжан Юн (Daniel Zhang Yong).

В результате сбоев в Гонконге и Макао почти 30 часов отсутствовал доступ к важнейшим облачным ресурсам. Это самый масштабный сбой облака Alibaba за последние 10 лет. На сегодня Alibaba Cloud является крупнейшим и, возможно, самым надёжным облачным сервисом в Китае, услугами которого пользуются многие американские и европейские компании, имеющие здесь представительства. Хотя на местный рынок не так давно вышла AWS, возможности компаний всё ещё несопоставимы.

Дэниэл Чжан Юн, занимающий пост председателя Alibaba, теперь занял и пост исполняющего обязанности президента Alibaba Cloud Intelligence и корпоративной коммуникационной платформы DingTalk. В письме сотрудникам он подчеркнул, что Alibaba Cloud не может позволить себе потерять доверие клиентов. Решение лично возглавить управление облачным сервисом только подчёркивает важность сервиса для всего холдинга, поскольку Alibaba Cloud предоставляет услуги не только клиентам, но и площадкам самой Alibaba вроде Taobao и Tmall, платёжным и логистическим системам и т.д.

Источник: Alibaba Cloud

При этом облачный сегмент становится всё важнее для Alibaba, поскольку площадки компании для ведения электронной коммерции в последнее время столкнулись с усиливающейся конкуренцией со стороны других игроков. Хотя сервис под руководством Джеффа Чжана Цзяньфэня потерпел очевидную неудачу, он остаётся важной фигурой для бизнеса Alibaba. В частности, за ним сохраняется пост главы научно-исследовательского подразделения Damo Academy, также он отвечает за руководство разработкой чипов в подразделении T-Head, на которые уже к 2025 году Alibaba намерена перевести пятую часть своих мощностей, и за инициативы, связанные с Интернетом вещей.

Чжоу Цзиньжень (Zhou Jingren), занимавший пост заместителя директора Damo Academy, стал техническим директором Alibaba Cloud, ещё одна важная перестановка — Ву Цзэминь (Wu Zeming) взял на себя роль технического директора Alibaba, не теряя прочих должностей в компании. Все новые назначения вступили в силу немедленно после их оглашения. При этом бывший технический директор Alibaba Чэн Ли (Cheng Li) — один из ветеранов компании, пришедший в Alipay в 2005 году и поднявшийся с самых низов в местной иерархии — будет ограничен только ролью «советника».

Постоянный URL: http://www.servernews.ru/1079652

18.12.2022 [01:15], Сергей Карасёв

Rackspace не смогла за две недели устранить проблемы в работе Hosted Exchange

Компания Rackspace Technology, провайдер облачных услуг, по-прежнему не может устранить последствия серьёзного сбоя, из-за которого пришлось отключить службу Microsoft Exchange. Инцидент произошёл около двух недель назад из-за атаки программы-вымогателя.

Ранее сообщалось, что атака затронула только Exchange, но компания ввела дополнительные меры защиты для других сервисов. Впоследствии калифорнийская Cole & Van Note подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов. Для расследования инцидента компания обратилась за помощью к специалистам CrowdStrike. Однако о сроках полного восстановления работоспособности служб ничего не известно.

Источник изображения: Rackspace

Восстановительные работы продолжаются и по сей день. В Rackspace отмечают, что примерно две трети клиентов переведены на платформу Microsoft 365. Тем не менее, пользователи продолжают жаловаться в социальных сетях на часы ожидания при обращениях в службу работы с клиентами, плохую поддержку и отсутствие информации о том, когда возобновится работа сервисов.

«Мы понимаем, насколько важно восстановление данных для наших заказчиков. В случае атак программ-вымогателей усилия по возобновлению работы занимают значительное время как из-за характера нападения, так и из-за необходимости соблюдения дополнительных протоколов безопасности. Мы будем продолжать держать вас в курсе событий», — заявляет Rackspace.

Постоянный URL: http://www.servernews.ru/1079030

09.12.2022 [15:29], Сергей Карасёв

Против Rackspace подан коллективный иск в связи с недельной недоступностью облачного сервиса Microsoft Exchange

Калифорнийская Cole & Van Note сообщила о подаче коллективного иска против компании Rackspace Technology, провайдера облачных услуг. Причиной для судебного разбирательства стал масштабный сбой, из-за которого пришлось отключить службу Hosted Exchange. Сервисы Exchange подверглись атаке программы-вымогателя. В компании не раскрывают масштаб возможной утечки данных, отмечая, что расследование инцидента находится на начальной стадии.

В результате атаки и отключения сервисов рыночная капитализация Rackspace на текущей неделе упала с $1 млрд до $670 млн. Для сравнения: в прошлом году компания была оценена более чем в $5 млрд. Сейчас Rackspace устраняет последствия инцидента и пытается перевести клиентов на Microsoft 365. Пока не ясно, собирается ли компания платить выкуп злоумышленникам. Сведений о сроках восстановления работоспособности облачных служб также нет.

Источник изображения: Rackspace Technology

В поданном коллективном иске Cole & Van Note требует от Rackspace денежную компенсацию за нанесённый клиентам ущерб в связи с недоступностью сервисов. Кроме того, инициаторы разбирательства намерены получить гарантии того, что Rackspace внедрит необходимые протоколы безопасности, в частности, средства резервного копирования информации.

Постоянный URL: http://www.servernews.ru/1078637

06.12.2022 [19:40], Сергей Карасёв

Rackspace на несколько дней лишила тысячи клиентов доступа к облачному сервису Microsoft Exchange

Компания Rackspace Technology, провайдер облачных услуг, пережила серьёзный сбой, из-за которого пришлось отключить службу Microsoft Exchange. Сервис был недоступен для заказчиков в течение нескольких последних дней, в том числе на минувших выходных.

В Rackspace не раскрывают, что именно послужило причиной масштабного сбоя. Отмечается лишь, что это связано с «инцидентом безопасности». Однако есть сведения, что сервисы компании подверглись атаке вредоносной программы — вероятно, вымогателя. «Мы столкнулись со значительным сбоем в нашей среде Hosted Exchange. Пришлось заблаговременно отключить службу, чтобы избежать дальнейших проблем», — говорится в официальном заявлении Rackspace.

Источник изображения: Rackspace Technology

Известно, что многие клиенты компании не могли связаться со службой поддержки в течение многих часов. Rackspace отмечает, что на протяжении последних дней она восстановила службы электронной почты для тысяч клиентов сервисов на базе Microsoft 365. В настоящее время восстановительные работы продолжаются.

В мае нынешнего года сообщалось, что Rackspace Technology рассматривает возможность продажи всего бизнеса или его части. Компания была основана в 1998 году в качестве хостинг-провайдера. В 2006-м она представила одну из первых публичных платформ PaaS. Позднее Rackspace объявила о намерении сосредоточить усилия на развитии облачных и мультиоблачных технологий, оптимизации и безопасности.

UPD: Rackspace подтвердила, что причиной сбоя стала атака зловреда, и привлекла к расследованию сторонних экспертов в области информационной безопасности. Предполагается, что атака затронула только Exchange, но компания ввела дополнительные меры защиты для других сервисов. Пока что она не готова назвать сроки полного восстановления всей функциональности сервисов Exchange.

Постоянный URL: http://www.servernews.ru/1078429

21.10.2022 [12:39], Сергей Карасёв

Причиной самого масштабного в мире сбоя ЦОД Kakao могли стать Li-Ion батареи, которые и привели к пожару

Южнокорейская интернет-компания Kakao назвала причину пожара в кампусе ЦОД SK C&C Data Center неподалёку от Сеула: утверждается, что возгорание спровоцировали литий-ионные аккумуляторы производства дочерней компании SK Group, которой и принадлежит дата-центр.

Напомним, пожар начался 15 октября 2022 года. В результате, произошёл массовый сбой в работе мессенджера KakaoTalk, которым пользуются около 90 % корейцев. Кроме того, была нарушена работа других сервисов Kakao, включая платёжную платформу KakaoPay, почтовую службу, такси и пр. На восстановление доступности систем ушло много времени, в том числе потому, что у компании не были разработаны планы поведения в экстренных ситуациях. На текущий момент это, похоже, самый масштабный инцидент такого рода в мире ЦОД, поскольку в результате пожара были одновременно остановлены 32 тыс. серверов.

Источник изображения: Yonhap

Kakao заявляет, что возгорание возникло из-за перегрева литий-ионных аккумуляторов, изготовленных на предприятии SK On (входит в SK Group). Говорится, что система управления батареями (BMS) за несколько часов до возникновения пожара дважды выдавала предупреждения, и сотрудник службы технической поддержки два раза инспектировал аккумуляторную комнату в здании ЦОД. Однако SK Group претензии в свой адрес отрицает. Она утверждает, что никакие уведомления от BMS не поступали, а специалист помещение с аккумуляторными блоками не посещал.

Полиция и пожарные службы ещё выясняют причины инцидента. Компания Kakao в результате возгорания понесла непосредственные убытки в размере $13,9 млн. Кроме того, предстоит урегулировать коллективные иски, поданные со стороны пользователей сервисов в связи со сбоями в их работе. Если будет установлено, что пожар произошёл по вине батарей SK On, компании SK всё же придётся взять на себя частичную компенсацию ущерба. Правительство Южной Кореи потребует объяснений от руководства Kakao и SK Group, а также интернет-группы Naver, которая тоже пострадала из-за возгорания.

UPD: Между тем, как сообщается, корейская полиция провела обыски в офисах SK Group и пострадавшем от огня ЦОД. В ходе рейдов были изъяты документы, которые могут иметь отношение к пожару. Кроме того, в рамках расследования будут допрошены представители SK Group.

Отмечается также, что ЦОД SK C&C Data Center в настоящее время функционирует без системы резервного питания. А поэтому в ближайшие три недели не исключены дальнейшие сбои в работе сервисов Kakao.

Постоянный URL: http://www.servernews.ru/1076108

19.10.2022 [21:48], Сергей Карасёв

Пожар в южнокорейском дата-центре Kakao привёл к остановке 32 тыс. серверов, отказу в обслуживании 45 млн человек, падению акций и отставке топ-менеджера компании

Исполнительный содиректор южнокорейской интернет-компании Kakao Намкун Вон (Namkoong Whon) принял решение подать в отставку после массового сбоя в работе сервисов, спровоцированного пожаром в кампусе ЦОД SK C&C Data Center неподалёку от Сеула, принадлежащем SK Group. Возникшие проблемы вызвали недовольство как со стороны многочисленных пользователей, так и со стороны представителей бизнеса и власти.

Пожар начался 15 октября 2022 года с возгорания в аккумуляторной в одном из зданий ЦОД. В результате была нарушена работа мессенджера KakaoTalk, аудитория которого составляет 43–47 млн пользователей в Южной Корее (при населении всей страны в почти 52 млн человек). Кроме того, возникли сбои в работе платёжной системы KakaoPay, почтовой службы, такси и других сервисов компании. Не был затронут только сервис Kakao Bank, который размещался в другом дата-центре. По состоянию на 17 октября работоспособность большинства функций KakaoTalk была восстановлена, однако доступность ряда служб всё же оставалась ограниченной.

Источник изображения: Yonhap

Инцидентом лично заинтересовался президент страны, а стоимость акций Kakao при этом рухнула на 9,5 % — до минимального значения с мая 2020 года. Нарушение работы KakaoTalk негативно сказалось на работе сотен предприятий малого бизнеса, использующих названный мессенджер. Kakao уже сообщила о намерении выплатить компенсации и выяснить причины медленного восстановления работы своих служб. Кроме того, Kakao намерена вложить $325 млн в открытие в 2023 году собственного ЦОД, а в 2024-м будет запущен второй дата-центр.

Любопытно, что в том же кампусе находился и дата-центр Naver, ещё одного южнокорейского IT-гиганта, на работу которого инцидент оказал намного меньшее влияние. Основная претензия к Kakao заключается в том, что у компании не были разработаны планы поведения в экстренных ситуациях. В частности, компания оказалась не готова к тому, что ЦОД будет быстро обесточен после начала пожара. При этом, вероятно, это самый крупный инцидент в ЦОД в мире, поскольку речь идёт об остановке сразу 32 тыс. серверов.

Нужно отметить, что в течение последнего времени пожары охватили сразу несколько крупных ЦОД. В частности, в марте прошлого года пожар уничтожил дата-центр французской компании OVHcloud в Страсбурге. В результате этого ЧП оказались недоступны в общей сложности 3,6 млн веб-сайтов, в том числе ресурсы ряда правительственных организаций, банков, интернет-магазинов и пр. А пожар, случившийся в ЦОД иранской Telecommunication Infrastructure Company (TIC), практически оставил без доступа в интернет всю страну.

Постоянный URL: http://www.servernews.ru/1076017

16.10.2022 [00:20], Руслан Авдеев

Ирландский авиаперевозчик Aer Lingus требует от Kyndryl компенсации за сбой сети, который привёл к отмене более 50 рейсов

Ирландский авиаперевозчик Aer Lingus намерен получить от Kyndryl, в своё время отделившейся от IBM, компенсацию — как сообщает The Register, в результате неудачного стечения обстоятельств авиаперевозчик лишился доступа к своей инфраструктуре в двух дата-центрах, что привело к отмене более 50 рейсов и значительным финансовым убыткам.

Причиной инцидента, произошедшего месяц назад, стало повреждение во время строительных работ оптоволоконного кабеля, связывавшего терминалы компании с ЦОД. На беду ирландского авиаперевозчика, на резервной линии одновременно отказала сетевая карта, в результате чего из Дублина не смогли вовремя вылететь десятки тысяч пассажиров, многие из которых теперь требуют материальной компенсации.

Источник изображения: Aer Lingus

По словам главы Aer Lingus, отказ основной и резервной линий связи привели к задержке вылета 32 тыс. человек, а сама авиакомпания почти 10 часов не имела доступа к своим сервисам — от возможности регистрации пассажиров до доступа к данным о бронировании и даже контактным данным клиентов, связаться с которыми не было почти никакой возможности. Компания уже получила 7,5 тыс. заявлений о денежной компенсации от «одного или более пассажиров». Точная сумма ущерба неизвестна, но он исчисляется миллионами евро.

Источник изображения: Aer Lingus

Отмечается, что соглашение с Kyndryl предусматривало резервирование, поэтому ожидалось, что система окажется более надёжной. Примечательно, что, по данным сервис-провайдера, ни одна из 4000 сетевых карт, находившихся в эксплуатации, ранее никогда не выходила из строя. Подчёркивается, что резервная линия постоянно эксплуатировалась и тестировалась наравне с основной, поэтому речь действительно идёт об исключительной ситуации. Сообщается, что пострадали и другие клиенты ЦОД, но, похоже, их ущерб несопоставим с тем, который ожидает Aer Lingus.

Ситуацией незамедлительно воспользовались конкуренты — Ryanair тут же предложила «спасательные рейсы» по цене €100, которыми многие воспользовались после того, как стало понятно, что запланированные полёты не состоятся. В Aer Lingus сообщают, что внедрили новую систему мониторинга своей сети и запланировали использовать «тройную систему» резервирования сервисов для большей надёжности.

Постоянный URL: http://www.servernews.ru/1075598