Материалы по тегу: сбой

15.10.2023 [23:05], Владимир Мироненко

Сбой в сингапурском ЦОД Equinix повлёк за собой остановку банковских сервисов в стране и проблемы с доступом к сервисам Meta✴ за её пределами [Обновлено]

В минувшую субботу в дата-центре Equinix в Сингапуре произошёл сбой, повлекший за собой остановку банковских сервисов по всей стране, сообщил ресурс Data Center Dynamics. В настоящее время ведётся расследование «технической проблемы», вызвавшей повышение температуры в ЦОД, сообщили в Equinix.

Сообщается, что из-за сбоя в ЦОД компании были отключены сервисы банков DBS и Citibank в Сингапуре. Также проблемы наблюдались в работе других сервисов на Филиппинах, в Гонконге, Индии, Южной Африке, Камбодже, Индонезии, Шри-Ланке, ОАЭ и на Мальдивах, где многие пользователи не смогли получить доступ к своим аккаунтам в Facebook, Instagram и Whatsapp.

 Источник изображения: Equinix/Data Center Dynamics

Источник изображения: Equinix/Data Center Dynamics

В валютном управлении Сингапура (MAS) сообщили о том, что им известно о сбое, в связи с чем проводится расследование, а к Equinix применены ограничительные меры. Ранее подобные ограничения были применены к Equinix в феврале 2022 года в связи с происшедшим тогда сбоем. «Отключения, подобные инциденту 14 октября, показывают, насколько важны ЦОД для нашей повседневной жизни, и поэтому организациям необходимо постоянно анализировать отдельные точки сбоев и принимать соответствующие меры для снижения этих рисков», — сообщил Эдвард ван Леент (Edward van Leent) председатель сингапурской компании Enterprise Products Integration (EPI).

Количество сбоев ЦОД с годами не уменьшается. По данным Uptime Institute, основанным на анализе сбоев ЦОД в 2023 году, более двух третей всех сбоев обходятся более чем в $100 тыс., в том числе почти 25 % сбоев наносят убытки более чем в $1 млн. Патрик Чан (Patrick Chan), вице-президент Uptime Institute по азиатскому региону указал на важность проведения сертификации ЦОД с целью соблюдения стандартов и снижения рисков сбоев.

UPD 24.10.2023: Equinix обвинила в сбое стороннего подрядчика, который подал сигнал на закрытие вентилей ёмкостей с теплоносителем во время запланированного обновления инфраструктуры, в результате чего температура в некоторых машинных залах поднялась, что и привело к проблемам у клиентов компании. Кроме того, валютное управление Сингапура предписало банкам DBS и Citibank провести тщательное расследование, почему их резервные ЦОД не смогли вовремя принять нагрузку на себя.

Постоянный URL: http://www.servernews.ru/1094498
04.09.2023 [19:24], Руслан Авдеев

Нехватка рук и плохая автоматизация: Microsoft отчиталась о сбое в сиднейском ЦОД

Произошедший 30 августа сбой в работе австралийского дата-центра привёл к проблемам в работе с сервисами Azure, API, базами данных, а также облачным ПО. Пользователи более суток не имели доступа к Azure, сервисам Microsoft 365 и Power Platform. Как сообщает Network World, в Microsoft обвиняют в произошедшем недостаток персонала в ЦОД и неисправную систему автоматики.

По данным экспертов компании, после падения напряжения в сети на юго-востоке страны отключилась часть охлаждающих систем в одном из ЦОД. Поскольку охлаждение не работало должным образом, рост температуры в машинных залах привёл к автоматическому отключению некоторого оборудования для сохранения инфраструктуры и данных.

При этом в компании подчеркнули, что системы охлаждения можно было бы заново включить вручную, окажись для этого достаточно персонала в ЦОД. С учётом размеров кампуса и небольшого числа сотрудников ночной смены людей оказалось недостаточно для своевременного восстановления работоспособности. В компании подчеркнули, что временно увеличили команду с трёх до семи человек, пока не выяснили причины проблем и не приняли необходимые меры для их устранения.

 Источник изображения: Microsoft

Источник изображения: Microsoft

В Microsoft добавили, что компания работает над масштабными реформами, включая совершенствование системы автоматизации ЦОД для восстановления работоспособности в случае повторения инцидентов, в частности, связанных с перепадами напряжения. Поэтому ведётся оценка загруженности серверов, чтобы выяснить, какие именно системы охлаждения нужно «оживить» в первую очередь.

В последние месяцы сбои в работе сервисов Microsoft уже случались, в первую очередь связанные с нарушением доступа к Microsoft 365. Например, в июле пострадали OneDrive для бизнеса и SharePoint Online, а месяцем ранее с проблемами на восемь часов столкнулись пользователи Outlook Web, Teams, OneDrive для бизнеса и SharePoint. А в начале года наблюдались глобальные сбои в работе сервисов компании.

Постоянный URL: http://www.servernews.ru/1092497
31.08.2023 [12:37], Сергей Карасёв

Затраты Rackspace на устранение последствий кибератаки превысят $10 млн

Компания Rackspace Technology, провайдер облачных услуг, по сообщению ресурса Dark Reading, столкнулась со значительными затратами в связи со сбоем, который произошёл в конце 2022 года в результате атаки программы-вымогателя. Напомним, из-за хакерского вторжения компании Rackspace пришлось навсегда отключить свою службу Microsoft Exchange. Причиной масштабного сбоя послужил эксплойт для уязвимости «нулевого дня».

С последствиями атаки Rackspace не могла справиться в течение нескольких недель. Впоследствии калифорнийская Cole & Van Note подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов. Для расследования инцидента компании пришлось привлечь сторонних специалистов.

 Источник изображения: Rackspace

Источник изображения: Rackspace

Как теперь стало известно, расходы Rackspace на устранение последствий кибератаки составят приблизительно $10,8 млн. Говорится, что деньги пойдут в основном на оплату работы экспертов в области информационной безопасности, занимающихся расследованием инцидента, юридические и другие профессиональные услуги, а также на «дополнительные кадровые ресурсы», которые были задействованы для оказания поддержки клиентам.

Кроме того, компенсацию от Rackspace требуют недовольные пользователи, которые не могли получить доступ к сервисам провайдера облачных услуг. Rackspace ожидает, что значительная часть затрат будет возмещена компаниями по киберстрахованию.

Постоянный URL: http://www.servernews.ru/1092321
21.06.2023 [15:09], Руслан Авдеев

Проблемы с поставками комплектующих привели к всплеску сбоев в работе ЦОД во всём мире

Хотя проблемы с поставками электронных компонентов в последнее время постепенно отходят на второй план, в некоторых секторах IT-индустрии они так и не решены до конца. Как сообщает Network World со ссылкой на ассоциацию профессионалов рынка ЦОД (AFCOM), 44 % опрошенных операторов дата-центров сталкиваются с перебоями или отключениями, вызванными дефицитом самых необходимых запасных частей и компонентов.

Примечательно, что в 2021 году о подобных проблемах говорили только 25 % опрошенных, причём ситуация усугубляется стремлением многих операторов ЦОД расширять свой бизнес ускоренными темпами. Как сообщает AFCOM в докладе State of the Data Center 2023, 94 % опрошенных столкнулись с теми или иными проблемами при организации поставок для своих ЦОД, 59 % — с дефицитом основного оборудования вроде серверов и коммутаторов, 51 % — систем энергоснабжения, включая генераторы и ИБП, 34 % жалуются на нехватку систем безопасности, в том числе защищённых дверей и камер, а 35 % — на дефицит строительных материалов вроде бетона. Некоторые операторы сталкиваются с несколькими проблемами сразу.

 Источник изображения: dendoktoor/pixabay.com

Источник изображения: dendoktoor/pixabay.com

По мнению экспертов, в последнее время многие инвестиционные компании приобрели дата-центры и теперь пытаются нарастить их мощности настолько быстро, насколько возможно, что тоже усугубляет дефицит. Иногда доходит до того, что почти готовые ЦОД не могут ввести в эксплуатацию из-за одного компонента. Например, в некоторых случаях ИБП и генераторы доставляют 50 недель вместо привычных ранее 8-10, а на поставку чиллеров может уйти и 70 недель — почти полтора года.

При этом сами операторы превращают ситуацию на рынке из плохой в катастрофическую, скупая комплектующие на всякий случай и скапливая запасы фактически ненужного оборудования на складах. Дефицит больше затронул гиперскейлеров и колокейшн-сервисы, чем корпоративных заказчиков с локальными ЦОД. Последние настроены эксплуатировать оборудование как можно дольше и чаще готовы неспешно ожидать поставок. Впрочем, действительно рекомендуется иметь некоторый запас необходимых запчастей на случай экстренных ситуаций.

Эксперты рекомендуют искать поставщиков-партнёров, которые имеют чёткий план на случай перебоев с поставками по воздуху или железным дорогам. Не стоит отказываться и от рынка б/у оборудования — даже устаревшее на несколько поколений и несущее другие проблемы «железо» во многих случаях лучше, чем полное отсутствие оборудования. Этот рынок тем более стоит рассматривать потому, что гиперскейлеры довольно часто поставляют на него оборудование.

Наконец, одним из важнейших советов является приобретение схожего оборудования у разных вендоров. Известно, что многие предпочитают приобретать железо одного производителя, но в ситуации, когда выбирать не из чего, особо разборчивым быть не приходится.

Постоянный URL: http://www.servernews.ru/1088722
15.06.2023 [23:20], Руслан Авдеев

Арктический лёд порвал подводный кабель, вызвав проблем с интернет-доступом на Аляске

Население Аляски пострадало от масштабных отключений широкополосного интернет-доступа. Как сообщает DataCenter Dynamics, и без того почти отрезанный от остального мира регион лишился стабильного доступа в Сеть из-за обрыва подводного оптоволоконного кабеля, предположительно пострадавшего от арктических льдов. Местным жителям пришлось временно переключиться на спутниковый интернет и радиодоступ.

По данным местного провайдера Quintillion, обрыв произошёл примерно в 55 км от мыса Оликток из-за «движения льдов» — на ликвидацию последствий аварии может уйти несколько недель. Дрейфующие льдины занесло на мелководье, где они буквально вспахали дно, что разрушило местную экосистему и, похоже, кабельную инфраструктуру. Специальная команда экспертов занята диагностикой и решением проблемы. К месту обрыва направлено специализированное ремонтное судно.

В Quintillion подчеркнули, что продолжают следить за местом обрыва, используя рефлектометр. Местные СМИ сообщают о проблемах с телефонной связью и платежами с помощью банковских карт. В Quintillion рассчитывают, что ВОЛС будет восстановлена настолько быстро, насколько это возможно, хотя о точных сроках говорить не приходится. Вряд ли связь будет налажена ранее, чем через 6–8 недель.

 Источник изображения: Quintillion

Источник изображения: Quintillion

Ранее сообщалось, что только за последние пять лет обрывы подводных ВОЛС случались порядка 20 раз, один из последних — в конце февраля вблизи Тайваня, когда кабели были перерезаны (предполагается, что случайно) китайскими рыболовными судами. Великобритания уже приобрела корабль для защиты подводных кабелей, причём в его функции входит не только контроль и ремонт коммуникаций, но и, вероятно, силовая защита в случае необходимости.

Постоянный URL: http://www.servernews.ru/1088466
14.06.2023 [18:45], Руслан Авдеев

Облако AWS пережило кратковременный, но крупный сбой, затронувший тысячи клиентов и сервисы самой Amazon

Облачный провайдер Amazon Web Services (AWS) допустил крупный сбой своих сервисов, результатом которого стали отказы в обслуживании многочисленных компаний 13 июня. Как сообщает Network World, в самой Amazon причиной сбоя, коснувшегося тысяч клиентов, называют неполадки в ключевом облачном регионе us-east-1 в Северной Вирджинии, в результате были затронуты как минимум 104 сервиса компании.

По данным самой Amazon, проблемы сохранялись около четырёх часов и коснулись, в частности, AWS Management Console, Amazon SageMaker, AWS Glue, Amazon Connect, AWS Fargate и Amazon GuardDuty. Далее по цепочке пострадали зависимые сервисы, что привело к крупномасштабному сбою систем и самой AWS, и её клиентов. Основной причиной названа проблема с подсистемой, отвечающей за управление мощностями AWS Lambda. Как сообщает Reuters, этим и подобными решениями, согласно данным Datadog, пользуются более половины организаций, использующих облачные площадки.

 Изображение: Mohamed Hassan / Pixabay

Изображение: Mohamed Hassan / Pixabay

Как сообщили в AWS, клиенты пострадали как напрямую, например, из-за проблем с API Gateway, так и из-за сбоев в работе других сервисов AWS. В результате пострадали ресурсы и сервисы многих крупнейших компаний, включая The Verge, авиакомпанию Southwest Airlines и Транспортное управление Нью-Йорка. Некоторое время не работали даже сайт самой AWS, Amazon Music и Alexa. Примечательно, что в конце апреля начался второй раунд массовых увольнений в облачном подразделении компании, а в начале июня неожиданно ушёл в отставку глава отдела проектирования, строительства и эксплуатации дата-центров AWS.

Сейчас, как утверждают в компании, работа всех сервисов AWS вернулась к норме, но на пике портал Downdetector регистрировал до 12 тыс. жалоб. В целом, проблема оказалась не такой острой, как, например, в 2017 году во время сбоя Amazon S3. Последний крупный сбой в облачной инфраструктуре Amazon произошёл в декабре 2021 года, когда из-за нарушения работы сервисов временно перестали работать стриминговые платформы Netflix и Disney+, а также другие крупные порталы, включая сам маркетплейс Amazon — и всё это незадолго до Рождества.

Постоянный URL: http://www.servernews.ru/1088388
30.05.2023 [20:49], Владимир Мироненко

Rackspace ведёт работы по восстановлению систем после масштабного сбоя SAN

Провайдер облачных услуг Rackspace Technology столкнулся со сбоем на объектах в Европе и Азиатско-Тихоокеанском регионе. «Rackspace известно о проблемах с подключением в наших центрах обработки данных SYD2, LON5, LON3 и HKG5. Инженеры привлечены и работают над решением проблемы»,сообщила компания на странице состояния системы 29 мая в 22:24 CDT (6:24 мск).

Как пишет The Register, поначалу компания свзязала проблемы с DWDM-подключением в Лондоне, поскольку находящийся там объект относится к транспортной сети Rackspace. На затем она заявила, что сбой был связан с IO-лимитами в многопользовательской среде SAN, которые были некорректно настроены.

 Источник изображения: Rackspace Technology

Источник изображения: Rackspace Technology

«Инженеры успешно выполнили сценарий для восстановления значений по умолчанию для IO-лимитов. Пока идёт проверка, несколько клиентов подтвердили, что среды снова подключены к сети», — сообщила компания 30-го мая в 4:37 CDT (29-го мая в 23:37 мск).

На момент подготовки материала на странице мониторинга показывалось, что у четырёх объектов компании всё ещё наблюдались проблемы. «У некоторых клиентов в центрах обработки данных LON3 и LO5 в это время могут возникнуть проблемы с резервным копированием»,предупредила компания своих клиентов.

В декабре 2022 года Rackspace столкнулась с крупной кибератакой, из-за которой пришлось отключить сервис Hosted Exchange. Компания заявила, что инцидент был вызван эксплойтом «нулевого дня» и что она не будет возобновлять работу сервиса.

Постоянный URL: http://www.servernews.ru/1087607
02.03.2023 [00:18], Руслан Авдеев

Причиной сбоя Oracle NetSuite в США стал взрыв аккумуляторов в ЦОД Cyxtera

Взрыв и задымление в дата-центре компании Cyxtera в массачусетском кампусе, вероятно, были вызваны неизвестным сбоем электросистемы, результатом которого стал инцидент в аккумуляторном отсеке. Как сообщает DataCenter Dynamics, экспертам до сих пор не удалось установить точную причину инцидента, который привёл к отключению сервисов Oracle NetSuite в США. Хотя одной из строений на территории кампуса было повреждено, серьёзные жертвы и разрушения не зарегистрированы.

Кампус BOS1 мощностью 16 МВт включает три здания в пригороде Бостона. Инцидент произошёл 14 февраля, но по данным местного пожарного ведомства, точная причина происшествия пока «не определена». Известно, что пожарная команда прибыла на место происшествия в 11:34 по местному времени, через шесть минут после сигнала тревоги, а уже к 14:30 «инцидент был в целом улажен».

Пожарные эвакуировали сотрудников, обесточили помещение и занялись удалением из помещений угарного газа и цианида водорода. На момент прибытия экстренной службы электроснабжение и резервное питание всё ещё были активны, поэтому дополнительно пришлось обесточить всё здание. Выяснилось, что аварийный выключатель сработал на одной из трёх линий электроснабжения. Возможно, это привело к включению резервного источника и последующему взрыву с дуговым разрядом, в свою очередь, ставшими причиной задымления и повреждений.

 Источник изображения: Thomas Kelley/unsplash.com

Источник изображения: Thomas Kelley/unsplash.com

Взрыв разрушил один из аккумуляторных отсеков и повредил близлежащие. В это же время в том же помещении проводились работы на соседней энерголинии, но они, похоже, никак не связаны с происшествием. К счастью, электрики ушли на обед пораньше, не застав взрыв. Единственным пострадавшим оказался охранник, совершавший обход. Его доставили в больницу, в первую очередь, чтобы убедиться в отсутствии отравления продуктами горения.

На данный момент считается, что источник возгорания не представляется возможным установить. Вероятнее всего, инцидент был вызван неустановленным «электрическим событием» на линии B, что привело к отключению аварийного выключателя. После того как автоматически заработал аварийный генератор, произошло замыкание с возгоранием. Пока расследование прекращено, но его могут возобновить, если появятся новые факты.

В целом ситуация оказалась намного проще, чем, например, страсбургский пожар в марте 2021 года, в результате которого один ЦОД OVH Cloud сгорел полностью, а второй был серьёзно повреждён. Там возгорание тоже началось с энергоотсеков, но с гораздо более серьёзными последствиями. В прошлом году, как считается, Li-Ion батареи в южнокорейском ЦОД Kakao привели к пожару, повлекшему за собой самый масштабный во всём мире сбой дата-центра. Как отмечает Uptime Institute, число сбоев IT-систем с годами не уменьшается, а главной их причиной стали перебои с электропитанием, в том числе из-за участивших пожаров.

Постоянный URL: http://www.servernews.ru/1082739
30.01.2023 [23:44], Владимир Мироненко

Минус £1,4 млн, 100 приёмов врачей и один орган для трансплантации: NHS подсчитала потери двух лондонских больниц из-за сбоя ЦОД

Отключение доступа к IT-сервисам в двух лондонских больницах в связи со сбоем в работе ЦОД из-за аномальной жары в июле прошлого года принесло Национальной службе здравоохранения Великобритании (NHS) убытки в размере £1,4 млн, сообщил ресурс DatacenterDynamics со ссылкой на отчёт ведомства.

Два дата-центра, которые обеспечивали поддержку компьютерных систем больниц фонда Guy's and St Thomas' NHS Foundation Trust, столкнулись с проблемами в функционировании оборудования из-за рекордной температуры в более чем +40 °C. О сбоях в системах охлаждения ЦОД и массовых отключениях сервисов тогда сообщили Google и Oracle. А из-за перегрева оборудования в некоторых ЦОД поливали водой из шлангов внешние модули систем кондиционирования на крыше, чтобы хоть как-то их охладить.

 Источник изображения: Pixabay

Источник изображения: Pixabay

В результате сбоя врачи были вынуждены перейти на бумажные медицинские карты, а более 100 приёмов пришлось отложить или отменить. Также не удалось получить орган для трансплантации одному из пациентов больницы. В отчёте NHS сообщается, что возникшие проблемы вызвали «усталость, стресс, а также оказали негативное влияние на моральный дух» персонала. На полное восстановление сервисов потребовалось шесть недель.

NHS отметила, что этого можно было бы избежать, если бы дата-центры были должным образом подготовлены к подобной ситуации. В частности, дефектный разъем шланга стал причиной задержки в запуске системы охлаждения одного из ЦОД, в то время как в другом были обнаружены проблемы с водоснабжением.

Постоянный URL: http://www.servernews.ru/1081084
09.01.2023 [17:39], Сергей Карасёв

Промедление смерти равно: масштабный сбой Rackspace Hosted Exchange произошёл из-за задержки с установкой патчей, но возобновлять работу сервиса компания не намерена

Компания Rackspace Technology, провайдер облачных услуг, раскрыла причины масштабного инцидента, из-за которого пришлось отключить службу Microsoft Exchange. Как сообщает ресурс Datacenter Dynamics, причиной сбоя послужил эксплойт для уязвимости «нулевого дня».

Хакерская атака была организована в начале декабря 2022 года. Компания заявила, что причиной послужило проникновение в IT-инфраструктуру программы-вымогателя. Справиться с последствиями инцидента Rackspace не может несколько недель, а службу Microsoft Exchange пришлось отключить. Калифорнийская Cole & Van Note уже подала коллективный иск против Rackspace в связи с недоступностью облачных сервисов.

 Источник изображения: Rackspace

Источник изображения: Rackspace

Как теперь стало известно, для проведения атаки злоумышленник использовал ранее неизвестный эксплойт для уязвимости, описанной в бюллетене Microsoft CVE-2022-41080. Изначально говорилось, что брешь позволяет злоумышленнику повысить привилегии в атакуемой системе. Но затем выяснилось, что дыра может использоваться для удалённого выполнения произвольного кода (CVE-2022-41082) через Outlook Web Access (OWA). Атака было проведена с использованием зловредов семейства PLAY (PlayCrypt). Аналогичные атаки проводятся с лета 2022 года, нацелены они на организации в Латинской Америке, Европе и Индии.

Rackspace опровергла предположения о том, что первопричиной инцидента стал эксплойт ProxyNotShell. Сторонний эксперт сообщил Dark Reading, что Rackspace воздерживалась от применения патча для ProxyNotShell из-за опасений по поводу возможных «ошибок аутентификации», которые, предположительно, могли вывести из строя её службы Exchange. В результате, это промедление обернулось масштабным сбоем, хотя компания в итоге и реализовала рекомендованные Microsoft меры безопасности.

Что касается сервисов Hosted Exchange, то возобновлять их работу Rackspace не планирует. Компания всё ещё работает над восстановлением пользовательских данных. Говорится, что из почти 30 тыс. пользователей Hosted Exchange злоумышленник получил доступ к PST-файлам 27 клиентов. Для более половины пострадавших данные восстановлены частично или полностью, но возможностью их загрузки мало кто воспользовался. «Это указывает нам на то, что многие из наших клиентов имеют локальные резервные копии или архивы, а поэтому не нуждаются в восстановленной информации», — подчёркивается в сообщении.

Постоянный URL: http://www.servernews.ru/1079983

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus