На поле сбоя

Как ломался интернет за последние два года

В начале октября произошел один из крупнейших сбоев в истории интернета: в течение нескольких часов не работали Facebook, Instagram и WhatsApp. Глобальные «поломки» разных масштабов происходят постоянно: по данным ThousandEyes, на неделе 4–10 октября в мире произошло 352 сбоя, а за неделю до этого — 323. “Ъ” собрал подборку из пяти крупнейших глобальных инцидентов за последние два года.

Фото: Westend61 / Getty Images

Фото: Westend61 / Getty Images

4 октября 2021 года: Facebook

Что случилось: на семь часов вышли из строя Facebook, Instagram, Facebook Messenger и WhatsApp. По данным Downdetector, на проблемы пожаловались более 14 млн человек из России, Америки, Европы, Азии, Африки. Пострадали рекламодатели и сервисы, которые косвенно связаны с Facebook, например, через аутентификацию.

Из-за сбоя замедлились или работали нестабильно Google, YouTube, TikTok, Twitter, Viber, Telegram — платформы не справлялись с наплывом аудитории Facebook (2,9 млрд активных пользователей в месяц). Павел Дуров сообщил о 70 млн «беженцев» в Telegram после сбоя, а в Viber количество регистраций выросло на 500%. По оценке Fortune, из-за инцидента Facebook лишилась дохода почти в $100 млн.

Причина сбоя: изменения конфигурации магистральных маршрутизаторов, которые координируют сетевой трафик между центрами обработки данных. Американский журналист Брайан Кребс объяснил это так: «Facebook убрала карту, сообщающую компьютерам по всему миру, как находить ее объекты в интернете».

По информации NYT, Facebook смогла разобраться с инцидентом только после того, как техническая команда получила доступ к серверам в калифорнийском дата-центре и вручную сбросила их состояние.

22 июля 2021 года, DNS-сервис Akamai

Что случилось: из-за часового сбоя DNS-сервиса компании Akamai по крайней мере 40 популярных сайтов стали недоступны для пользователей по всему миру. Пострадали Sony PlayStation Network, Steam, Airbnb, UPS, FedEx, Amazon, McDonald`s, портал Microsoft, поисковик Google, Delta Air Lines и многие другие.

Akamai занимается пограничными вычислениями и предоставляет клиентам «сеть доставки контента» (CDN): компания использует примерно 325 тыс. серверов более чем в 135 странах, чтобы пользователи могли быстро и бесперебойно получать медиа-, аудио- и другой контент.

Причина сбоя: обновление конфигурации ПО вызвало ошибку в системе DNS, которая направляет браузеры на сайты. После отката обновления службы возобновили работу. В Akamai добавили, что компания пересмотрит процесс, чтобы в будущем такие сбои не повторялись.

8 июня 2021 года, CDN-провайдер Fastly

Что случилось: У CDN-провайдера Fastly произошел сбой, который длился почти час. В результате недоступны стали сайты Reddit, Amazon, Twitter, Github, Twitch, Spotify, eBay и даже сайт правительства Великобритании.

Как и Akamai, Fastly позволяет сайтам клиентов хранить данные, например изображения и видео, на зеркальных серверах в 26 странах. Благодаря этому можно быстрее загружать контент. Система также может облегчить обработку данных в период высокого трафика и обеспечить защиту от DDoS-атак.

Причина сбоя: не замеченная вовремя ошибка после развертывания ПО в мае. Баг спровоцировало изменение конфигурации у одного из клиентов. В результате пострадало около 85% трафика, который шел через серверы Fastly. Хотя компания написала, что проблема была серьезной, Fastly справились с ней за 49 минут. Провайдеру понадобилась минута, чтобы обнаружить сбой, и 39 минут, чтобы определить нужную конфигурацию. Еще через 9 минут сервисы начали восстанавливаться. Оперативность впечатлила инвесторов: акции компании подорожали почти на 11% за день.

14 декабря 2020 года, Google

Что случилось: отключился доступ к большинству сервисов Google примерно на 45 минут. Пострадали YouTube, Gmail, Google Suite (ныне — Google Workspace), в который входят «Документы», «Таблицы» и «Презентации», Google Classroom, Google Maps, Google Play, девайсы Google для «умного дома». Проблемы возникали у пользователей других сервисов, которые связаны с экосистемой Google, таких как Slack.

Причина сбоя: проблемы с внутренним хранилищем. Инструменты компании не смогли выделить достаточно места для сервисов аутентификации. Система должна автоматически расширить его, но этого не произошло. В результате сервисы, которые требуют от пользователей входа в систему, выдавали большое количество ошибок.

Хотя сбой Google продлился меньше часа, он затронул множество рабочих процессов: люди не могли отправлять письма, открывать документы, пользоваться календарем.

31 августа 2020 года, интернет-провайдер CenturyLink

Что случилось: перестали работать Amazon Web Services (AWS), Reddit, Hulu, Discord, Twitter, Blizzard, Steam и другие сервисы. Инцидент коснулся и Google: пользователи писали о проблемах с поисковиком и входом в свои аккаунты. Больше всего жалоб поступило из России, Сингапура, Индии, Турции, Франции, Германии, сообщал Downdetector.

CDN-провайдер Cloudflare, также пострадавший, заявил, что инцидент привел к падению глобального интернет-трафика на 3,5%. Это делает сбой одним из самых масштабных в истории интернета, особенно с учетом того, что на решение проблемы ушло около семи часов, пишет ZDNet.

Причина сбоя: компания сообщила, что причиной стало «неправильное указание команды Flowspec в протоколе безопасности BGP Flowspec». Он используется, чтобы перенаправлять трафик. В результате маршрутизаторы в сети CenturyLink начали выдавать некорректные BGP-маршруты другим провайдерам, и это вызвало домино-эффект в сети. BGP-маршруты — это «клей», который поддерживает работу интернета, сообщения, которые интернет-провайдеры передают друг другу.

Чтобы решить проблему, CenturyLink пришлось попросить других Tier-1-операторов отключиться от их сети, перезагрузить все оборудование и очистить таблицы маршрутизации.

Татьяна Петрущенкова

Мнение экспертов

Ренат Сайфутдинов, руководитель группы сопровождения клиентов «КРОК Облачные сервисы»:

— Обычно мы можем судить о причинах инцидентов по косвенным признакам, кроме тех случаев, когда источник сбоя очевиден. Например, если речь идет о пожаре в ЦОДе, как было в Страсбурге весной. Но такие ситуации происходят редко. В большинстве случаев недоступность сервисов возникает из-за неисправностей на программном или сетевом уровне. По статистике сбоев за последние полгода, наиболее масштабные инциденты связаны с человеческим фактором.

В надежности инфраструктуры крупнейших компаний — Google, Amazon, Facebook — сомневаться не приходится. Потому сбои на уровне инженерной или вычислительной инфраструктуры можно фактически исключить. Однако есть узкие места на программном уровне и в вопросах эксплуатации инфраструктуры. Они могут стать причинами сбоя в дальнейшем. Эта проблема актуальна и для российских провайдеров — не так давно один из них случайно удалил из своего облака виртуальные машины активных пользователей.

Сергей Андронов, директор центра сетевых решений «Инфосистемы Джет»:

— Глобальные сервисы и технологические решения для них с точки зрения единичных ошибок достаточно отказоустойчивые. В ряде случаев существуют механизмы автоматического восстановления, которые помогут быстро воссоздать сеть. Угроза появляется, когда формируется набор событий: сбой в информационной безопасности, технологические ошибки, человеческий фактор. Это может дать лавинообразный эффект и превратиться в глобальный сбой в работе конкретного сервиса.

Объем передаваемой информации будет только увеличиваться, участников сети — становиться все больше. В результате количество сбоев будет пропорционально расти. Можно моделировать и анализировать их, создавая сетевые полигоны, и снижать риск их возникновения в будущем, определив алгоритм действий, чтобы предотвратить их или минимизировать масштабы.

Сергей Голованов, главный эксперт «Лаборатории Касперского»:

— Причинами наиболее резонансных за последние годы сбоев чаще всего становились неполадки в работе глобальных провайдеров. Например, в ноябре 2020 года у многих сервисов случились сбои из-за проблем в работе самой распространенной в мире облачной платформы AWS. Иногда проблемы могут быть вызваны техногенными происшествиями: в 2018 году почти весь центр Сеула на два дня остался без связи и интернета в результате пожара в аппаратной одного из крупнейших операторов страны.

Решения, гарантирующего бесперебойную работу всего интернета, нет. Кроме того, несмотря на автоматизированность большинства процессов, свою, пусть и небольшую, долю в них сохраняет человеческий фактор. Главное, что могут и должны сделать компании в современных условиях,— обеспечить безопасность данных на случай подобных сбоев.

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...