Согласно информации издания Register и публикации в корпоративном блоге описания этого происшествия Джоном Грэм-Каммингом, техническим директором компании Cloudflare, в середине апреля 2020 года во время проведения плановых технических работ по демонтажу неактивного сетевого оборудования в одном из дата-центров компании инженер отключил все соединения внутри телекоммуникационного шкафа, в том числе немаркированные оптические кабели, через которые обеспечивались все внешние подключения к другим дата-центрам Cloudflare.
Грэм-Камминг подтвердил, что этот сетевой инцидент, приведший к прерыванию на четыре с половиной часа сервисов Cloudflare Dashboard и Cloudflare API, начался с планового технического обслуживания в одном из основных центров обработки данных компании. В ходе работ инженеру, занимающемуся демонтажем, было дано простое задание от технических специалистов Cloudflare — отключить и убрать все сетевое оборудование в одном из телекоммуникационных шкафов. По информации сетевых инженеров компании, в этом шкафу было установлено устаревшее сетевое и серверное оборудование, которое в сети компании уже не было задействовано, поэтому работы проводились инженером без остановки сервисов и в обычное рабочее время.
Однако, в реальности оказалось, что в этом шкафу была установлен коммутационный оптический кросс, обеспечивающую все внешние подключения к другим дата-центрам Cloudflare. Инженеру понадобилось менее трех минут, чтобы отключить все немаркированные оптические кабели и патч-корды от этого оптического кросса, который был единственной точкой отказа для этого центра обработки данных Cloudflare.
«Начиная с 15:31 UTC и продолжая до 19:52 UTC, сервисы Cloudflare Dashboard и Cloudflare API стали недоступны из-за отключения нескольких избыточных оптоволоконных соединений в одном из наших основных центров обработки данных», — заявил в блоге представитель Cloudflare.
После регистрации инцидента сетевые специалисты компании пытались максимально разобраться в произошедшем, но это заняло у них много время, так как многие оптические кабели в как в шкафу, где проводились работы, так и в других местах, не были правильно промаркированы, из-за чего пришлось выполнять на месте дополнительные проверки соединений с помощью специального оборудования.
Также для решения этой проблемы более двадцати сетевых инженеров работали удаленно, помогая организовать восстановление связи и следили за аварийным восстановлением сервисов после сбоя.
Cloudflare заявила, что не будет ни в коем случае наказывать инженера, действия которого привели к отказы сервисов. «Мы откорректируем процедуру производства плановых работ с оборудованием. Теперь наши технические специалисты перед началом всех работ сначала сами будут проверять наличие и соответствие оборудования в шкафах, согласно документации, а также перепроверят маркировку на всех основных и критичных кабелях. Так как инцидент показал, что ее там часто нет или она не правильная», — пояснил представитель Cloudflare. Еще в компании обязательно пообещали пересмотреть организацию внешних сетевых соединений в этом дата-центре, чтобы избежать наличия единой физической точки отказа, из-за которой случилось это происшествие.
Вдобавок в Cloudflare уверили, что информация клиентов не пострадала, просто у них пропал доступ к части сервисов компании, а все конфигурационные данные были сохранены компанией и не изменились во время инцидента.
Какие сервисы и службы были недоступны клиентам компании во время инцидента:
- Logging into the Dashboard;
- Using the API;
- Making any configuration changes (such as changing a DNS record);
- Purging cache;
- Running automated Load Balancing health checks;
- Creating or maintaining Argo Tunnel connections;
- Creating or updating Cloudflare Workers;
- Transferring domains to Cloudflare Registrar;
- Accessing Cloudflare Logs and Analytics;
- Encoding videos on Cloudflare Stream;
- Logging information from edge services (customers will see a gap in log data).
Во время инцидента продолжали штатно работать: сама сеть Cloudflare, прокси-сайты клиентов и приложения, в том числе Magic Transit, Cloudflare Access, Cloudflare Spectrum, Web Application Firewall. Также штатно функционировали все системы безопасности компании.
Комментариев нет:
Отправить комментарий