Uptime Institute представил отчет о динамике сбоев в работе дата-центров за 2024 год. В документе анализируется частота, причины и последствия сбоев на основе данных опросов операторов, информации из открытых источников и мониторинга компании. Помимо ключевых трендов за последний год, отчет дает оценку текущим показателям в сравнении с данными за предыдущий период.
Ключевые выводы:
- в 2024 году 53% операторов сообщили хотя бы об одном сбое за последние три года, тогда как в 2020 году их число составляло 78%;
- только 9% всех инцидентов за 2024 год можно считать серьезными или тяжелыми — это рекордно низкий показатель за все время наблюдений;
- более 54% участников опроса сообщили, что их последний серьезный сбой обошелся им в сумму, превышающую $100 тыс. Причем каждый пятый указал сумму ущерба более $1 млн;
- проблемы с питанием стали главной причиной инцидентов, которые привели к тяжелым последствиям. В то же время доля значимых сбоев, вызванных ИТ- и сетевыми проблемами, в 2024 году достигла 23%;
- доля сбоев, вызванных нарушением технических процедур, выросла на 10 п. п. по сравнению с предыдущим годом. При этом большинство ошибок, связанных с человеческим фактором, обусловлены тем, что сотрудники игнорировали инструкции или эти инструкции были некачественно составлены;
- 80% операторов уверены, что их последнего сбоя можно было бы избежать при лучшем управлении. Это, как указано в документе, подчеркивает необходимость инвестиций в обучение и поддержку персонала;
- за девять лет около 2/3 всех сбоев приходились на облачные сервисы, телеком-компании и центры обработки данных, предоставляемые сторонними провайдерами. В 2024 году количество сбоев у цифровых провайдеров выросло, а у крупных облачных компаний — снизилось, что может свидетельствовать о том, что их вложения в системы отказоустойчивости начали приносить результат;
- уже третий год подряд частота сбоев в финансовой отрасли ниже среднего уровня. Это связано с ужесточением нормативов после ряда крупных сбоев в прошлом;
- согласно Uptime Institute бум в сфере искусственного интеллекта увеличивает нагрузку на энергетические и охлаждающие системы. Одновременно проблемы с электросетями, нестабильные цепочки поставок и геополитические риски могут подорвать текущие успехи в устойчивости центров обработки данных.