Даунтайм

Даунтайм (downtime) — интервал времени, в течение которого сервер, сайт или сервис недоступен для пользователей. Центральный показатель надёжности хостинга: чем меньше даунтайм, тем выше доступность. В SLA (Service Level Agreement) даунтайм нормируется через показатель uptime в процентах.

Плановый и внеплановый даунтайм

Плановый (planned downtime): Заранее согласованные окна технического обслуживания: обновление ОС, замена оборудования, миграция данных. Провайдер заблаговременно уведомляет клиентов. Большинство SLA не включают плановый даунтайм в расчёт доступности — формально сервис считается доступным, даже если стоит на плановом ТО.
Внеплановый (unplanned downtime): Аварийные отказы: выход из строя диска, перегрев, сбой питания, DDoS-атака, программная ошибка. Именно этот тип учитывается при расчёте SLA и влечёт компенсацию клиентам.

Как считается доступность

Формула: Uptime % = (Общее время − Даунтайм) / Общее время × 100. Допустимый даунтайм при разных уровнях SLA:

SLA	Даунтайм в год	Даунтайм в месяц
99%	3 дня 15 ч	7 ч 18 мин
99,9%	8 ч 45 мин	43,8 мин
99,95%	4 ч 22 мин	21,9 мин
99,99%	52 мин	4,4 мин
99,999%	5,25 мин	26 сек

«Пять девяток» (99,999%) — уровень операторов связи и крупнейших CDN. Для большинства коммерческих хостеров реален уровень 99,9–99,95%.

Причины внепланового даунтайма

Отказ жёсткого диска или SSD (без RAID — потеря данных).
Сбой сетевого оборудования — маршрутизатор, коммутатор.
Отказ электропитания при отсутствии резервных ИБП или генераторов.
Ошибки в коде приложения, переполнение диска или памяти.
DDoS-атаки, исчерпывающие пропускную способность канала.
Ошибки оператора при обновлении ПО или конфигурации.

История

Понятие downtime сформировалось в 1960-х годах в мейнфрейм-эпоху, когда вычислительное время стоило дорого и простой машины измерялся тысячами долларов. С массовым распространением веба в 1990-х даунтайм стал критическим бизнес-показателем. По данным Gartner 2014 года, средняя стоимость часа простоя корпоративной IT-системы составила $5 600. К 2020-м годам даунтайм у e-commerce уровня Amazon оценивался в $220 000 в минуту.

Мониторинг и оповещения о даунтайме

Реакция на даунтайм зависит от скорости обнаружения. Без мониторинга — узнаёшь о проблеме от пользователей или при открытии сайта. Инструменты: Uptime Robot (бесплатно, проверка каждые 5 мин), Better Uptime, самохостинг через Uptime Kuma. Алерты: Telegram (через webhook), SMS, PagerDuty для критичных систем с on-call дежурством.

Статусная страница (status page) — публичная информация о состоянии сервисов и исторических инцидентах. Повышает доверие: клиенты видят честную информацию о проблемах вместо тишины. Atlassian Statuspage, Cachet (self-hosted), Better Uptime — популярные решения. Incident management: при даунтайме важно своевременно коммуницировать статус клиентам, обновлять статус каждые 30 минут.

Как минимизировать даунтайм

Технические способы снижения даунтайма: резервирование оборудования, фейловер, балансировка нагрузки, CDN для статики, мониторинг с оповещениями. На уровне хостинга — выбор провайдера с SLA не ниже 99,9% и чёткими условиями компенсации при нарушении. Для критичных сервисов используют георезервирование — размещение в нескольких дата-центрах в разных регионах.