Даунтайм (downtime) — интервал времени, в течение которого сервер, сайт или сервис недоступен для пользователей. Центральный показатель надёжности хостинга: чем меньше даунтайм, тем выше доступность. В SLA (Service Level Agreement) даунтайм нормируется через показатель uptime в процентах.
Плановый и внеплановый даунтайм
- Плановый (planned downtime)
- Заранее согласованные окна технического обслуживания: обновление ОС, замена оборудования, миграция данных. Провайдер заблаговременно уведомляет клиентов. Большинство SLA не включают плановый даунтайм в расчёт доступности — формально сервис считается доступным, даже если стоит на плановом ТО.
- Внеплановый (unplanned downtime)
- Аварийные отказы: выход из строя диска, перегрев, сбой питания, DDoS-атака, программная ошибка. Именно этот тип учитывается при расчёте SLA и влечёт компенсацию клиентам.
Как считается доступность
Формула: Uptime % = (Общее время − Даунтайм) / Общее время × 100. Допустимый даунтайм при разных уровнях SLA:
| SLA | Даунтайм в год | Даунтайм в месяц |
|---|---|---|
| 99% | 3 дня 15 ч | 7 ч 18 мин |
| 99,9% | 8 ч 45 мин | 43,8 мин |
| 99,95% | 4 ч 22 мин | 21,9 мин |
| 99,99% | 52 мин | 4,4 мин |
| 99,999% | 5,25 мин | 26 сек |
«Пять девяток» (99,999%) — уровень операторов связи и крупнейших CDN. Для большинства коммерческих хостеров реален уровень 99,9–99,95%.
Причины внепланового даунтайма
- Отказ жёсткого диска или SSD (без RAID — потеря данных).
- Сбой сетевого оборудования — маршрутизатор, коммутатор.
- Отказ электропитания при отсутствии резервных ИБП или генераторов.
- Ошибки в коде приложения, переполнение диска или памяти.
- DDoS-атаки, исчерпывающие пропускную способность канала.
- Ошибки оператора при обновлении ПО или конфигурации.
История
Понятие downtime сформировалось в 1960-х годах в мейнфрейм-эпоху, когда вычислительное время стоило дорого и простой машины измерялся тысячами долларов. С массовым распространением веба в 1990-х даунтайм стал критическим бизнес-показателем. По данным Gartner 2014 года, средняя стоимость часа простоя корпоративной IT-системы составила $5 600. К 2020-м годам даунтайм у e-commerce уровня Amazon оценивался в $220 000 в минуту.
Мониторинг и оповещения о даунтайме
Реакция на даунтайм зависит от скорости обнаружения. Без мониторинга — узнаёшь о проблеме от пользователей или при открытии сайта. Инструменты: Uptime Robot (бесплатно, проверка каждые 5 мин), Better Uptime, самохостинг через Uptime Kuma. Алерты: Telegram (через webhook), SMS, PagerDuty для критичных систем с on-call дежурством.
Статусная страница (status page) — публичная информация о состоянии сервисов и исторических инцидентах. Повышает доверие: клиенты видят честную информацию о проблемах вместо тишины. Atlassian Statuspage, Cachet (self-hosted), Better Uptime — популярные решения. Incident management: при даунтайме важно своевременно коммуницировать статус клиентам, обновлять статус каждые 30 минут.
Как минимизировать даунтайм
Технические способы снижения даунтайма: резервирование оборудования, фейловер, балансировка нагрузки, CDN для статики, мониторинг с оповещениями. На уровне хостинга — выбор провайдера с SLA не ниже 99,9% и чёткими условиями компенсации при нарушении. Для критичных сервисов используют георезервирование — размещение в нескольких дата-центрах в разных регионах.