Uptime (время безотказной работы) — процент времени, когда сервис доступен и работает штатно. Обычно измеряется за год. Уровень uptime фиксируется в SLA провайдера и служит гарантией доступности инфраструктуры. Разница между 99,9% и 99,99% кажется незначительной, но на практике означает разницу между 8,76 часа и 52 минутами допустимого простоя в год.
Таблица уровней uptime
| Uptime | Простой в год | Простой в месяц | Уровень |
|---|---|---|---|
| 99% | 3,65 дня | 7,2 часа | Базовый |
| 99,9% | 8,76 часа | 43,8 мин | Три девятки |
| 99,95% | 4,38 часа | 21,9 мин | Стандарт хостинга |
| 99,99% | 52,6 мин | 4,4 мин | Четыре девятки |
| 99,999% | 5,26 мин | 26 сек | Пять девяток |
SLA и компенсации
SLA (Service Level Agreement) — договор об уровне сервиса, в котором провайдер фиксирует обязательства по uptime и компенсации при их нарушении. Типичные компенсации: кредит на счёт (service credit) в размере 5–30% месячного платежа за каждый час простоя сверх нормы.
Нюанс: SLA измеряет доступность на уровне платформы провайдера, а не вашего конкретного приложения. Если VPS доступен, но Nginx упал из-за ошибки в конфигурации — это не попадает под SLA провайдера. Провайдеры обычно исключают из расчёта SLA: плановые технические работы с уведомлением за 24+ часов, форс-мажорные обстоятельства, инциденты по вине клиента.
Как обеспечивается высокий uptime
Для достижения 99,99% и выше используется:
- Географическая избыточность — серверы в нескольких датацентрах, трафик перенаправляется при отказе одной локации
- Active-Active кластеризация — несколько активных нод, нагрузка распределена; отказ одной ноды незаметен для пользователей
- Автоматическое восстановление — systemd, Kubernetes или проприетарные оркестраторы автоматически перезапускают упавшие сервисы
- Плановые обслуживания без простоя — rolling updates, blue-green деплой
- Резервное оборудование — hot-spare компоненты (блоки питания, диски, сетевые карты) меняются без отключения сервера
История
Концепция SLA для IT-сервисов появилась в 1980-х с ростом аутсорсинга вычислений. «Четыре девятки» (99,99%) как стандарт для Tier IV датацентров зафиксировал стандарт Uptime Institute (1995). Термин «пять девяток» (99,999%) пришёл из телефонии AT&T, достигавшей этого показателя для голосовой связи в 1970-х годах. Tier IV датацентр по определению Uptime Institute гарантирует 99,995% uptime при Fault Tolerant Dual-Powered инфраструктуре.
Мониторинг uptime
Для отслеживания uptime собственных сервисов: UptimeRobot (бесплатно, проверки каждые 5 минут), StatusCake, Freshping. Внешние мониторинги важны: они фиксируют недоступность с точки зрения пользователя, а не с точки зрения самого сервера. Данные внешнего мониторинга — доказательство для требования компенсации от провайдера при нарушении SLA. Настройте алерты в Prometheus или UptimeRobot для немедленного уведомления дежурного при недоступности — интеграция с PagerDuty обеспечивает эскалацию при отсутствии реакции.
Как рассчитать требуемый uptime для вашего проекта
Требуемый SLA зависит от бизнес-требований:
| Тип проекта | Допустимый простой/мес | Требуемый uptime |
|---|---|---|
| Корпоративный сайт (брендинг) | 4–8 часов | 99,5% |
| Интернет-магазин | 30–60 минут | 99,9%+ |
| Платёжная система, банкинг | 4–5 минут | 99,99% |
| Критичная инфраструктура | менее 30 секунд | 99,999% |
Uptime 99,99% (52 минуты в год) достигается через географически распределённые серверы и балансировщики нагрузки. Один VPS без резервирования физически не может обеспечить более 99,9% uptime — плановые перезагрузки при обновлении ядра занимают 2–5 минут. Для достижения четырёх девяток нужны минимум два сервера в разных датацентрах с автоматическим переключением трафика через DNS Failover или балансировщик нагрузки.