Disaster Recovery

Disaster Recovery (аварийное восстановление) — набор политик, инструментов и процедур для восстановления критически важных IT-систем после катастрофического события. DR выходит за рамки обычного резервного копирования: это полный план восстановления бизнеса, включая приоритеты, ответственных и порядок действий.

Ключевые метрики

RTO (Recovery Time Objective) — максимально допустимое время простоя. «Сайт должен работать не позднее чем через 4 часа после инцидента».
RPO (Recovery Point Objective) — максимально допустимая потеря данных. «Потеря данных за последние 15 минут допустима».
RLO (Recovery Level Objective) — уровень функциональности при восстановлении. «Читабельный режим, без записи».

Стратегии DR

Backup & Restore — самая простая и дешёвая. Высокий RTO (часы). RPO = интервал бэкапа.
Pilot Light — минимальная инфраструктура готова, основные ресурсы разворачиваются при катастрофе. RTO: минуты/часы.
Warm Standby — уменьшенный работающий дубль. RTO: минуты. Дороже.
Hot Standby / Multi-site — полный дубль в параллельном режиме. RTO: секунды. Дорого.

DR Plan

Документ описывает: список критических систем и зависимостей, контакты ответственных, пошаговые инструкции восстановления каждого сервиса, порядок тестирования (min раз в год). Без регулярного тестирования DR-план — бесполезная бумага.

История

Концепция DR появилась в финансовом секторе США в 1970-х после пожара в Brach Candy Factory (1972). IBM создала первый коммерческий DR-сервис в 1979 году. 11 сентября 2001 года показало критическую важность off-site DR. HIPAA (1996), PCI DSS (2004) сделали DR обязательным для регулируемых отраслей.

Связь с хостингом

DR для сайта на VDS: регулярные бэкапы в несколько мест + задокументированная процедура восстановления (какие команды выполнить, в каком порядке). Геораспределённый бэкап — первый шаг к DR. Облачные провайдеры (AWS, Azure) предлагают managed DR-сервисы.

История Disaster Recovery

Планирование восстановления после катастроф (Disaster Recovery Planning) зародилось в банковской сфере США в 1970-х годах после нескольких крупных пожаров в дата-центрах. Первый стандарт DR — NFPA 75 (1972). BS 25999 (2006) — стандарт непрерывности бизнеса. ISO 22301 (2012) заменил BS 25999. Облачный DR (DRaaS — Disaster Recovery as a Service) появился с развитием AWS около 2012 года. Катастрофа в OVH Strasbourg (март 2021) уничтожила 12 000 серверов — наглядный урок важности DR-плана.

Показатели DR

Метрика	Определение	Типичные значения
RTO (Recovery Time Objective)	максимальное время восстановления	от 15 мин до 72 ч
RPO (Recovery Point Objective)	допустимая потеря данных	от 0 до 24 ч
MTTR (Mean Time to Recover)	среднее время восстановления	измеряется по инцидентам
MTBF (Mean Time Between Failures)	среднее время между отказами	гарантируется SLA

Стратегии DR для хостинга

Backup & Restore: RPO=часы, RTO=часы, дешево. Подходит для не критичных систем.
Pilot Light: минимальный DR-сайт с данными, без запущенных сервисов. RPO=минуты.
Warm Standby: DR-сайт с сервисами в «спящем» режиме. RTO=минуты.
Multi-site Active/Active: оба сайта обрабатывают трафик. RTO=секунды, дорого.

На практике для большинства VPS-проектов достаточно Backup & Restore со скриптами автоматического восстановления и документированным runbook.