Disaster Recovery (аварийное восстановление) — набор политик, инструментов и процедур для восстановления критически важных IT-систем после катастрофического события. DR выходит за рамки обычного резервного копирования: это полный план восстановления бизнеса, включая приоритеты, ответственных и порядок действий.
Ключевые метрики
- RTO (Recovery Time Objective) — максимально допустимое время простоя. «Сайт должен работать не позднее чем через 4 часа после инцидента».
- RPO (Recovery Point Objective) — максимально допустимая потеря данных. «Потеря данных за последние 15 минут допустима».
- RLO (Recovery Level Objective) — уровень функциональности при восстановлении. «Читабельный режим, без записи».
Стратегии DR
- Backup & Restore — самая простая и дешёвая. Высокий RTO (часы). RPO = интервал бэкапа.
- Pilot Light — минимальная инфраструктура готова, основные ресурсы разворачиваются при катастрофе. RTO: минуты/часы.
- Warm Standby — уменьшенный работающий дубль. RTO: минуты. Дороже.
- Hot Standby / Multi-site — полный дубль в параллельном режиме. RTO: секунды. Дорого.
DR Plan
Документ описывает: список критических систем и зависимостей, контакты ответственных, пошаговые инструкции восстановления каждого сервиса, порядок тестирования (min раз в год). Без регулярного тестирования DR-план — бесполезная бумага.
История
Концепция DR появилась в финансовом секторе США в 1970-х после пожара в Brach Candy Factory (1972). IBM создала первый коммерческий DR-сервис в 1979 году. 11 сентября 2001 года показало критическую важность off-site DR. HIPAA (1996), PCI DSS (2004) сделали DR обязательным для регулируемых отраслей.
Связь с хостингом
DR для сайта на VDS: регулярные бэкапы в несколько мест + задокументированная процедура восстановления (какие команды выполнить, в каком порядке). Геораспределённый бэкап — первый шаг к DR. Облачные провайдеры (AWS, Azure) предлагают managed DR-сервисы.
История Disaster Recovery
Планирование восстановления после катастроф (Disaster Recovery Planning) зародилось в банковской сфере США в 1970-х годах после нескольких крупных пожаров в дата-центрах. Первый стандарт DR — NFPA 75 (1972). BS 25999 (2006) — стандарт непрерывности бизнеса. ISO 22301 (2012) заменил BS 25999. Облачный DR (DRaaS — Disaster Recovery as a Service) появился с развитием AWS около 2012 года. Катастрофа в OVH Strasbourg (март 2021) уничтожила 12 000 серверов — наглядный урок важности DR-плана.
Показатели DR
| Метрика | Определение | Типичные значения |
|---|---|---|
| RTO (Recovery Time Objective) | максимальное время восстановления | от 15 мин до 72 ч |
| RPO (Recovery Point Objective) | допустимая потеря данных | от 0 до 24 ч |
| MTTR (Mean Time to Recover) | среднее время восстановления | измеряется по инцидентам |
| MTBF (Mean Time Between Failures) | среднее время между отказами | гарантируется SLA |
Стратегии DR для хостинга
- Backup & Restore: RPO=часы, RTO=часы, дешево. Подходит для не критичных систем.
- Pilot Light: минимальный DR-сайт с данными, без запущенных сервисов. RPO=минуты.
- Warm Standby: DR-сайт с сервисами в «спящем» режиме. RTO=минуты.
- Multi-site Active/Active: оба сайта обрабатывают трафик. RTO=секунды, дорого.
На практике для большинства VPS-проектов достаточно Backup & Restore со скриптами автоматического восстановления и документированным runbook.