hostprofi.ru
Подобрать хостинг
Термин·буква D

Disaster Recovery

краткое определение

Disaster Recovery (DR) — план и процессы восстановления IT-инфраструктуры после катастрофического сбоя (пожар, DDoS, ransomware, отказ ЦОД). Ключевые метрики: RTO (время восстановления) и RPO (допустимая потеря данных). DR план тестируется регулярно.

Disaster Recovery (аварийное восстановление) — набор политик, инструментов и процедур для восстановления критически важных IT-систем после катастрофического события. DR выходит за рамки обычного резервного копирования: это полный план восстановления бизнеса, включая приоритеты, ответственных и порядок действий.

Ключевые метрики

  • RTO (Recovery Time Objective) — максимально допустимое время простоя. «Сайт должен работать не позднее чем через 4 часа после инцидента».
  • RPO (Recovery Point Objective) — максимально допустимая потеря данных. «Потеря данных за последние 15 минут допустима».
  • RLO (Recovery Level Objective) — уровень функциональности при восстановлении. «Читабельный режим, без записи».

Стратегии DR

  • Backup & Restore — самая простая и дешёвая. Высокий RTO (часы). RPO = интервал бэкапа.
  • Pilot Light — минимальная инфраструктура готова, основные ресурсы разворачиваются при катастрофе. RTO: минуты/часы.
  • Warm Standby — уменьшенный работающий дубль. RTO: минуты. Дороже.
  • Hot Standby / Multi-site — полный дубль в параллельном режиме. RTO: секунды. Дорого.

DR Plan

Документ описывает: список критических систем и зависимостей, контакты ответственных, пошаговые инструкции восстановления каждого сервиса, порядок тестирования (min раз в год). Без регулярного тестирования DR-план — бесполезная бумага.

История

Концепция DR появилась в финансовом секторе США в 1970-х после пожара в Brach Candy Factory (1972). IBM создала первый коммерческий DR-сервис в 1979 году. 11 сентября 2001 года показало критическую важность off-site DR. HIPAA (1996), PCI DSS (2004) сделали DR обязательным для регулируемых отраслей.

Связь с хостингом

DR для сайта на VDS: регулярные бэкапы в несколько мест + задокументированная процедура восстановления (какие команды выполнить, в каком порядке). Геораспределённый бэкап — первый шаг к DR. Облачные провайдеры (AWS, Azure) предлагают managed DR-сервисы.

История Disaster Recovery

Планирование восстановления после катастроф (Disaster Recovery Planning) зародилось в банковской сфере США в 1970-х годах после нескольких крупных пожаров в дата-центрах. Первый стандарт DR — NFPA 75 (1972). BS 25999 (2006) — стандарт непрерывности бизнеса. ISO 22301 (2012) заменил BS 25999. Облачный DR (DRaaS — Disaster Recovery as a Service) появился с развитием AWS около 2012 года. Катастрофа в OVH Strasbourg (март 2021) уничтожила 12 000 серверов — наглядный урок важности DR-плана.

Показатели DR

МетрикаОпределениеТипичные значения
RTO (Recovery Time Objective)максимальное время восстановленияот 15 мин до 72 ч
RPO (Recovery Point Objective)допустимая потеря данныхот 0 до 24 ч
MTTR (Mean Time to Recover)среднее время восстановленияизмеряется по инцидентам
MTBF (Mean Time Between Failures)среднее время между отказамигарантируется SLA

Стратегии DR для хостинга

  • Backup & Restore: RPO=часы, RTO=часы, дешево. Подходит для не критичных систем.
  • Pilot Light: минимальный DR-сайт с данными, без запущенных сервисов. RPO=минуты.
  • Warm Standby: DR-сайт с сервисами в «спящем» режиме. RTO=минуты.
  • Multi-site Active/Active: оба сайта обрабатывают трафик. RTO=секунды, дорого.

На практике для большинства VPS-проектов достаточно Backup & Restore со скриптами автоматического восстановления и документированным runbook.

Другие термины