BCP (план непрерывности бизнеса)

BCP (Business Continuity Plan, план непрерывности бизнеса) — документ и набор процедур, обеспечивающих продолжение критических бизнес-функций при сбоях инфраструктуры, стихийных бедствиях, кибератаках или других форс-мажорах. BCP охватывает не только IT, но и людей, процессы и коммуникации.

Как работает

BCP строится вокруг двух ключевых метрик:

RTO (Recovery Time Objective) — максимально допустимое время простоя. Для интернет-магазина RTO = 4 часа означает: после любого инцидента сервис восстанавливается за 4 часа или менее.
RPO (Recovery Point Objective) — максимально допустимая потеря данных. RPO = 1 час означает: резервные копии создаются каждый час, максимальная потеря — данные за 60 минут.

RTO и RPO определяют частоту бекапов, требования к отказоустойчивости инфраструктуры и SLA с хостинг-провайдером.

Структура BCP

BIA (Business Impact Analysis) — анализ влияния простоя: какие процессы критичны, сколько стоит час простоя в деньгах.
Стратегия восстановления — cold/warm/hot standby, cloud failover, ручные процедуры.
Процедуры реагирования — пошаговые инструкции: кто что делает при разных сценариях.
Коммуникационный план — кого уведомлять, по каким каналам, шаблоны сообщений.
Тестирование — регулярные учения (tabletop exercises, failover тесты).

История

Формализованные планы непрерывности появились в банковском секторе США в 1970-х после нескольких крупных сбоев вычислительных центров. После теракта 11 сентября 2001 года, когда множество компаний из Всемирного торгового центра потеряли доступ к инфраструктуре, BCP стал обязательным требованием регуляторов для финансовых и страховых компаний. ISO 22301:2019 — международный стандарт управления непрерывностью бизнеса.

IT-компоненты BCP

Горячее резервирование (Hot standby): резервная система запущена и синхронизирована в реальном времени. Переключение — секунды. Пример: репликация БД master-slave с автоматическим failover через Patroni или MHA.

Тёплое резервирование (Warm standby): резервная система готова, но требует запуска сервисов. Переключение — минуты. Пример: резервный VPS с актуальным бекапом, поднимающийся при недоступности основного.

Холодное резервирование (Cold standby): системы не запущены, данные на облачном хранилище. Переключение — часы. Дешевле, но не подходит для критических сервисов.

DRP vs BCP

DRP (Disaster Recovery Plan) — подмножество BCP: технические процедуры восстановления IT-систем. BCP шире: включает организационные вопросы, альтернативные офисы, работу персонала в удалённом режиме. BCP без DRP — план без механизма реализации. DRP без BCP — техника без контекста бизнес-приоритетов.

На что обращать внимание

BCP без регулярного тестирования — бумажный тигр. Раз в год проводите full failover test: симулируйте потерю основного ЦОД и восстанавливайте из бекапов. Время реального восстановления часто в 2-3 раза превышает плановое — документируйте расхождения и улучшайте процедуры. SLA хостинга должен соответствовать требованиям BCP: если RTO = 1 час, SLA провайдера должен гарантировать восстановление за это время.