Инцидент

Инцидент (incident) в IT-инфраструктуре — незапланированное событие, нарушающее или угрожающее нарушить нормальную работу сервиса. Классифицируется по степени влияния на пользователей и бизнес. Управление инцидентами — процесс обнаружения, реагирования и предотвращения повторения.

Как работает

Жизненный цикл инцидента:

Обнаружение — алерт из мониторинга, жалоба пользователя, автопроверка.
Классификация — severity (P1/P2/P3): влияние на пользователей, обратимость.
Назначение — дежурный инженер принимает инцидент.
Диагностика — анализ логов (journalctl), метрик, трейсов.
Устранение — восстановление сервиса. Не обязательно устранение первопричины.
Закрытие — документирование, создание задач на fix.
Post-mortem — ретроспектива: что произошло, почему, что изменить.

Классификация по severity

P1 / Critical — сервис полностью недоступен, все пользователи затронуты. Реакция немедленная, все доступные ресурсы. Время решения: <4 часа.
P2 / High — деградация сервиса, значительная часть пользователей. Реакция в течение 30 минут. Время решения: <8 часов.
P3 / Medium — отдельные функции недоступны, небольшое число пользователей. Решение в рабочее время.
P4 / Low — косметические проблемы без влияния на функциональность.

История

Формализованное управление инцидентами пришло из ITIL (IT Infrastructure Library) версии 1 (1989, UK Government). ITIL определил инцидент как «незапланированное прерывание IT-сервиса». В 2000-х процесс «управления инцидентами» стал обязательным для ITSM-сертификации. SRE-книга Google (2016) popularized incident management для DevOps-команд. PagerDuty, OpsGenie, VictorOps специализируются на инструментах управления дежурствами и инцидентами.

Post-mortem: без обвинений

Blameless post-mortem — стандарт в SRE-культуре: анализ инцидента без поиска виноватых. Цель — найти системные проблемы, а не наказать конкретного инженера. Шаблон:

Хронология событий (timeline)
Root cause analysis (5 Why или Fishbone)
Что сработало хорошо
Что нужно улучшить
Action items с владельцами и дедлайнами

Инструменты управления инцидентами

Grafana OnCall — open-source ротация дежурств и управление инцидентами. PagerDuty — коммерческий стандарт. StatusPage.io — публичная страница статуса сервисов. Jira Service Management — для команд, уже использующих Jira. Telegram-бот с уведомлениями из Icinga или Prometheus Alertmanager — минимальный и достаточный вариант для небольших команд.

На что обращать внимание

Alert fatigue (усталость от алертов) — когда алертов так много, что дежурные перестают реагировать. Регулярно пересматривайте пороги алертов: каждый алерт должен требовать действия. SLO Error Budget определяет приоритизацию инцидентов: инцидент, сжигающий Error Budget быстро — P1, медленно — P3. Документирование каждого инцидента в базе знаний ускоряет диагностику похожих в будущем.

Шаблон Telegram-уведомления при P1-инциденте через Prometheus Alertmanager: заголовок с severity, сервис, описание, ссылка на Grafana-дашборд и runbook (инструкция по устранению). Runbook должен быть доступен без VPN и без интернета — храните в Git-репозитории с GitLab Pages.