Инцидент (incident) в IT-инфраструктуре — незапланированное событие, нарушающее или угрожающее нарушить нормальную работу сервиса. Классифицируется по степени влияния на пользователей и бизнес. Управление инцидентами — процесс обнаружения, реагирования и предотвращения повторения.
Как работает
Жизненный цикл инцидента:
- Обнаружение — алерт из мониторинга, жалоба пользователя, автопроверка.
- Классификация — severity (P1/P2/P3): влияние на пользователей, обратимость.
- Назначение — дежурный инженер принимает инцидент.
- Диагностика — анализ логов (journalctl), метрик, трейсов.
- Устранение — восстановление сервиса. Не обязательно устранение первопричины.
- Закрытие — документирование, создание задач на fix.
- Post-mortem — ретроспектива: что произошло, почему, что изменить.
Классификация по severity
- P1 / Critical — сервис полностью недоступен, все пользователи затронуты. Реакция немедленная, все доступные ресурсы. Время решения: <4 часа.
- P2 / High — деградация сервиса, значительная часть пользователей. Реакция в течение 30 минут. Время решения: <8 часов.
- P3 / Medium — отдельные функции недоступны, небольшое число пользователей. Решение в рабочее время.
- P4 / Low — косметические проблемы без влияния на функциональность.
История
Формализованное управление инцидентами пришло из ITIL (IT Infrastructure Library) версии 1 (1989, UK Government). ITIL определил инцидент как «незапланированное прерывание IT-сервиса». В 2000-х процесс «управления инцидентами» стал обязательным для ITSM-сертификации. SRE-книга Google (2016) popularized incident management для DevOps-команд. PagerDuty, OpsGenie, VictorOps специализируются на инструментах управления дежурствами и инцидентами.
Post-mortem: без обвинений
Blameless post-mortem — стандарт в SRE-культуре: анализ инцидента без поиска виноватых. Цель — найти системные проблемы, а не наказать конкретного инженера. Шаблон:
- Хронология событий (timeline)
- Root cause analysis (5 Why или Fishbone)
- Что сработало хорошо
- Что нужно улучшить
- Action items с владельцами и дедлайнами
Инструменты управления инцидентами
Grafana OnCall — open-source ротация дежурств и управление инцидентами. PagerDuty — коммерческий стандарт. StatusPage.io — публичная страница статуса сервисов. Jira Service Management — для команд, уже использующих Jira. Telegram-бот с уведомлениями из Icinga или Prometheus Alertmanager — минимальный и достаточный вариант для небольших команд.
На что обращать внимание
Alert fatigue (усталость от алертов) — когда алертов так много, что дежурные перестают реагировать. Регулярно пересматривайте пороги алертов: каждый алерт должен требовать действия. SLO Error Budget определяет приоритизацию инцидентов: инцидент, сжигающий Error Budget быстро — P1, медленно — P3. Документирование каждого инцидента в базе знаний ускоряет диагностику похожих в будущем.
Шаблон Telegram-уведомления при P1-инциденте через Prometheus Alertmanager: заголовок с severity, сервис, описание, ссылка на Grafana-дашборд и runbook (инструкция по устранению). Runbook должен быть доступен без VPN и без интернета — храните в Git-репозитории с GitLab Pages.