hostprofi.ru
Подобрать хостинг
Термин·буква И

Инцидент

краткое определение

Незапланированное событие, нарушающее работу IT-сервиса, требующее реагирования, документирования и предотвращения повторения.

Инцидент (incident) в IT-инфраструктуре — незапланированное событие, нарушающее или угрожающее нарушить нормальную работу сервиса. Классифицируется по степени влияния на пользователей и бизнес. Управление инцидентами — процесс обнаружения, реагирования и предотвращения повторения.

Как работает

Жизненный цикл инцидента:

  1. Обнаружение — алерт из мониторинга, жалоба пользователя, автопроверка.
  2. Классификация — severity (P1/P2/P3): влияние на пользователей, обратимость.
  3. Назначение — дежурный инженер принимает инцидент.
  4. Диагностика — анализ логов (journalctl), метрик, трейсов.
  5. Устранение — восстановление сервиса. Не обязательно устранение первопричины.
  6. Закрытие — документирование, создание задач на fix.
  7. Post-mortem — ретроспектива: что произошло, почему, что изменить.

Классификация по severity

  • P1 / Critical — сервис полностью недоступен, все пользователи затронуты. Реакция немедленная, все доступные ресурсы. Время решения: <4 часа.
  • P2 / High — деградация сервиса, значительная часть пользователей. Реакция в течение 30 минут. Время решения: <8 часов.
  • P3 / Medium — отдельные функции недоступны, небольшое число пользователей. Решение в рабочее время.
  • P4 / Low — косметические проблемы без влияния на функциональность.

История

Формализованное управление инцидентами пришло из ITIL (IT Infrastructure Library) версии 1 (1989, UK Government). ITIL определил инцидент как «незапланированное прерывание IT-сервиса». В 2000-х процесс «управления инцидентами» стал обязательным для ITSM-сертификации. SRE-книга Google (2016) popularized incident management для DevOps-команд. PagerDuty, OpsGenie, VictorOps специализируются на инструментах управления дежурствами и инцидентами.

Post-mortem: без обвинений

Blameless post-mortem — стандарт в SRE-культуре: анализ инцидента без поиска виноватых. Цель — найти системные проблемы, а не наказать конкретного инженера. Шаблон:

  • Хронология событий (timeline)
  • Root cause analysis (5 Why или Fishbone)
  • Что сработало хорошо
  • Что нужно улучшить
  • Action items с владельцами и дедлайнами

Инструменты управления инцидентами

Grafana OnCall — open-source ротация дежурств и управление инцидентами. PagerDuty — коммерческий стандарт. StatusPage.io — публичная страница статуса сервисов. Jira Service Management — для команд, уже использующих Jira. Telegram-бот с уведомлениями из Icinga или Prometheus Alertmanager — минимальный и достаточный вариант для небольших команд.

На что обращать внимание

Alert fatigue (усталость от алертов) — когда алертов так много, что дежурные перестают реагировать. Регулярно пересматривайте пороги алертов: каждый алерт должен требовать действия. SLO Error Budget определяет приоритизацию инцидентов: инцидент, сжигающий Error Budget быстро — P1, медленно — P3. Документирование каждого инцидента в базе знаний ускоряет диагностику похожих в будущем.

Шаблон Telegram-уведомления при P1-инциденте через Prometheus Alertmanager: заголовок с severity, сервис, описание, ссылка на Grafana-дашборд и runbook (инструкция по устранению). Runbook должен быть доступен без VPN и без интернета — храните в Git-репозитории с GitLab Pages.

Другие термины