hostprofi.ru
Подобрать хостинг
Термин·буква P

PagerDuty / OnCall

краткое определение

PagerDuty — облачная платформа управления инцидентами и on-call дежурствами. Принимает алерты от систем мониторинга, маршрутизирует их нужным специалистам по расписанию дежурств и управляет жизненным циклом инцидента.

PagerDuty — SaaS-платформа управления инцидентами (incident management) для DevOps и IT-команд. Получает алерты от Prometheus, Nagios, Zabbix и сотен других систем мониторинга, определяет дежурного специалиста по расписанию (on-call schedule) и уведомляет его через звонок, SMS, push-уведомление или мессенджер. Цель — минимизировать MTTR (Mean Time To Recovery, среднее время восстановления).

Ключевые концепции PagerDuty

  • Service — логическая единица: «nginx», «database», «payment-api». Каждый сервис имеет эскалационную политику и интеграции с мониторингом
  • On-Call Schedule — расписание дежурств: кто на смене в какое время. Поддерживает таймзоны, замены, многоуровневые ротации
  • Escalation Policy — цепочка уведомлений: если первый дежурный не ответил за 15 минут, алерт эскалирует к следующему
  • Incident — зафиксированный инцидент с историей действий (acknowledge, resolve), комментариями и привязкой к алертам
  • Suppression Rules — подавление алертов в окна технического обслуживания

Интеграция с мониторингом

PagerDuty интегрируется через HTTP Events API v2. Пример отправки алерта:

curl -X POST https://events.pagerduty.com/v2/enqueue \
  -H "Content-Type: application/json" \
  -d '{"routing_key":"KEY","event_action":"trigger","payload":{"summary":"Disk 95%","severity":"critical"}}'

В Prometheus Alertmanager интеграция настраивается через receiver типа pagerduty_configs в alertmanager.yaml — достаточно указать integration_key. Алерт «сервер недоступен» или «диск заполнен на 95%» немедленно будит дежурного администратора.

История

PagerDuty основан в 2009 году в Сан-Франциско Алексом Соломоном, Баскаром Прамаником и Эндрю Петерсоном — выпускниками Waterloo. IPO на NYSE в 2019 году при оценке $1,7 млрд. К 2023 году PagerDuty обслуживает более 20 000 организаций. Конкуренты: OpsGenie (поглощена Atlassian в 2018 году), VictorOps (поглощена Splunk в 2018 году), Grafana OnCall (open-source, 2022).

PagerDuty vs OpsGenie vs Grafana OnCall

ПлатформаЦена/пользователь/месOpen-SourceSelf-hosted
PagerDuty$21+НетНет
OpsGenie (Atlassian)$9+НетНет
Grafana OnCallБесплатноДаДа

Применение в хостинге

PagerDuty используется командами, обслуживающими выделенные серверы и VPS-флоты с SLA-требованиями и круглосуточным дежурством. Для небольших команд (до 5 человек) Grafana OnCall — бесплатная альтернатива: on-call расписания, эскалации, интеграция с Prometheus/Alertmanager из коробки, развёртывается на собственном сервере за 15 минут. PagerDuty автоматически логирует все действия при работе с инцидентами (кто, когда, что сделал) — это упрощает post-mortem анализ и выявление системных проблем в инфраструктуре.

MTTR и работа с инцидентами

Ключевая метрика эффективности on-call процесса — MTTR (Mean Time to Resolve): среднее время от появления инцидента до его разрешения. PagerDuty публикует статистику: компании с зрелыми on-call процессами имеют MTTR около 30 минут, без системы управления инцидентами — 2-4 часа. Retro по каждому инциденту с анализом причин (post-mortem) снижает повторяемость однотипных проблем.

Ключевые метрики управления инцидентами

PagerDuty и аналоги помогают отслеживать:

  • MTTA (Mean Time To Acknowledge) — среднее время до подтверждения алерта дежурным. Цель для critical-алертов: менее 5 минут
  • MTTR (Mean Time To Resolve) — среднее время до устранения инцидента
  • Noise ratio — отношение «шумных» (ложных или неважных) алертов к реальным инцидентам. Высокий шум приводит к alert fatigue и игнорированию уведомлений

Для снижения alert fatigue: настройте ингибирование в Prometheus Alertmanager (один алерт «сервер недоступен» подавляет все дочерние алерты этого сервера), используйте time-based routes для ненасрочных уведомлений в рабочие часы.

Другие термины

PagerDuty / OnCall — что это, определение и как работает | Справочник — hostprofi.ru