Skip to content
← Все статьи

Дежурства on-call: лучшие практики

Коротко. Здоровое дежурство on-call строится на трёх китах: разумная нагрузка (не более одного значимого инцидента за смену), понятная эскалация (кто следующий, если первый не ответил) и борьба с шумом алертов. Дежурный должен реагировать только на то, что действительно требует немедленного действия человека, иначе наступает выгорание и сигналы начинают игнорировать.

Что делает дежурство здоровым

Дежурство — это не наказание, а часть инженерной культуры. Хороший процесс уважает время и сон человека.

Если дежурного будят ради алерта, на который он ничего не может или не должен делать прямо сейчас — это не алерт, а шум. Шум убивает доверие к мониторинг сайтов.

Ротация и нагрузка

  • Минимум 6–8 человек в ротации, чтобы смена выпадала не чаще раза в 1,5–2 месяца.
  • Смена 7 дней — недельная ротация удобнее посуточной для передачи контекста.
  • Компенсация — отгулы или доплата за ночные срабатывания.
  • Не более 2 страниц за смену как ориентир здоровья процесса.

Уровни эскалации

Эскалация гарантирует, что инцидент не «зависнет» на недоступном человеке. Базовый шаблон:

Эскалационная политика "production-api":

Уровень 1: Дежурный инженер
  → ждать ответа 5 минут

Уровень 2 (если нет ack за 5 мин): Вторичный дежурный
  → ждать ответа 5 минут

Уровень 3 (если нет ack за 10 мин): Тимлид + менеджер
  → уведомить руководство, объявить major incident

Каналы: push → SMS → звонок (по нарастанию настойчивости)

Борьба с alert fatigue

Усталость от алертов — главный враг дежурства. Снижайте шум системно:

  1. Каждый алерт должен быть actionable — требовать конкретного действия человека.
  2. Группируйте связанные алерты в один инцидент, а не сотню уведомлений.
  3. Алерты, которые «можно посмотреть утром», шлите в тикеты, а не будите ими.
  4. Регулярно проводите ревизию: удаляйте срабатывания, которые ни разу не привели к действию.

Подробнее — в статье про лучшие практики оповещений.

Что должно быть под рукой у дежурного

АртефактЗачем
RunbookПошаговые действия по типовым сбоям
ДашбордыБыстрый обзор золотых сигналов
Контакты эскалацииКому звонить, если не справился
ДоступыЛоги, прод, kill-switch — заранее выданы

О том, как составить runbook, читайте в отдельном руководстве.

Как enterno.io поддерживает дежурство

enterno.io доставляет алерты по нескольким каналам: Telegram, Slack, email, webhook, а также напрямую в PagerDuty и Jira, где уже настроены ваши эскалационные политики. Внешние (synthetic) проверки HTTP, SSL, Ping и DNS идут каждую минуту или раз в 30 секунд, мультирегионально из России, Европы и США — это снижает ложные срабатывания из-за локальных сетевых проблем.

Поднимите мониторы, опубликуйте статус-страницу для прозрачности, а для cron и фоновых задач включите heartbeat.

Частые вопросы

Сколько человек минимально нужно для ротации?

Реально устойчивая ротация — от 6 человек. Меньше — и смены выпадают слишком часто, что ведёт к выгоранию.

Как уменьшить количество ночных звонков?

Делайте алерты actionable, группируйте их и переводите несрочные в тикеты. Мультирегиональные проверки снижают ложные срабатывания.

Нужна ли вторичная линия дежурства?

Да, хотя бы как эскалация. Если первичный дежурный не ответил за 5 минут, инцидент должен автоматически уйти дальше.

Кто отвечает за качество алертов?

Команда, владеющая сервисом. Ревизию шумных алертов полезно проводить на ретроспективе каждой смены.

Настройте надёжную доставку алертов. Подключите каналы и мониторы на enterno.io/monitors, чтобы дежурный получал только важные сигналы.

Проверьте ваш сайт прямо сейчас

Проверить свой сайт →
Другие статьи: Мониторинг
Мониторинг
Мониторинг через webhooks: алерты в свои системы
18.06.2026 · 46 просм.
Мониторинг
Мониторинг сайта для разработчиков: API, CLI, MCP
15.06.2026 · 47 просм.
Мониторинг
Сайт не открывается: чек-лист диагностики из 10 шагов
23.06.2026 · 107 просм.
Мониторинг
Постмортем инцидента: как писать (blameless)
22.06.2026 · 38 просм.