Коротко. Здоровое дежурство on-call строится на трёх китах: разумная нагрузка (не более одного значимого инцидента за смену), понятная эскалация (кто следующий, если первый не ответил) и борьба с шумом алертов. Дежурный должен реагировать только на то, что действительно требует немедленного действия человека, иначе наступает выгорание и сигналы начинают игнорировать.
Что делает дежурство здоровым
Дежурство — это не наказание, а часть инженерной культуры. Хороший процесс уважает время и сон человека.
Если дежурного будят ради алерта, на который он ничего не может или не должен делать прямо сейчас — это не алерт, а шум. Шум убивает доверие к мониторинг сайтов.
Ротация и нагрузка
- Минимум 6–8 человек в ротации, чтобы смена выпадала не чаще раза в 1,5–2 месяца.
- Смена 7 дней — недельная ротация удобнее посуточной для передачи контекста.
- Компенсация — отгулы или доплата за ночные срабатывания.
- Не более 2 страниц за смену как ориентир здоровья процесса.
Уровни эскалации
Эскалация гарантирует, что инцидент не «зависнет» на недоступном человеке. Базовый шаблон:
Эскалационная политика "production-api":
Уровень 1: Дежурный инженер
→ ждать ответа 5 минут
Уровень 2 (если нет ack за 5 мин): Вторичный дежурный
→ ждать ответа 5 минут
Уровень 3 (если нет ack за 10 мин): Тимлид + менеджер
→ уведомить руководство, объявить major incident
Каналы: push → SMS → звонок (по нарастанию настойчивости)
Борьба с alert fatigue
Усталость от алертов — главный враг дежурства. Снижайте шум системно:
- Каждый алерт должен быть actionable — требовать конкретного действия человека.
- Группируйте связанные алерты в один инцидент, а не сотню уведомлений.
- Алерты, которые «можно посмотреть утром», шлите в тикеты, а не будите ими.
- Регулярно проводите ревизию: удаляйте срабатывания, которые ни разу не привели к действию.
Подробнее — в статье про лучшие практики оповещений.
Что должно быть под рукой у дежурного
| Артефакт | Зачем |
|---|---|
| Runbook | Пошаговые действия по типовым сбоям |
| Дашборды | Быстрый обзор золотых сигналов |
| Контакты эскалации | Кому звонить, если не справился |
| Доступы | Логи, прод, kill-switch — заранее выданы |
О том, как составить runbook, читайте в отдельном руководстве.
Как enterno.io поддерживает дежурство
enterno.io доставляет алерты по нескольким каналам: Telegram, Slack, email, webhook, а также напрямую в PagerDuty и Jira, где уже настроены ваши эскалационные политики. Внешние (synthetic) проверки HTTP, SSL, Ping и DNS идут каждую минуту или раз в 30 секунд, мультирегионально из России, Европы и США — это снижает ложные срабатывания из-за локальных сетевых проблем.
Поднимите мониторы, опубликуйте статус-страницу для прозрачности, а для cron и фоновых задач включите heartbeat.
Частые вопросы
Сколько человек минимально нужно для ротации?
Реально устойчивая ротация — от 6 человек. Меньше — и смены выпадают слишком часто, что ведёт к выгоранию.
Как уменьшить количество ночных звонков?
Делайте алерты actionable, группируйте их и переводите несрочные в тикеты. Мультирегиональные проверки снижают ложные срабатывания.
Нужна ли вторичная линия дежурства?
Да, хотя бы как эскалация. Если первичный дежурный не ответил за 5 минут, инцидент должен автоматически уйти дальше.
Кто отвечает за качество алертов?
Команда, владеющая сервисом. Ревизию шумных алертов полезно проводить на ретроспективе каждой смены.
Настройте надёжную доставку алертов. Подключите каналы и мониторы на enterno.io/monitors, чтобы дежурный получал только важные сигналы.