Skip to content
← Все статьи

Постмортем инцидента: как писать (blameless)

Коротко. Постмортем — это документ-разбор после инцидента, цель которого не найти виноватого, а понять, как система допустила сбой, и не повторить его. «Blameless» означает фокус на процессах и системах, а не на людях. Хороший постмортем содержит таймлайн, влияние на пользователей, корневые причины и конкретные действия с ответственными и сроками.

Почему blameless

Если за инцидент наказывают, люди начинают скрывать ошибки — и организация теряет возможность учиться. Безвинный подход делает обратное: поощряет честность.

Человек, нажавший «не ту кнопку», — это симптом, а не причина. Причина в том, что система позволила одной кнопкой устроить аварию без защиты.

Когда писать постмортем

  • Любой инцидент, затронувший пользователей или нарушивший SLO.
  • Близкие промахи (near-miss), которые чуть не стали авариями.
  • Срабатывания, потребовавшие ручного вмешательства дежурного.
  • Повторяющиеся мелкие сбои — даже если каждый по отдельности невелик.

Структура постмортема

Стандартный шаблон, который легко адаптировать:

ПОСТМОРТЕМ: <короткое название инцидента>
Дата: 2026-06-22
Авторы: <имена>
Статус: draft / финал

== РЕЗЮМЕ ==
1–2 предложения: что сломалось и какое влияние.

== ВЛИЯНИЕ ==
- Длительность: 14:02–14:47 (45 мин)
- Затронуто: ~30% запросов API возвращали 503
- SLO: израсходовано 45 мин бюджета ошибок из 43,2

== ТАЙМЛАЙН (UTC) ==
14:02  Деплой v2.4.1
14:05  Рост ошибок 503, сработал алерт
14:09  Дежурный подтвердил инцидент
14:23  Найдена причина: исчерпан пул соединений к БД
14:31  Откат на v2.4.0
14:47  Метрики в норме, инцидент закрыт

== КОРНЕВЫЕ ПРИЧИНЫ ==
1. Новый код открывал соединение на каждый запрос без возврата в пул.
2. Нагрузочное тестирование не покрывало пиковый трафик.

== ЧТО СРАБОТАЛО ХОРОШО ==
- Алерт пришёл за 3 минуты.
- Откат занял меньше 5 минут.

== ДЕЙСТВИЯ ==
[ ] Вернуть соединения в пул      — @ivan  — до 25.06 (P1)
[ ] Добавить нагрузочный тест пика — @olga  — до 30.06 (P2)
[ ] Алерт на насыщение пула БД     — @ivan  — до 27.06 (P1)

Как искать корневую причину

  1. Стройте таймлайн по фактам и логам, а не по памяти.
  2. Задавайте «почему?» несколько раз подряд (метод 5 Whys), пока не дойдёте до системной причины.
  3. Различайте триггер (деплой) и реальную уязвимость (нет защиты пула).
  4. Ищите не одну причину, а цепочку условий — у сложных аварий их обычно несколько.

Что отличает хорошие действия

Плохое действиеХорошее действие
«Быть внимательнее»«Добавить алерт на насыщение пула БД»
Без ответственногоНазначен владелец и срок
Без приоритетаP1/P2 и понятный дедлайн

Как enterno.io помогает с постмортемом

Точный таймлайн начинается с точных данных. enterno.io как внешний (synthetic) мониторинг сайтов фиксирует момент начала и конца недоступности, коды ответов и время реакции — это основа раздела «таймлайн». Проверки HTTP, SSL, Ping и DNS идут каждую минуту или раз в 30 секунд, мультирегионально из России, Европы и США, а инциденты автоматически создаются и закрываются.

История на мониторах и публичная статус-страница дают объективные временные метки. Для контроля фоновых задач используйте heartbeat. Связку с реакцией см. в плане реагирования.

Частые вопросы

Кто должен писать постмортем?

Обычно инцидент-менеджер или дежурный, но вклад дают все участники. Документ принадлежит команде, а не одному человеку.

Как быстро после инцидента писать разбор?

В течение 1–3 дней, пока детали свежи. Затягивание ведёт к потере фактов и точности таймлайна.

Нужно ли публиковать постмортемы наружу?

Для крупных публичных инцидентов — да, краткую версию для клиентов. Внутренний полный разбор остаётся для команды.

Что делать с действиями после постмортема?

Заводить их как задачи с владельцем, приоритетом и сроком, и проверять выполнение. Постмортем без выполненных действий бесполезен.

Соберите точный таймлайн инцидента. Подключите мониторы enterno.io, чтобы каждый сбой имел объективные временные метки для разбора.

Проверьте ваш сайт прямо сейчас

Проверить свой сайт →
Другие статьи: Мониторинг
Мониторинг
Runbook для инцидентов: как составить
22.06.2026 · 42 просм.
Мониторинг
BetterStack vs UptimeRobot: сравнение 2026
15.06.2026 · 47 просм.
Мониторинг
SLI, SLO, SLA: в чём разница и как считать
22.06.2026 · 39 просм.
Мониторинг
Дежурства on-call: лучшие практики
22.06.2026 · 38 просм.