Перейти к содержимому
Skip to content
← Все статьи

План реагирования на инциденты: пошаговое руководство для веб-команд

Зачем нужен план реагирования на инциденты

Инциденты случаются. Серверы падают, деплои ломают продакшен, базы данных повреждаются, проверку SSL истекают, DNS-пропагация не работает, а DDoS-атаки приходят в 3 часа ночи. Разница между командами, которые справляются хорошо, и командами, которые впадают в хаос — не в технических навыках, а в подготовке.

План реагирования на инциденты (IRP) — это документированный процесс, определяющий, что происходит при сбое. Он описывает, кто отвечает, как течёт коммуникация, какие действия предпринимать на каждом этапе и как извлечь уроки. Без него каждый сбой превращается в хаотичную борьбу, где забываются критические шаги, а восстановление занимает гораздо больше времени.

Уровни серьёзности инцидентов

Не все инциденты одинаковы. Определите уровни серьёзности для правильной реакции:

УровеньНазваниеОпределениеВремя реакцииПример
SEV-1КритическийПолный отказ сервиса, потеря данных, нарушение безопасностиНемедленно (минуты)Сайт недоступен, БД скомпрометирована
SEV-2СерьёзныйЗначительная деградация, основная функция сломанаВ течение 30 минутОплата не работает, 50% ошибок
SEV-3УмеренныйЧастичная деградация, есть обходной путьВ течение 2 часовМедленная загрузка, один API документацию-эндпоинт
SEV-4НизкийКосметические проблемы, незначительные багиСледующий рабочий деньГлитч UI, некритичная функция

Роли при реагировании

Чёткие роли предотвращают путаницу в стрессовых ситуациях:

В небольших командах один человек может совмещать роли, но IC и Технический лид должны быть разными людьми.

Фаза 1: Обнаружение

Чем быстрее обнаружен инцидент, тем меньше ущерб. Источники обнаружения:

Цель: обнаруживать инциденты в течение 5 минут. Если первыми сообщают клиенты — мониторинг не справился.

Фаза 2: Сортировка и оценка

После обнаружения быстро оцените инцидент:

Решение: назначить серьёзность, активировать IRP, назначить IC, уведомить дежурную команду.

Фаза 3: Локализация

Остановите ущерб до выяснения корневой причины:

Цель локализации — не идеальный фикс, а немедленное снижение ущерба. Быстрый workaround за 10 минут лучше идеального решения за 2 часа.

Фаза 4: Разрешение

С локализованным ущербом работайте над настоящим исправлением:

Фаза 5: Коммуникация

Коммуникация идёт на протяжении всего инцидента:

Фаза 6: Пост-инцидентный разбор

Самая важная фаза — и чаще всего пропускаемая. В течение 48 часов проведите безобвинительный разбор (ретроспективу):

Ключевой принцип: безобвинительность. Разбор исследует системы и процессы, а не людей. «Почему система это допустила?» а не «Кто это сделал?»

Чеклист для вашего IRP

Заключение

План реагирования превращает хаотичное тушение пожаров в структурированный, повторяемый процесс. Определите уровни серьёзности, назначьте чёткие роли, задокументируйте ранбуки и регулярно практикуйтесь. Инвестируйте в мониторинг (с инструментами вроде Enterno.io) для быстрого обнаружения. И никогда не пропускайте пост-инцидентный разбор — так команды учатся справляться с инцидентами, которые неизбежно будут.

Проверьте ваш сайт прямо сейчас

Проверить →
Другие статьи: Мониторинг
Мониторинг
Мониторинг uptime: зачем и как настроить
14.03.2026 · 12 просм.
Мониторинг
Проектирование health check эндпоинтов для веб-сервисов
16.03.2026 · 11 просм.
Мониторинг
Синтетический мониторинг vs RUM: сравнение подходов
14.03.2026 · 8 просм.
Мониторинг
Real User Monitoring: полное руководство по RUM и синтетическому мониторингу
16.03.2026 · 18 просм.