Нужно убедиться, что сайт возвращает 2xx каждую минуту, и получить алерт в Slack/Telegram при падении.
Кулинарная книга мониторинга
Готовые рецепты для типовых задач мониторинга. Каждый рецепт показывает минимальный DIY-скрипт и one-click монитор Enterno.io, который закрывает ту же задачу без лишней инфраструктуры.
Самоподписанный скрипт проверяет SSL сертификат и шлёт алерт за 14 дней до expiry.
Нужно ловить момент, когда реплика начала отставать от мастера больше чем на 10 секунд.
Ваш cron стал молча не запускаться. Нужен алерт, если скрипт пропустил окно выполнения.
Readiness-probe внутри пода есть, но никто не видит, что LB отказался роутить трафик на новый deploy.
Slave-Redis отстаёт от master — read-after-write возвращает старые данные. Стандартного алерта нет, нужен внешний.
Сервер начал отвечать 503/504 — но это пропускает обычный uptime-мониторинг (главная отдаёт 200, ошибки в API).
Контейнер падает по OOM, restart-политика поднимает его обратно — наружу никаких сигналов, пока пользователи не пожаловались.
Маркетолог-стажёр меняет DMARC с <code>p=quarantine</code> на <code>p=none</code> ради «исправить bounce» — через час Gmail помечает все рассылки как спам.
Один из публичных DNS-резольверов (1.1.1.1, 8.8.8.8) deg для региона. Ваш сайт «работает», но половина пользователей видит «server not found» — uptime-monitor молчит.
Prometheus + Alertmanager шлют алерты только в email или PagerDuty. Команда живёт в Telegram — нужно мостовое звено без отдельного сервера.
long_query_time = 1, slow_query_log включён. Нужно понимать, когда количество медленных запросов в минуту резко вырастает (deploy сломал индекс, ORM начал N+1).
CDN cache_status (cf-cache-status или x-cache) внезапно даёт MISS на больше 30% запросов — вырос origin-load и счёт за бэкенд.
Контроль квоты сторонних API
pythonStripe, GitHub, Twilio возвращают X-RateLimit-Remaining в заголовках. Если бэкенд не отслеживает порог — внезапно пойдёт 429, биллинг встанет.
Логи или backup-файлы съедают /var; через 24 часа сервер ляжет. Базовый df-чек один раз в 10 минут спасает от 2 АМ инцидента.
Consumer-группа отстаёт от продьюсера, и сообщения копятся. Нужен порог lag, после которого летит алерт.
Продакшен ES-кластер ушёл в yellow status. Хочется алерт сразу, не через 30 минут как от Kibana.
Consumer не успевает обрабатывать сообщения, очередь растёт, в итоге диск переполнится. Нужен alert по количеству messages-ready в очереди.
HAProxy балансит на 5 backend-серверов; один из них стал отвечать ошибками и ушёл в DOWN. Перед тем как пользователь это заметит — алерт.
Cron бэкапа тихо упал, никто не заметил, через неделю обнаружится при инциденте. Нужен алерт, если последний backup-файл старше 30 часов.
Не нашли нужный рецепт?
Напишите, какой стек добавить — письмо на support@enterno.io, добавим рецепт и поставим кредит на странице.
Начать мониторинг — бесплатно →