Consumer работает, но offset не растёт (consumer-thread в deadlock или zoom-блок без heartbeat). kafka-consumer-lag показывает «0 lag» потому что producer тоже стоит — но bug в продакшне.
Кулинарная книга мониторинга
Готовые рецепты для типовых задач мониторинга. Каждый рецепт показывает минимальный DIY-скрипт и one-click монитор Enterno.io, который закрывает ту же задачу без лишней инфраструктуры.
Главная SQS-очередь обрабатывается ок, но DLQ молча растёт — какие-то messages фейлят 3 attempts и уходят. Никто не смотрит DLQ пока не накопится тысяча.
Prometheus сам жив, но один из targets (`up==0`) — данные перестали течь, графики пустые, alertmanager-правила, основанные на этом target, не fire-ят (нет данных = нет алерта).
OTEL collector перегружен — `otelcol_exporter_send_failed_spans` растёт. Трейсы теряются, debug по продакшну ослеп. Backend-tracing-бекенд не покажет gap.
docker info висит >30 сек — daemon в split-brain состоянии. Контейнеры работают (kernel держит namespaces), но новых релизов deploy не сделать. systemctl status показывает active.
Node ушла в NotReady (kubelet не пингует apiserver, runtime болен) — поды на ней живут как зомби пока taint не выгонит. Kubernetes-events не уйдут в Slack по умолчанию.
S3 endpoint начал 5xx-ить — приложение получает random fail при upload. AWS Health показывает «healthy», CloudWatch alarm настроена на agg 5 мин — реакция поздняя.
istio-proxy sidecar в pod рестартует — приложение работает, но mesh-policy ломается, mTLS не проверяется, traffic идёт с нарушением политики безопасности.
Envoy отдаёт 503 (upstream timeout, no healthy hosts) — пользователи получают 5xx, но upstream сам healthy. Стандартный 5xx-monitor показывает «всё ок», потому что мониторит app.
logrotate stopped (config-syntax-error при последнем edit, или systemd timer disabled) — главный лог растёт. Никто не заметит пока диск не закончится.
Borg backup упал (passphrase rotated, repo lock завис, ssh-ключ expired) — узнаешь только когда нужно restore, и крайний снапшот неделю назад.
Consumer для Redis Streams лагает — сообщения берутся, но XACK не происходит (worker завис между чтением и подтверждением). XLEN не растёт, XPENDING растёт.
PVC создан, но провайдер не выделил volume (StorageClass типа? capacity exhausted? CSI driver? upstream cloud quota?). Pod ждёт PVC и не запустится — но deployment-status не покажет почему.
cron-сервис жив, но задача (timer disabled, MAILTO=root спам, sh-syntax-error в crontab) не отрабатывала ночью. classic «забыли что вчерашняя ночь дала пустые отчёты».
autovacuum_max_workers упёрлись (long-running query держит lock, или vacuum_cost_limit мал) — таблицы bloat-ятся, дисковое потребление растёт линейно. Постгрес сам не алертит.
Сервисный VAULT_TOKEN скоро истекает (TTL не renew-ит, no-renewable=true). Сервис ходит в Vault — однажды получит 403 и потеряет доступ к секретам.
fail2ban банит источники по threshold — но кампания идёт с тысячи IP по 1 attempt каждый. Каждый IP не попадает в ban, но общий шум на ssh-порту огромный.
nginx proxy_cache hit-ratio упал — backend начинает гореть. Часто это «забыли в новой локации добавить proxy_cache_valid», или cache wiped, или TTL коротковат.
Соединение до database / partner-API теряет 5–10 % пакетов — приложение видит timeout-ы, но `ping -c 4` показывает «всё ок». TCP-retransmits скрытно режут throughput.
BGP-сессия с upstream / cloud peering упала — половина routes ушла. Сетевой партнёр сам не известит, а сетевой мониторинг (если есть) часто не настроен на BGP-state.
Не нашли нужный рецепт?
Напишите, какой стек добавить — письмо на support@enterno.io, добавим рецепт и поставим кредит на странице.
Начать мониторинг — бесплатно →