100 рецептов мониторинга · uptime / SSL / cron / k8s · Enterno.io · страница 4

Anatoly Oshmanovsky

Кулинарная книга мониторинга

Готовые рецепты для типовых задач мониторинга. Каждый рецепт показывает минимальный DIY-скрипт и one-click монитор Enterno.io, который закрывает ту же задачу без лишней инфраструктуры.

100 рецептов · MIT · RU + EN

Kafka — алерт когда consumer-offset не двигается

bash

kafka streaming consumer

Consumer работает, но offset не растёт (consumer-thread в deadlock или zoom-блок без heartbeat). kafka-consumer-lag показывает «0 lag» потому что producer тоже стоит — но bug в продакшне.

Открыть рецепт → HTTP monitor

SQS — алерт при росте DLQ (dead letter queue)

bash

aws sqs dlq

Главная SQS-очередь обрабатывается ок, но DLQ молча растёт — какие-то messages фейлят 3 attempts и уходят. Никто не смотрит DLQ пока не накопится тысяча.

Открыть рецепт → API monitor

Prometheus — алерт когда scrape-target unreachable

bash

prometheus observability scrape

Prometheus сам жив, но один из targets (`up==0`) — данные перестали течь, графики пустые, alertmanager-правила, основанные на этом target, не fire-ят (нет данных = нет алерта).

Открыть рецепт → HTTP monitor

OTEL collector — алерт при дропе spans из очереди

bash

opentelemetry observability traces

OTEL collector перегружен — `otelcol_exporter_send_failed_spans` растёт. Трейсы теряются, debug по продакшну ослеп. Backend-tracing-бекенд не покажет gap.

Открыть рецепт → HTTP monitor

Docker daemon — алерт когда dockerd завис

bash

docker runtime infra

docker info висит >30 сек — daemon в split-brain состоянии. Контейнеры работают (kernel держит namespaces), но новых релизов deploy не сделать. systemctl status показывает active.

Открыть рецепт → Heartbeat monitor

kubelet — алерт когда node перешла в NotReady

bash

kubernetes kubelet node

Node ушла в NotReady (kubelet не пингует apiserver, runtime болен) — поды на ней живут как зомби пока taint не выгонит. Kubernetes-events не уйдут в Slack по умолчанию.

Открыть рецепт → HTTP monitor

S3 — алерт по росту 5xx error-rate бакета

bash

aws s3 storage

S3 endpoint начал 5xx-ить — приложение получает random fail при upload. AWS Health показывает «healthy», CloudWatch alarm настроена на agg 5 мин — реакция поздняя.

Открыть рецепт → HTTP monitor

Istio — алерт при restart-loop у istio-proxy sidecar

bash

istio kubernetes mesh

istio-proxy sidecar в pod рестартует — приложение работает, но mesh-policy ломается, mTLS не проверяется, traffic идёт с нарушением политики безопасности.

Открыть рецепт → HTTP monitor

Envoy — алерт когда proxy 5xx без upstream 5xx

bash

envoy proxy 5xx

Envoy отдаёт 503 (upstream timeout, no healthy hosts) — пользователи получают 5xx, но upstream сам healthy. Стандартный 5xx-monitor показывает «всё ок», потому что мониторит app.

Открыть рецепт → HTTP monitor

logrotate — алерт когда лог-файл вырос без ротации

bash

logging filesystem disk

logrotate stopped (config-syntax-error при последнем edit, или systemd timer disabled) — главный лог растёт. Никто не заметит пока диск не закончится.

Открыть рецепт → Heartbeat monitor

Borg — алерт когда backup упал или старее N часов

bash

backup borg encryption

Borg backup упал (passphrase rotated, repo lock завис, ssh-ключ expired) — узнаешь только когда нужно restore, и крайний снапшот неделю назад.

Открыть рецепт → Heartbeat monitor

Redis Streams — алерт когда XPENDING растёт

bash

redis streams consumer

Consumer для Redis Streams лагает — сообщения берутся, но XACK не происходит (worker завис между чтением и подтверждением). XLEN не растёт, XPENDING растёт.

Открыть рецепт → HTTP monitor

Kubernetes — алерт когда PVC висит в Pending

bash

kubernetes storage pvc

PVC создан, но провайдер не выделил volume (StorageClass типа? capacity exhausted? CSI driver? upstream cloud quota?). Pod ждёт PVC и не запустится — но deployment-status не покажет почему.

Открыть рецепт → HTTP monitor

Cron — алерт когда задача не запустилась по расписанию

bash

cron scheduling heartbeat

cron-сервис жив, но задача (timer disabled, MAILTO=root спам, sh-syntax-error в crontab) не отрабатывала ночью. classic «забыли что вчерашняя ночь дала пустые отчёты».

Открыть рецепт → Heartbeat monitor

PostgreSQL — алерт когда autovacuum не двигается

bash

postgres autovacuum bloat

autovacuum_max_workers упёрлись (long-running query держит lock, или vacuum_cost_limit мал) — таблицы bloat-ятся, дисковое потребление растёт линейно. Постгрес сам не алертит.

Открыть рецепт → HTTP monitor

HashiCorp Vault — алерт когда токен сервиса скоро expire-нет

bash

vault secrets security

Сервисный VAULT_TOKEN скоро истекает (TTL не renew-ит, no-renewable=true). Сервис ходит в Vault — однажды получит 403 и потеряет доступ к секретам.

Открыть рецепт → HTTP monitor

sshd — алерт по росту auth-fail (до бана fail2ban)

bash

security sshd bruteforce

fail2ban банит источники по threshold — но кампания идёт с тысячи IP по 1 attempt каждый. Каждый IP не попадает в ban, но общий шум на ssh-порту огромный.

Открыть рецепт → Heartbeat monitor

nginx — алерт при провале cache-hit-ratio (proxy_cache)

bash

nginx cache performance

nginx proxy_cache hit-ratio упал — backend начинает гореть. Часто это «забыли в новой локации добавить proxy_cache_valid», или cache wiped, или TTL коротковат.

Открыть рецепт → HTTP monitor

Сеть — алерт по packet-loss до upstream (через mtr)

bash

network mtr packet-loss

Соединение до database / partner-API теряет 5–10 % пакетов — приложение видит timeout-ы, но `ping -c 4` показывает «всё ок». TCP-retransmits скрытно режут throughput.

Открыть рецепт → Ping & Port Checker

BGP — алерт когда peer-session упала

bash

network bgp routing

BGP-сессия с upstream / cloud peering упала — половина routes ушла. Сетевой партнёр сам не известит, а сетевой мониторинг (если есть) часто не настроен на BGP-state.

Открыть рецепт → HTTP monitor

Не нашли нужный рецепт?

Напишите, какой стек добавить — письмо на support@enterno.io, добавим рецепт и поставим кредит на странице.

Начать мониторинг — бесплатно →

Не нашли нужный рецепт?

Начните мониторинг бесплатно