100 рецептов мониторинга · uptime / SSL / cron / k8s · Enterno.io · страница 5

Anatoly Oshmanovsky

Кулинарная книга мониторинга

Готовые рецепты для типовых задач мониторинга. Каждый рецепт показывает минимальный DIY-скрипт и one-click монитор Enterno.io, который закрывает ту же задачу без лишней инфраструктуры.

100 рецептов · MIT · RU + EN

Docker Hub — алерт о приближении к pull-rate-limit

bash

docker dockerhub registry

Анонимные image pull-ы упёрлись в Docker Hub limit (100/6h на IP) — CI начнёт падать с ToomanyRequests. Часто видно только когда уже за лимитом.

Открыть рецепт → API monitor

Falco — алерт при всплеске runtime-security events

bash

falco security runtime

Falco логирует подозрительные действия (write to /etc, shell in container, unexpected network connect) — но логи лежат локально и никто не смотрит. Атака внутри контейнера развивается тихо.

Открыть рецепт → HTTP monitor

Alertmanager — алерт когда alert застрял в pending

bash

prometheus alertmanager observability

Алерт в alertmanager в state=pending дольше for-window — должен быть active, но не fire-ит (group_wait большой? notifier broken? misconfig route?). Никто не получит уведомление.

Открыть рецепт → API monitor

Airflow — алерт когда DAG не уложился в SLA

bash

airflow scheduling dag

DAG в Airflow закончил позже SLA (но не упал — успех с задержкой). По умолчанию SLA-miss даёт только email-callback, который часто не настроен. Pipeline отдаёт «красную метку» через час после факта.

Открыть рецепт → API monitor

PostgreSQL — алерт когда таблица bloat-ится

bash

postgres bloat disk

Таблица занимает 200 ГБ из них 150 ГБ — bloat (dead tuples). VACUUM FULL требует exclusive lock, autovacuum не справляется. Заметишь когда index-scan станет seq-scan.

Открыть рецепт → HTTP monitor

Kubernetes — алерт когда CronJob suspended-нут

bash

kubernetes cronjob scheduling

Кто-то поставил `spec.suspend: true` на CronJob (debug, или спешка релиза) и забыл вернуть. Daily-таска не запускается, отчёты не генерируются — узнаешь только когда finance спросит.

Открыть рецепт → HTTP monitor

Azure — алерт о приближении к subscription quota

bash

azure quota cloud

Azure subscription упирается в quota (vCPU per region, public IPs, storage accounts) — следующий terraform apply ляжет с 429-ItemNotFound. Quota увеличивают через support-тикет, нужно начать заранее.

Открыть рецепт → API monitor

Datadog — алерт когда host не репортит метрики

bash

datadog apm observability

Datadog agent умер (OOM, mismatched apt-update, certificate expiry до dd-staging.com) — host исчезает из dashboard через 10 мин (default mute window), но никто не алертит, что мониторинг ослеп.

Открыть рецепт → API monitor

Vault — алерт когда secret не ротировался дольше N дней

bash

vault secrets compliance

Compliance требует ротации DB-паролей каждые 90 дней. Vault static-creds-engine должен это делать сам, но кто-то поставил max_ttl=0 — secret лежит вечно. Аудитор найдёт первый.

Открыть рецепт → API monitor

MongoDB — алерт когда oplog window сжимается

bash

mongodb oplog replication

Запись в primary растёт быстрее, чем oplog успевает храниться. Если secondary отстанет дольше oplog window — придётся initial sync (часы простоя). Узнаёшь обычно когда уже поздно.

Открыть рецепт → HTTP monitor

Cassandra — алерт когда repair не запускался дольше gc_grace

bash

cassandra repair consistency

Cassandra требует full repair каждые `gc_grace_seconds` (default 10 дней) — иначе deletes возвращаются «зомби» при failover. Без хорошего scheduler-a это легко пропустить.

Открыть рецепт → HTTP monitor

ArgoCD — алерт когда приложение drift-нулось от git-state

bash

argocd gitops kubernetes

Кто-то сделал `kubectl edit` напрямую на cluster — manifest расходится с git. ArgoCD показывает OutOfSync, но auto-sync выключен. Манифест дальше расходится, drift накапливается.

Открыть рецепт → API monitor

Jenkins — алерт когда очередь сборок зависла

bash

jenkins ci queue

Очередь Jenkins растёт — agent отвалился, label-mismatch, или executors забиты. PR-чеки висят, дев-команда стартует слать «что с CI?» в чат.

Открыть рецепт → API monitor

Amazon ECR — алерт по росту pull-failures

bash

aws ecr registry

ECR pull начал стабильно фейлить (IRSA expired, network ACL, repo policy mismatch) — поды в kube не могут запуститься, ImagePullBackOff. Но событие kubelet никого не пингует.

Открыть рецепт → API monitor

Lighthouse — алерт по падению perf-score между релизами

bash

lighthouse performance frontend

После релиза Lighthouse perf-score упал с 90 до 65 (новая lib без code-split, или незаминифицированный bundle). Узнаешь только когда RUM начнёт показывать LCP > 4 сек.

Открыть рецепт → PageSpeed Checker

Webpack — алерт по росту bundle-size в PR

bash

webpack bundle frontend

Кто-то добавил `import * from 'lodash'` — bundle вырос на 70 KB. CI прошёл (tests OK), но user первый load стал на 300 ms медленнее. Catch — в CI до merge.

Открыть рецепт → API monitor

Kubernetes — алерт когда secret не ротировался дольше N дней

bash

kubernetes secrets rotation

Compliance требует rotation k8s-secrets (DB-passwords, API-tokens) каждые 90 дней. Никто не делает auto-rotate, secrets живут с момента создания cluster-а. Аудитор найдёт первый.

Открыть рецепт → HTTP monitor

Vault — алерт когда mount/secret-engine исчез

bash

vault secrets config-drift

Кто-то сделал `vault secrets disable` (debug, или drift) — pipeline ходит за DB-creds и получает 404. Vault сам не уведомит — для него это «нормальный admin-action».

Открыть рецепт → API monitor

Fastly — алерт когда purge выполняется дольше N секунд

bash

fastly cdn purge

Fastly soft-purge обычно даёт sub-second propagation, но иногда висит 30+ сек (overload, key collision). После релиза «новые» ассеты не появляются, пользователи видят старую версию.

Открыть рецепт → API monitor

GCP — алерт о приближении к project-quota

bash

gcp quota cloud

GCP project quota (CPU, IPs, persistent disks) ползёт к лимиту. Следующий terraform plan сломается с RESOURCE_EXHAUSTED. Quota request требует 1-2 дня — должно быть заранее.

Открыть рецепт → API monitor

Не нашли нужный рецепт?

Напишите, какой стек добавить — письмо на support@enterno.io, добавим рецепт и поставим кредит на странице.

Начать мониторинг — бесплатно →

Не нашли нужный рецепт?

Начните мониторинг бесплатно