Анонимные image pull-ы упёрлись в Docker Hub limit (100/6h на IP) — CI начнёт падать с ToomanyRequests. Часто видно только когда уже за лимитом.
Кулинарная книга мониторинга
Готовые рецепты для типовых задач мониторинга. Каждый рецепт показывает минимальный DIY-скрипт и one-click монитор Enterno.io, который закрывает ту же задачу без лишней инфраструктуры.
Falco логирует подозрительные действия (write to /etc, shell in container, unexpected network connect) — но логи лежат локально и никто не смотрит. Атака внутри контейнера развивается тихо.
Алерт в alertmanager в state=pending дольше for-window — должен быть active, но не fire-ит (group_wait большой? notifier broken? misconfig route?). Никто не получит уведомление.
DAG в Airflow закончил позже SLA (но не упал — успех с задержкой). По умолчанию SLA-miss даёт только email-callback, который часто не настроен. Pipeline отдаёт «красную метку» через час после факта.
Таблица занимает 200 ГБ из них 150 ГБ — bloat (dead tuples). VACUUM FULL требует exclusive lock, autovacuum не справляется. Заметишь когда index-scan станет seq-scan.
Кто-то поставил `spec.suspend: true` на CronJob (debug, или спешка релиза) и забыл вернуть. Daily-таска не запускается, отчёты не генерируются — узнаешь только когда finance спросит.
Azure subscription упирается в quota (vCPU per region, public IPs, storage accounts) — следующий terraform apply ляжет с 429-ItemNotFound. Quota увеличивают через support-тикет, нужно начать заранее.
Datadog agent умер (OOM, mismatched apt-update, certificate expiry до dd-staging.com) — host исчезает из dashboard через 10 мин (default mute window), но никто не алертит, что мониторинг ослеп.
Compliance требует ротации DB-паролей каждые 90 дней. Vault static-creds-engine должен это делать сам, но кто-то поставил max_ttl=0 — secret лежит вечно. Аудитор найдёт первый.
Запись в primary растёт быстрее, чем oplog успевает храниться. Если secondary отстанет дольше oplog window — придётся initial sync (часы простоя). Узнаёшь обычно когда уже поздно.
Cassandra требует full repair каждые `gc_grace_seconds` (default 10 дней) — иначе deletes возвращаются «зомби» при failover. Без хорошего scheduler-a это легко пропустить.
Кто-то сделал `kubectl edit` напрямую на cluster — manifest расходится с git. ArgoCD показывает OutOfSync, но auto-sync выключен. Манифест дальше расходится, drift накапливается.
Очередь Jenkins растёт — agent отвалился, label-mismatch, или executors забиты. PR-чеки висят, дев-команда стартует слать «что с CI?» в чат.
ECR pull начал стабильно фейлить (IRSA expired, network ACL, repo policy mismatch) — поды в kube не могут запуститься, ImagePullBackOff. Но событие kubelet никого не пингует.
После релиза Lighthouse perf-score упал с 90 до 65 (новая lib без code-split, или незаминифицированный bundle). Узнаешь только когда RUM начнёт показывать LCP > 4 сек.
Кто-то добавил `import * from 'lodash'` — bundle вырос на 70 KB. CI прошёл (tests OK), но user первый load стал на 300 ms медленнее. Catch — в CI до merge.
Compliance требует rotation k8s-secrets (DB-passwords, API-tokens) каждые 90 дней. Никто не делает auto-rotate, secrets живут с момента создания cluster-а. Аудитор найдёт первый.
Кто-то сделал `vault secrets disable` (debug, или drift) — pipeline ходит за DB-creds и получает 404. Vault сам не уведомит — для него это «нормальный admin-action».
Fastly soft-purge обычно даёт sub-second propagation, но иногда висит 30+ сек (overload, key collision). После релиза «новые» ассеты не появляются, пользователи видят старую версию.
GCP project quota (CPU, IPs, persistent disks) ползёт к лимиту. Следующий terraform plan сломается с RESOURCE_EXHAUSTED. Quota request требует 1-2 дня — должно быть заранее.
Не нашли нужный рецепт?
Напишите, какой стек добавить — письмо на support@enterno.io, добавим рецепт и поставим кредит на странице.
Начать мониторинг — бесплатно →