Skip to content

SLI / SLO / SLA

Коротко:

SLI — measured metric (e.g. "response time p99"). SLO — target для SLI (e.g. "p99 < 200ms"). SLA — contractual commitment к клиентам (e.g. "99.9% uptime, otherwise refund"). Google SRE book популяризовал эту иерархию. Typical: SLO = 99.9% monthly → error budget = 43 минуты в месяц. Если бюджет исчерпан — pause feature work, focus на reliability.

Ниже: подробности, пример, смежные термины, FAQ.

Подробности

  • SLI: количественная метрика (uptime %, p99 latency, error rate)
  • SLO: target value для SLI — internal цель
  • SLA: customer-facing contract, обычно с penalty при нарушении
  • Error budget: 100% - SLO (e.g. 99.9% SLO = 0.1% budget = 43 min/month)
  • Multi-dimensional: separate SLOs для availability, latency, error-rate

Пример

SLI: % requests with status 2xx\/3xx
SLO: 99.9% of requests succeed (monthly)
SLA: refund 10% if <99.9% in a month

Смежные термины

Больше по теме

Часто задаваемые вопросы

Как измерить SLI uptime?

Синтетические probes (Enterno monitors) каждую минуту. 30-дневное окно. Успех = HTTP 2xx/3xx + response time < threshold.

Нужен ли SLA для маленькой команды?

Internal SLO — всегда. SLA — только если customer требует (enterprise, compliance).

Что делать когда error budget исчерпан?

Feature-freeze, postmortem, reliability work пока budget не восстановится. Это основной value error-budget подхода.