Uptime сайта и SLA: что означают 99.9% и как считать доступность
Uptime (аптайм) — это процент времени, в течение которого сайт или сервис доступен и работает корректно. Для бизнеса каждая минута простоя — это потерянные клиенты, упущенная выручка и ущерб репутации.
Что такое SLA
SLA (Service Level Agreement) — соглашение об уровне обслуживания, в котором поставщик гарантирует определённый уровень доступности. Например, SLA 99.9% означает, что сервис может быть недоступен не более 8 часов 45 минут за год.
Таблица уровней доступности
Разница между «девятками» кажется незначительной, но в реальном времени она огромна:
| SLA | Простой в год | Простой в месяц | Простой в неделю |
|---|---|---|---|
| 99% | 3 дня 15 ч | 7 ч 18 мин | 1 ч 41 мин |
| 99.5% | 1 день 19 ч | 3 ч 39 мин | 50 мин |
| 99.9% | 8 ч 45 мин | 43 мин | 10 мин |
| 99.95% | 4 ч 22 мин | 21 мин | 5 мин |
| 99.99% | 52 мин | 4 мин | 1 мин |
| 99.999% | 5 мин | 26 сек | 6 сек |
Как рассчитать uptime
Формула расчёта:
Uptime (%) = ((Общее время - Время простоя) / Общее время) × 100
Например, если за месяц (30 дней = 43 200 мин) сайт был недоступен 45 минут:
Uptime = ((43200 - 45) / 43200) × 100 = 99.896%
Что влияет на uptime
Инфраструктурные факторы
- Надёжность хостинга — виртуальный хостинг менее надёжен, чем VPS или dedicated. Cloud-провайдеры (AWS, GCP) обычно предоставляют SLA 99.99%.
- Избыточность (redundancy) — балансировка нагрузки между несколькими серверами, репликация БД, мультизональное размещение.
- CDN — распределённая сеть доставки контента может обслуживать статику даже при падении основного сервера.
Программные факторы
- Утечки памяти — приложение постепенно потребляет всю память, и сервер перестаёт отвечать.
- Необработанные исключения — ошибка в коде может «уронить» весь сервис.
- Миграции БД — долгие миграции блокируют таблицы и делают сайт недоступным.
- Деплой без zero-downtime — перезагрузка приложения вызывает кратковременный простой.
Внешние факторы
- DDoS-атаки — массированные запросы перегружают сервер.
- DNS-проблемы — если DNS-сервер недоступен, домен не резолвится.
- Истечение проверку SSL — браузеры блокируют доступ к сайту с просроченным сертификатом.
- Истечение домена — забытый домен перестаёт работать.
Мониторинг uptime
Как работает мониторинг
Системы мониторинг сайтов периодически отправляют запросы к вашему сайту и проверяют:
- HTTP-код ответа (ожидается 200)
- Время ответа (не превышает порог)
- Наличие ключевых слов в ответе
- Валидность SSL-сертификата
При обнаружении проблемы мониторинг отправляет уведомление через email, Telegram, Slack или webhook.
Интервал проверки
Чем чаще проверки, тем быстрее вы узнаете о проблеме:
| Интервал | Время обнаружения | Подходит для |
|---|---|---|
| 5 мин | до 5 мин | Большинства сайтов |
| 1 мин | до 1 мин | E-commerce, SaaS, API документацию |
| 30 сек | до 30 сек | Критичных сервисов, финтех |
Status Page
Status page (страница статуса) — публичная страница, на которой отображается текущее состояние ваших сервисов. Она помогает:
- Информировать пользователей о текущих инцидентах
- Показывать историю доступности
- Повышать доверие клиентов к вашему сервису
- Снижать нагрузку на поддержку во время инцидентов
Рекомендации
- Определите целевой SLA для вашего сервиса и бюджет на инфраструктуру
- Настройте мониторинг с интервалом не более 5 минут
- Подключите несколько каналов уведомлений (email + Telegram/Slack)
- Мониторьте не только HTTP, но и SSL-сертификаты и домены
- Создайте Status Page для ваших пользователей
- Анализируйте причины простоев и работайте над их устранением
Проверьте ваш сайт прямо сейчас
Проверить →