P95 латентность

Anatoly Oshmanovsky

Автор: Anatoly Oshmanovsky · Обновлено 4 июня 2026

Коротко:

P95 латентность — это время ответа, в которое уложились 95% запросов. Используется вместо average потому, что среднее скрывает «хвост» (один запрос 30 с растворится в массе быстрых). Для web-API целевой P95 < 500 мс, для LLM API < 5 с, для DB-запросов < 100 мс. Считается на rolling-окне 1-5 мин.

Ниже: подробности, пример, смежные термины, FAQ.

Бесплатный онлайн-инструмент — проверка HTTP-заголовков: результат мгновенно, без регистрации.

Попробовать бесплатно →

Детали

P50 (median) — половина запросов быстрее, половина медленнее. Хороший «типичный» показатель
P95 — критический индикатор: 5% самых медленных запросов = реальный user pain
P99 — экстремальный хвост; критичен для high-SLA сервисов (платежи, auth)
Формула: отсортировать N значений, взять элемент с индексом ⌈N × 0.95⌉ - 1
Rolling window: per-minute/per-5-min, иначе спайки растворяются в часовой статистике

Пример

# Подсчёт P95 в SQL
SELECT
  PERCENTILE_CONT(0.95) WITHIN GROUP (ORDER BY response_ms) AS p95
FROM monitor_checks
WHERE created_at > NOW() - INTERVAL 5 MINUTE;

# В Python (numpy)
import numpy as np
p95 = np.percentile(latencies_ms, 95)

# В enterno.io мониторе: alert когда p95_5min > threshold AND error_rate < 1%
# (если ошибок много, P95 теряет смысл — алертить отдельно на error_rate)

Связанные

Что такое P95 латентность?

P95 латентность — это метрика, которая показывает, что 95% запросов к системе обрабатываются за определенное время или меньше. Это важный показатель для оценки производительности веб-приложений и сервисов, так как он помогает понять, насколько быстро система реагирует на запросы большинства пользователей.

Обычно P95 латентность измеряется в миллисекундах и может варьироваться в зависимости от нагрузки на систему, архитектуры приложения и других факторов. Например, если P95 латентность составляет 200 мс, это означает, что 95% запросов обрабатываются за 200 мс или быстрее.

Методы измерения P95 латентности

Измерение P95 латентности можно осуществить с помощью различных инструментов и подходов. Один из наиболее распространенных методов — это использование систем мониторинга, таких как Prometheus, Grafana или New Relic. Эти инструменты позволяют собирать данные о времени отклика и визуализировать их для дальнейшего анализа.

Для примера, используя Prometheus, вы можете настроить сбор метрик с вашего приложения, а затем использовать следующую команду для вычисления P95:

histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))

Эта команда будет вычислять P95 латентность для ваших HTTP-запросов за последние 5 минут.

Также можно использовать сторонние библиотеки, такие как pyperf для Python, которые позволяют проводить нагрузочное тестирование и анализировать результаты, включая P95 латентность. Пример кода для измерения P95 с использованием этой библиотеки:

import pyperf

runner = pyperf.Runner()

# Запуск теста
runner.bench_func('my_test', my_function)

# Получение P95 латентности
result = runner.results
p95 = result.percentile(95)

Выбор метода измерения зависит от ваших потребностей и инфраструктуры. Главное — обеспечить, чтобы данные были собраны корректно и в достаточном объеме для получения статистически значимых результатов.

Зачем важна P95 латентность?

P95 латентность важна по нескольким причинам. Во-первых, она позволяет выявить узкие места в производительности системы. Если P95 значительно выше, чем среднее время отклика, это может указывать на проблемы с определенными запросами или нагрузкой на сервер.

Во-вторых, анализ P95 латентности помогает улучшить пользовательский опыт. Пользователи ожидают, что страницы будут загружаться быстро, и если 95% запросов обрабатываются медленно, это может привести к негативным последствиям для бизнеса, таким как снижение конверсии и ухудшение репутации.

Наконец, P95 латентность может служить основой для принятия решений о масштабировании и оптимизации системы. Если вы заметили, что P95 растет при увеличении нагрузки, это может быть сигналом о необходимости добавить ресурсы или оптимизировать код.

Чтобы обеспечить постоянный мониторинг P95 латентности, рекомендуется интегрировать метрики в CI/CD процессы, чтобы любые изменения в коде или инфраструктуре сразу же оценивались с точки зрения их влияния на производительность.

P95 латентность: определение и значение

P95 латентность — это метрика, которая показывает, что 95% всех запросов к системе обрабатываются за определённое время или меньше. Это важный индикатор производительности, поскольку он помогает выявить проблемы с задержками в системе. Чтобы измерить P95 латентность, можно использовать инструменты мониторинга, такие как Prometheus или Grafana, и настроить их на сбор данных о времени отклика. Сравнение P95 латентности с другими показателями, такими как P50 и P99, позволяет более точно оценить качество обслуживания.

Практическое измерение P95 латентности

Для измерения P95 латентности можно воспользоваться инструментом Apache JMeter, который позволяет создавать нагрузки на сервер и анализировать его производительность. Ниже приведён пример настройки JMeter для измерения P95 латентности:

Скачайте и установите Apache JMeter с официального сайта.
Создайте новый тестовый план и добавьте в него Thread Group.
Настройте количество потоков и время выполнения теста. Например, 100 потоков и 5 минут.
Добавьте HTTP Request в Thread Group, укажите URL вашего сервиса и параметры запроса.
Добавьте Response Time Graph для визуализации времени отклика.
Запустите тест и дождитесь его завершения.

После выполнения теста можно найти P95 латентность в отчёте JMeter, используя Summary Report. Этот отчёт показывает распределение времени отклика, и вы сможете увидеть, сколько запросов было выполнено за определённое время.

Также можно использовать Prometheus для сбора метрик и Grafana для их визуализации. Например, добавьте следующий запрос в Grafana:

histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))

Этот запрос позволит вам получить P95 латентность за последние 5 минут. Для настройки Prometheus необходимо добавить конфигурацию для сбора метрик вашего приложения, а затем настроить Grafana для отображения данных.

Больше по теме

Гайды

Глоссарий

Исследования

Альтернативы

Альтернативы Grafana 2026

Часто задаваемые вопросы

Почему не среднее?

Среднее скрывает хвост: 9 запросов по 100 мс + 1 запрос 10 с = avg 1100 мс, P95 = 10 000 мс. Avg выглядит «терпимо», P95 показывает реальную боль.

P95 vs P99?

P95 — операционная метрика (мониторинг). P99 — SLA-метрика для high-stakes сервисов (платежи). Для большинства веб-API P95 достаточно.

Сколько данных нужно?

Минимум 100 точек для стабильного P95. На 20 точках цифра скачет. Поэтому 5-минутное окно при ≥20 req/мин даёт надёжный P95.

Запустить инструмент, который описан в этой статье

Бесплатный тариф — 20 мониторов, проверки раз в 5 минут, без карты. Платные тарифы — интервал от 1 минуты и проверки из нескольких регионов.

Начать бесплатно Тарифы