Алерты Prometheus
Ниже перечислены алерты, настроенные в правилах Prometheus для мониторинга нашей инфраструктуры.
Все нотификации об их срабатывании автоматически отправляются в приватный канал Slack #dsp-alerts.
|
Данная документация не должна содержать никаких API-ключей, токенов Slack или учетных данных Git. Секреты безопасно инжектируются во время развертывания через Ansible. |
1. Инфраструктурные алерты
2. Бизнес-алерты
2.1. HighBiddingErrors
-
Критичность: Critical
-
Условие: Оценивает RPS (количество запросов в секунду) за последние 2 минуты (
rate(nginx_bid_requests{status!~"200|204|429"}[2m])). Срабатывает, когда количество ошибок при торгах (HTTP-ответы, отличные от200,204или429) превышает порог в 500 RPS в течение 5 минут подряд. -
Описание: "КРИТИЧНО: Возник критический всплеск Bidding ошибок на площадке
{{ $labels.site }}. Объем нестандартных ответов превысил допустимый порог."
2.2. ZeroImpressionsBySSP
-
Критичность: Critical
-
Условие: Срабатывает, когда мы успешно торгуемся и отправляем ответы конкретной SSP (
rate(nginx_bid_requests{status="200"}[1m]) > 10), но при этом количество зарегистрированных показов (rate(nginx_impressions{status=~"200|302"}[1m]) ⇐ 0) равняется нулю в течение 2 минут. -
Описание: "Мы успешно торгуемся и отправляем bid-ответы для площадки
{{ $labels.ssp }}, но показы не регистрируются уже более 2 минут. Возможна проблема с форматом макросов, блокировка креативов на стороне партнера или задержки в системе учета показов."