Алерты Prometheus

Table of Contents

1. Инфраструктурные алерты
- 1.1. InstanceDown
- 1.2. BidderDown
2. Бизнес-алерты
- 2.1. HighBiddingErrors
- 2.2. ZeroImpressionsBySSP

Ниже перечислены алерты, настроенные в правилах Prometheus для мониторинга нашей инфраструктуры. Все нотификации об их срабатывании автоматически отправляются в приватный канал Slack #dsp-alerts.

Данная документация не должна содержать никаких API-ключей, токенов Slack или учетных данных Git. Секреты безопасно инжектируются во время развертывания через Ansible.

1. Инфраструктурные алерты

1.1. InstanceDown

Критичность: Critical
Условие: Срабатывает, если метрика up == 0 сохраняется в течение 1 минуты.
Описание: "Сервер {{ $labels.instance }} для job {{ $labels.job }} недоступен более 1 минуты."

1.2. BidderDown

Критичность: Critical
Условие: Срабатывает, если метрика bidder_state < 1 в течение 1 минуты.
Описание: "Процесс Bidder на сервере {{ $labels.instance }} для job {{ $labels.job }} недоступен более 1 минуты."

2. Бизнес-алерты

2.1. HighBiddingErrors

Критичность: Critical
Условие: Оценивает RPS (количество запросов в секунду) за последние 2 минуты (rate(nginx_bid_requests{status!~"200|204|429"}[2m])). Срабатывает, когда количество ошибок при торгах (HTTP-ответы, отличные от 200, 204 или 429) превышает порог в 500 RPS в течение 5 минут подряд.
Описание: "КРИТИЧНО: Возник критический всплеск Bidding ошибок на площадке {{ $labels.site }}. Объем нестандартных ответов превысил допустимый порог."

2.2. ZeroImpressionsBySSP

Критичность: Critical
Условие: Срабатывает, когда мы успешно торгуемся и отправляем ответы конкретной SSP (rate(nginx_bid_requests{status="200"}[1m]) > 10), но при этом количество зарегистрированных показов (rate(nginx_impressions{status=~"200|302"}[1m]) ⇐ 0) равняется нулю в течение 2 минут.
Описание: "Мы успешно торгуемся и отправляем bid-ответы для площадки {{ $labels.ssp }}, но показы не регистрируются уже более 2 минут. Возможна проблема с форматом макросов, блокировка креативов на стороне партнера или задержки в системе учета показов."