Алерты Prometheus

Ниже перечислены алерты, настроенные в правилах Prometheus для мониторинга нашей инфраструктуры. Все нотификации об их срабатывании автоматически отправляются в приватный канал Slack #dsp-alerts.

Данная документация не должна содержать никаких API-ключей, токенов Slack или учетных данных Git. Секреты безопасно инжектируются во время развертывания через Ansible.

1. Инфраструктурные алерты

1.1. InstanceDown

  • Критичность: Critical

  • Условие: Срабатывает, если метрика up == 0 сохраняется в течение 1 минуты.

  • Описание: "Сервер {{ $labels.instance }} для job {{ $labels.job }} недоступен более 1 минуты."

1.2. BidderDown

  • Критичность: Critical

  • Условие: Срабатывает, если метрика bidder_state < 1 в течение 1 минуты.

  • Описание: "Процесс Bidder на сервере {{ $labels.instance }} для job {{ $labels.job }} недоступен более 1 минуты."

2. Бизнес-алерты

2.1. HighBiddingErrors

  • Критичность: Critical

  • Условие: Оценивает RPS (количество запросов в секунду) за последние 2 минуты (rate(nginx_bid_requests{status!~"200|204|429"}[2m])). Срабатывает, когда количество ошибок при торгах (HTTP-ответы, отличные от 200, 204 или 429) превышает порог в 500 RPS в течение 5 минут подряд.

  • Описание: "КРИТИЧНО: Возник критический всплеск Bidding ошибок на площадке {{ $labels.site }}. Объем нестандартных ответов превысил допустимый порог."

2.2. ZeroImpressionsBySSP

  • Критичность: Critical

  • Условие: Срабатывает, когда мы успешно торгуемся и отправляем ответы конкретной SSP (rate(nginx_bid_requests{status="200"}[1m]) > 10), но при этом количество зарегистрированных показов (rate(nginx_impressions{status=~"200|302"}[1m]) ⇐ 0) равняется нулю в течение 2 минут.

  • Описание: "Мы успешно торгуемся и отправляем bid-ответы для площадки {{ $labels.ssp }}, но показы не регистрируются уже более 2 минут. Возможна проблема с форматом макросов, блокировка креативов на стороне партнера или задержки в системе учета показов."