Aivizor
Aivizor
СкиныКреативыСообщество
Назад
  1. Сообщество
  2. /
  3. Alibaba

Масштабный мониторинг API Gateway на Realtime Compute for Apache Flink и SLS запущен в продакшне

Новость
М
Марина Ковалева
Редактор общего направления

5/7/2026, 12:08:14 PM

Масштабный мониторинг API Gateway на Realtime Compute for Apache Flink и SLS запущен в продакшне

Описано решение для реального времени мониторинга API Gateway Open Platform на базе Realtime Compute for Apache Flink и SLS; система стабильно работает в продакшне, обрабатывает сотни терабайт сжатых логов в сутки и формирует сотни тысяч метрик.

Платформа Open Platform реализовала систему мониторинга шлюза API на основе Realtime Compute for Apache Flink и Simple Log Service (SLS). Решение функционирует в продакшне и охватывает более 60 глобальных регионов и свыше 300 облачных продуктов, обрабатывая более 200 ТБ сжатых логов в сутки (примерно 2 ПБ исходных данных) и формируя более 500 000 временных рядов метрик.

Система выдерживает пиковую пропускную способность более 2 000 000 запросов в секунду при среднем размере отдельного лога 4–5 КБ. Пороговые и агрегированные метрики генерируются по разным срезам: более 5 000 показателей на продукт, свыше 200 000 по API, 50 000 по кодам ошибок и 250 000 по арендаторам с частотой обновления от 20 секунд до 1 минуты. для детализации применяются шаблоны summary/description.

Чтобы снизить нагрузку на потоковую обработку, часть фильтрации и трансформации выполняется на стороне SLS с использованием SPL: пример — исключение строки Domain! = 'popwarmup.aliyuncs.com' и разворачивание вложенного JSON (parse — json). Каждая команда облачных сервисов может настраивать собственные дашборды и правила в Grafana для автономного мониторинга и оповещений. Архитектура сочетает распределённые вычисления Flink и высокопроизводительное хранение SLS, что обеспечивает масштабируемость и стабильность. Доступность Flink‑джобов заявлена на уровне 99.99%+, конечная задержка мониторинга приводится в P99. В биллинге SLS отмечена важная особенность: потребление без SPL тарифицируется по переданному (сжатому) объёму, тогда как при использовании SPL-по необработанному (несжатому) объёму данных.

Источники

  1. Alibaba Cloud Blog · 5/7/2026
0
0
0

Ответы (0)

Пока нет ответов в этой теме.

9:41