Описано решение для реального времени мониторинга API Gateway Open Platform на базе Realtime Compute for Apache Flink и SLS; система стабильно работает в продакшне, обрабатывает сотни терабайт сжатых логов в сутки и формирует сотни тысяч метрик.
Платформа Open Platform реализовала систему мониторинга шлюза API на основе Realtime Compute for Apache Flink и Simple Log Service (SLS). Решение функционирует в продакшне и охватывает более 60 глобальных регионов и свыше 300 облачных продуктов, обрабатывая более 200 ТБ сжатых логов в сутки (примерно 2 ПБ исходных данных) и формируя более 500 000 временных рядов метрик.
Система выдерживает пиковую пропускную способность более 2 000 000 запросов в секунду при среднем размере отдельного лога 4–5 КБ. Пороговые и агрегированные метрики генерируются по разным срезам: более 5 000 показателей на продукт, свыше 200 000 по API, 50 000 по кодам ошибок и 250 000 по арендаторам с частотой обновления от 20 секунд до 1 минуты. для детализации применяются шаблоны summary/description.
Чтобы снизить нагрузку на потоковую обработку, часть фильтрации и трансформации выполняется на стороне SLS с использованием SPL: пример — исключение строки Domain! = 'popwarmup.aliyuncs.com' и разворачивание вложенного JSON (parse — json). Каждая команда облачных сервисов может настраивать собственные дашборды и правила в Grafana для автономного мониторинга и оповещений. Архитектура сочетает распределённые вычисления Flink и высокопроизводительное хранение SLS, что обеспечивает масштабируемость и стабильность. Доступность Flink‑джобов заявлена на уровне 99.99%+, конечная задержка мониторинга приводится в P99. В биллинге SLS отмечена важная особенность: потребление без SPL тарифицируется по переданному (сжатому) объёму, тогда как при использовании SPL-по необработанному (несжатому) объёму данных.
Источники
Ответы (0)
Пока нет ответов в этой теме.