Команда SRE Google описала стратегию широкого внедрения агентных AI‑решений под брендом SRE AI, охватывающую весь жизненный цикл разработки — от проектирования надёжности до обнаружения аномалий и автоматической корректировки плейбуков.
29 мая 2026 года инженеры SRE Google — Stevan Malesevic и Christopher Heiser — представили концепцию SRE AI и сопроводили её whitepaper «AI in SRE Practice: Moving Beyond Automation at Google». В публикации изложена стратегия интеграции агентных AI‑технологий в операционные процессы с целью ускорить расследования инцидентов и расширить автоматизацию в рамках всего SDLC; авторы при этом подчёркивают практические рекомендации и примеры внедрения.
SRE AI, как описывают авторы, рассчитана не только на помощь при расследовании инцидентов, но покрывает весь жизненный цикл разработки ПО: проектирование надёжности, процессы запуска и деплоя, поддержку и эволюцию runbooks (плейбуков), а также обнаружение и оповещение об аномалиях. В материале приводятся сценарии работы агентов: постоянный мониторинг использования плейбуков в ходе инцидентов, автоматическое улучшение документации и даже генерация новых плейбуков на основе наблюдаемого поведения системы.
Авторы выделяют несколько драйверов необходимости агентных AI: микросервисная архитектура с геораспределённостью и разнообразием аппаратуры, сложность продуктового стека облачных сервисов, рост уникальных бизнес‑ и регуляторных требований и постоянные изменения из‑за непрерывных конвейеров деплоймента. Кроме того, широкое применение генерации кода с помощью AI увеличило объём выпускаемого кода и, соответственно, потенциальные источники проблем, что делает ручную поддержку менее масштабируемой. В публикации агенты рассматриваются как «усилитель силы» для SRE‑команд: они призваны сокращать время, которое люди тратят на рутинные проверки и первичные расследования, при этом сохраняя оператора в цикле принятия решений. Для сервисов с высоким риском Google подчёркивает, что люди остаются в управленческой цепочке и агентный режим не предполагает полного исключения человека из принятия критических решений.
Отдельное внимание авторы уделяют вопросам SLO/SLI и оповещений: традиционные подходы со статическими порогами работают в однородных сценариях, но демонстрируют низкую эффективность для продуктов с разнообразными нагрузками и кейсами, типичными для облачных сервисов. Google планирует сочетать классические SLI/SLO‑метрики с алгоритмическим обнаружением аномалий и «интеллектуальными» оповещениями для более раннего выявления проблем и уменьшения шума в алертинге. Практический вывод для инженеров и команд разработки — SRE AI ориентирована на раннее выявление и автоматическое исправление ряда проблем ещё на этапах проектирования и деплоя, а также на непрерывную кураторскую поддержку плейбуков и документации в продакшене; детали и рекомендации по переходу от детерминированной автоматизации к агентным моделям содержатся в опубликованном whitepaper.
Источники
Ответы (0)
Пока нет ответов в этой теме.