
21 мая 2026 года Кристиан Стано анонсировал Anyscale Agent Skills — набор «наиболее экономных по токенам» навыков для построения конвейеров на Ray и новую модель зрелости on‑call (Day 0/1/2) с целью сократить ручную донастройку и снизить нагрузку команд.
21 мая 2026 года Кристиан Стано представил Anyscale Agent Skills — комплект навыков, который, по словам автора, является «наиболее экономным по токенам» решением для построения конвейеров на Ray и основан на реальном опыте их сборки и отладки. Это релиз нацелен на уменьшение проблем ML‑команд, которые лишены поддержки существующих кодирующих агентов, и на сокращение затрат времени на ручную донастройку и отладку.
Набор разделён на три семейства: workload skills, platform skills и infrastructure skills. Workload skills генерируют код и конфигурации для Ray-например Ray Train‑циклы, Ray Serve‑развёртывания, Ray Data и конфиги для LLM‑сервисов. Platform skills запускают этот код на Anyscale, инспектируют выполнение и исправляют сбои, а infrastructure skills помогают разворачивать сам Anyscale на Kubernetes или виртуальных машинах. Автор отмечает, что такое распределение по семействам снижает порог инвестиций в инфраструктуру навыков и в так называемый harness‑слой.
В публикации формализована модель зрелости on‑call для ML‑операций с тремя фазами: Day 0 (Build), Day 1 (Deploy) и Day 2 (Operate). Для каждой фазы предложены ключевые метрики: «Time to first PR» для Day 0, «Failure rate» при деплое для Day 1 и MTTR вместе с бизнес‑метриками для Day 2. Типичные активности также очерчены: шаблоны и обучение на Day 0; настройка платформы и отладка деплоя на Day 1; реагирование на инциденты, поддержка runbook и анализ логов на Day 2. До внедрения подобных подходов на on‑call уходило порядка 20 — 30% времени команды в каждом спринте.
Anyscale демонстрирует, как навыки перераспределяют обязанности по фазам: на Day 0 workload skills дают «golden path» и применяют практики Ray из коробки, позволяя ML‑командам концентрироваться на бизнес‑логике и выборе модели; на Day 1 platform skills отвечают за запуск, валидацию и подбор вычислительных ресурсов; на Day 2 специальные команды навыков (например, /anyscale — platform‑inspect и /anyscale — platform‑fix) диагностируют и ремедиируют инциденты. По оценке автора, это позволяет вовлекать платформу «по необходимости» и сокращать MTTR с дней до часов или даже минут.
Автор подчёркивает, что речь не о полной автономии ML‑команд — решение описывается как «где‑то посередине». Основная оперативная рекомендация — пересмотреть on‑call в соответствии с новой моделью зрелости и рассмотреть инвестиции в навыки и harness как альтернативу постоянной нагрузке на команды. Для внедрения предложены конкретные интеграционные шаги: workload skills должны связываться с CI и репо‑билдами, а platform skills — выступать первым уровнем поддержки перед эскалацией к SRE или платформенной команде.
Источники
Ответы (0)
Пока нет ответов в этой теме.