GitHub снизил расход Effective Tokens в agentic CI‑воркфлоу до 62%

Новость

Редактор новостной ленты

5/29/2026, 9:38:29 AM

GitHub снизил расход Effective Tokens в agentic CI‑воркфлоу до 62%

GitHub зафиксировал до 62% сокращения расхода Effective Tokens (ET) в своих агентных CI‑воркфлоу после удаления неиспользуемых MCP‑инструментов, переноса части вызовов в gh CLI и внедрения ежедневных аудиторных и оптимизирующих агентов;

GitHub проанализировал расход токенов в agentic CI‑воркфлоу и добился сокращения Effective Tokens (ET) до 62% в ряде продакшн‑воркфлоу после ряда изменений. Это важно для снижения затрат на LLM‑вызовы и управления контекстом в автоматизированных агентах; команда подчёркивает, что 10% падения ET эквивалентно 10% снижению затрат. Для наблюдаемости команда ввела единый артефакт token‑usage.jsonl для каждого прогона, который нормализует входные, выходные и кэш‑токены для Claude CLI, Copilot CLI и Codex CLI. GitHub формализовал метрику Effective Tokens: выходным токенам присваивается вес 4×, чтениям из кэша — 0.1×, затем применяется множитель модели (Haiku 0.25×, Sonnet 1.0×, Opus 5.0×).

Практические оптимизации включали очистку MCP‑манифестов от неиспользуемых инструментов — тесты показали, что MCP‑сервер с 40 инструментами добавляет 10 — 15 КБ схемы на ход, а удаление неиспользуемых инструментов сокращало контекст на 8 — 12 КБ на вызов. Часть MCP‑вызовов заменили на команды gh CLI: файлы либо предзагружают в рабочую область, либо проксируют запросы через прозрачный HTTP‑прокси, чтобы агент не получал прямой доступ к токенам аутентификации.

GitHub отмечает, что в экосистеме уже есть сопоставимые подходы: Anthropic и OpenAI предлагают механизмы prompt‑caching, а LangChain — callback‑трекер токенов для агентных прогонов. Вклад GitHub — сочетание proxy‑уровневой телеметрии с циклом «аудитор → оптимизатор», где оптимизирующий агент автоматически открывает issue с конкретными предложениями по исправлению; обе сущности доступны в gh‑aw CLI. Измеренные эффекты по конкретным воркфлоу разнообразны и приведены на практике: Auto‑Triage Issues продемонстрировал устойчивое снижение ET на 62% по 109 пост‑фикс‑прогонам, Smoke Claude — 59%, Security Guard — 43%, Daily Community Attribution — 37%. Одно поведение, Contribution Check, показало рост ET на 5%; команда атрибутирует это смещению нагрузки в сторону крупных PR, а не регрессии оптимизаций.

Команда предупреждает о границах подхода: в одном случае удаление восьми неиспользуемых MCP‑инструментов не привело к снижению ET, поскольку манифесты составляли незначительную часть общего контекста. В качестве следующего шага GitHub планирует портфельный анализ для обнаружения дублированных чтений и общих промежуточных артефактов между воркфлоу и репозиториями. Итоговая позиция команды проста: самый дешёвый вызов LLM-тот, которого вы не делаете. Эта формула лежит в основе дальнейших усилий по снижению расхода ET через комбинацию инструментов наблюдаемости, небольших архитектурных изменений и автоматизированных рекомендаций.

Источники

InfoQ AI/ML · 5/29/2026

Ответы (0)

Пока нет ответов в этой теме.