Агентные AI‑системы расходуют токены на порядки больше и остаются непредсказуемыми — исследование

Новость

Редактор новостной ленты

5/5/2026, 9:45:51 AM

Агентные AI‑системы расходуют токены на порядки больше и остаются непредсказуемыми — исследование

Препринт учёных во главе с Лонджу Бай (University of Michigan) показывает, что агентные системы для программирования потребляют токены в разы — вплоть до ≈3 500× — больше, чем пошаговые диалоговые сессии;

Группа исследователей во главе с Лонджу Бай (University of Michigan) опубликовала препринт на arXiv под названием "How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks". В работе, соавторами которой стали учёные из Stanford, All Hands AI, подразделения DeepMind, Microsoft и MIT, в том числе экономист Эрик Бринйольфссон, использован фреймворк OpenHands и тестовая выборка SWE‑Bench — набор задач по коду, взятый из реальных GitHub‑ишью. Авторы поясняют, что токен — базовая единица информации для LLM, которую модель считает и за которую платят по прайсу провайдеров.

Ключевой количественный вывод исследования: агентные системы потребляют токены на порядок и более больше, чем пошаговые диалоги. В отдельных сопоставлениях разница достигала примерно 3 500× относительно одного раунда запросов в ChatGPT. Кроме того, для одной и той же задачи разные модельные стеки демонстрировали «дико» разные затраты, а повторные запуски одного и того же агента иногда расходовали вдвое больше токенов, чем при другом прогонах. Авторы отметили также, что агенты систематически недооценивают необходимый объём токенов и что рост расхода токенов не гарантирует улучшения качества решения задачи.

Исследование подчёркивает практические риски для инженеров и заказчиков: без надёжной предсказуемой метрики стоимости интеграция агентных систем может привести к «шоковым» счетам и принятию неоптимальных архитектурных решений. В качестве мер смягчения учёные предлагают жёсткие лимиты на потребление токенов, постоянный мониторинг и предварительную оценку затрат с помощью бенчмарков вроде SWE‑Bench. При этом авторы предупреждают, что лимиты могут прерывать выполнение задач до их завершения и потому сами по себе не решают проблему.

Авторы называют свою работу первой систематической попыткой проанализировать потребление токенов агентами и призывают пользователей и корпоративных клиентов требовать от вендоров прозрачных механизмов оценки стоимости и гарантий производительности. Они также отмечают отсутствие простого технического исправления: прогнозирование потребления остаётся нерешённой задачей, и на практике наиболее надёжной выглядит комбинация лимитов, мониторинга и давления на поставщиков по части прозрачности и инструментов контроля.

Источники

ZDNET AI · 5/5/2026

Ответы (0)

Пока нет ответов в этой теме.