
Оценка моделей искусственного интеллекта, в частности, сложных автономных агентов, стремительно превращается в одно из главных вычислительных и финансовых препятствий на пути разработки ИИ. Затраты на этот процесс достигли такого уровня, что теперь они сопоставимы с расходами на предварительное обучение моделей, а иногда и превосходят их. Эта тенденция изменяет круг участников, способных проводить комплексные исследования и разработки в области ИИ.
Еще до появления автономных агентов высокие затраты на оценку были заметны в области больших языковых моделей. При выпуске бенчмарка HELM Стэнфордским центром исследования фундаментальных моделей (CRFM) в 2022 году, стоимость оценки API-моделей варьировалась от 85 до 10 926 долларов, а для открытых моделей требовалось от 540 до 4 200 GPU-часов, с BLOOM (176B) и OPT (175B) как наиболее ресурсоемкими. Общие расходы на HELM, оценивающий 30 моделей в 42 сценариях, приблизились к 100 000 долларов. Анализ Perlitz et al. (2024) данных EleutherAI' s Pythia показал, что для небольших моделей стоимость оценки может даже превзойти затраты на предварительное обучение, становясь доминирующей статьей расходов.
Для решения проблемы высоких затрат в статичных бенчмарках были разработаны инновационные подходы. Методы сжатия, такие как Flash — HELM, позволили сократить вычислительные затраты в 100 — 200 раз при сохранении практически того же ранжирования моделей, используя принцип «от грубого к тонкому». Другие работы, например, tinyBenchmarks, сократили MMLU с 14 000 до 100 ключевых элементов (с погрешностью около 2%), а Open LLM Leaderboard уменьшил количество примеров с 29 000 до 180. Эти методы стали возможными благодаря наблюдению, что различия между моделями часто сосредоточены в небольшом подмножестве элементов, позволяя агрессивно сокращать выборку без значительной потери точности в ранжировании.
Однако переход к оценке автономных агентов существенно усложнил задачу, делая предыдущие подходы менее эффективными. В отличие от статичных предсказаний, агентские бенчмарки редко оценивают «модель» изолированно, фокусируясь на продукте «модель × структура × бюджет токенов». Выбор структуры (scaffold) сам по себе является ключевым фактором стоимости, что подтверждено исследованием Exgentic, выявившим 33-кратный разброс затрат для идентичных задач. Новые агентские бенчмарки характеризуются высокой степенью шума, чувствительностью к структуре и лишь частичной сжимаемостью. Кроме того, бенчмарки с обучением в цикле (training — in-the-loop) по своей природе являются дорогостоящими, а добавление требований к надежности посредством многократных прогонов еще больше увеличивает эти расходы.
Ярким примером растущих затрат на оценку агентов является отчет Holistic Agent Leaderboard (HAL). Для проведения 21 730 прогонов по 9 моделям и 9 бенчмаркам, охватывающим широкий спектр задач, HAL потратил около 40 000 долларов. К апрелю 2026 года количество прогонов на HAL выросло до 26 597, а независимая репродукция Ndzomga показала схожие цифры: 46 000 долларов за 242 прогона. Стоимость одного полного прогона может варьироваться на четыре порядка величины между задачами HAL и на три порядка внутри отдельных бенчмарков. Эти различия обусловлены, в том числе, значительной разницей в ценах на токены у разных поставщиков: Claude Opus 4.1 взимает 15 долларов за миллион входных токенов и 75 долларов за миллион выходных, тогда как Gemini 2.
Такие астрономические расходы приводят к тому, что сам процесс оценки становится новым узким местом в вычислительных ресурсах. Один запуск GAIA на передовой модели может стоить 2 829 долларов до кэширования. В научной области машинного обучения бенчмарк The Well требует около 960 H100-часов для оценки новой архитектуры и 3 840 H100-часов для полной оценки с четырьмя базовыми моделями. Попытки повысить надежность оценок путем многократных прогонов лишь умножают высокие затраты. Отчет HAL показал, что, например, 9-кратная разница в стоимости между двумя агентами на бенчмарке Online Mind2Web (1 577 долларов за 40% точности против 171 доллара за 42%) не привела к пропорциональному улучшению производительности.
Источники
Ответы (0)
Пока нет ответов в этой теме.