
IBM Research представила Open Agent Leaderboard — открытый набор бенчмарков и фреймворк Exgentic для оценки полноценных агентных систем по качеству и стоимости; материал опубликован Elron Bandel 18 мая 2026, все артефакты открыты с первого дня.
IBM Research запустила Open Agent Leaderboard — открытый лидерборд для комплексной оценки полноценных агентных систем, который сопоставляет не только качество решений, но и их экономическую оправданность при развертывании. Платформа важна тем, что смещает фокус с отдельных языковых моделей на поведение системы в рабочей среде: какие инструменты агент использует, как планирует последовательность действий, как хранит память и как восстанавливается после ошибок. Это даёт разработчикам и исследователям более прикладную картину применимости агентов в реальных задачах.
Лидерборд использует одновременно метрики качества и метрики стоимости, чтобы показать не только что работает, но и что экономически оправдано для развертывания. В основу оценки положено шесть бенчмарков, выбранных для проверки разных рабочих сценариев: SWE‑Bench Verified (правка реальных багов в кодовых репозиториях), BrowseComp+ (поиск и исследование сложных вопросов в вебе), AppWorld (выполнение персональных задач через сотни приложений), а также два tau2‑набора — Bench Airline & Retail (клиентская служба по политике компании) и Bench Telecom (техническая поддержка по политике). Все бенчмарки согласованы в едином протоколе, который задаёт задачу, контекст и набор разрешённых действий.
Авторы выделяют проблему генералистичности: многие существующие агентные системы показывают высокую эффективность в узко настроенных сценариях, но гораздо сложнее оценить, насколько одна и та же архитектура остаётся полезной при расширении набора задач, инструментов и правил. Лидерборд рассматривает генералистичность как спектр и в оценке ставит в центр не только абсолютные успехи, но и рост затрат и падение производительности при переносе в новые условия. Практические последствия для разработчиков и команд очевидны: благодаря единому протоколу и Exgentic можно прямо сравнивать архитектурные решения — набор инструментов, стратегию планирования, механизм памяти и обработку ошибок — по их вкладу в итоговое качество и стоимость владения. Exgentic обеспечивает воспроизводимую среду для прогонов и анализа, а общий протокол уменьшает интеграционные трения между бенчмарками и упрощает сопоставление результатов.
Авторы признают ограничения текущего набора тестов: он не покрывает всех возможных возможностей будущих общих агентов. Тем не менее они утверждают, что предложенный открытый и строгий ориентир даёт более репрезентативную и проверяемую платформу для сравнения систем, чем предыдущие подходы, сосредоточенные только на оценке отдельных моделей.
Источники
Ответы (0)
Пока нет ответов в этой теме.