
IBM Research и Hugging Face совместно представили VAKRA-инновационный бенчмарк, предназначенный для комплексной оценки способности ИИ-агентов к рассуждениям и эффективному использованию инструментов в условиях реального предприятия. Опубликованный 15 апреля 2026 года, VAKRA отличается тем, что измеряет не изолированные навыки, а надежность выполнения сложных многошаговых рабочих процессов, требующих глубокого логического вывода и эффективного взаимодействия с разнообразными инструментами. Для этого бенчмарк предоставляет уникальную исполняемую среду с более чем 8000 локально размещенными API, подкрепленными реальными базами данных из 62 доменов и обширными коллекциями тематических документов. Задачи VAKRA требуют построения цепочек рассуждений из 3-7 шагов, сочетающих как структурированное взаимодействие с API, так и неструктурированный поиск данных.
В отличие от традиционных бенчмарков, которые обычно тестируют отдельные функции, VAKRA фокусируется на сквозной надежности выполнения комплексных задач через полные трассы выполнения. Текущий анализ показывает, что существующие модели ИИ демонстрируют относительно низкую производительность на VAKRA, что подчеркивает высокую сложность бенчмарка и необходимость дальнейших исследований в области ИИ-агентов. Этот инструмент имеет ключевое значение для разработчиков, поскольку он позволяет выявить реальные ограничения ИИ-агентов в условиях, максимально приближенных к корпоративной среде. Детальный набор данных и анализ различных типов сбоев, предоставляемые VAKRA, служат ценной основой для улучшения проектирования и разработки агентов, способных более эффективно работать с инструментами и обрабатывать многоэтапные запросы.
Структура бенчмарка VAKRA включает четыре основные задачи, каждая из которых направлена на проверку различных аспектов способностей агентов. Один из примеров — задача "API Chaining using Business Intelligence APIs", содержащая 2077 тестовых сценариев в 54 доменах. Эти сценарии требуют от 1 до 12 последовательных вызовов инструментов для их решения. Каждый такой тестовый сценарий связан с уникальным источником данных JSON, инициализация которого происходит через специальный инструмент `get_data(tool_universe_id=id)`. Этот механизм возвращает легкое предварительное представление данных, при этом полный набор хранится на сервере, что предотвращает неэффективную передачу больших объемов информации по протоколу MCP.
Важным элементом VAKRA являются значительно расширенные коллекции инструментов SLOT — BIRD и SEL — BIRD. Коллекция SLOT — BIRD предлагает 7 общих инструментов, предназначенных для манипулирования данными, таких как функции фильтрации. SEL — BIRD дополняет ее специализированными возможностями, заменяя общую функцию `retrieve_data` на более конкретные, ориентированные на запрос функции — получатели.
Источники
Ответы (0)
Пока нет ответов в этой теме.