
Глоссарий по терминам AI‑агентов опубликован 25 мая 2026 года авторами Sergio Paniego и Aritra Roy Gosthipaty; документ возник как ответ на растущую путаницу в терминологии после ICLR 2026 и на вопрос в Твиттере пользователя @ariG23498 о значениях «harness» и «scaffold». Это важно для разработчиков и исследователей: единообразные рабочие определения упрощают обсуждение архитектур агентов, тестирование и переносимость решений между командами и продуктами.
В глоссарие «модель» определена как LLM-система, которая принимает текст и выдаёт текст, не имея памяти между вызовами и не образуя цикл сама по себе; в качестве примеров приведены Claude, Qwen, GPT, Kimi и DeepSeek. «Scaffolding» (скафолдинг) описан как слой, формирующий поведение модели: system prompt, описания инструментов, правила парсинга ответов и механизмы управления контекстом — всё то, что формирует представление модели о среде и задаёт рамки её ответов.
«Harness» авторы выделяют как слой исполнения внутри агента: он вызывает модель, обрабатывает её запросы к инструментам и принимает решение о завершении работы. Одновременно отмечается, что в практике термин «harness» часто употребляют шире — как обозначение всего, что окружает модель; в документации приведён пример формулировки «Claude Code serves as the agentic harness around Claude», который иллюстрирует такое расширенное употребление. Глоссарий также проводит различие между продуктами по степени привязки к конкретным моделям: некоторые решения тесно связаны с провайдерскими моделями — в тексте упоминаются Claude Code и Codex — тогда как другие инструменты проектируются как модульные и допускают установку любых моделей, например Antigravity CLI и Hermes Agent. Степень привязки влияет на переносимость, стратегию обновлений и тестирование при развертывании агента.
Авторы подчёркивают дисциплину harness engineering: проектирование слоя исполнения включает критерии остановки, обработку ошибок и установку guardrails, применимо как при инференсе, так и при обучении. Для оценки предлагают использовать отдельный eval harness: фиксированный набор сценариев прогоняют на контрольной контрольной точке модели и собирают метрики без изменения весов — это инструмент валидации, а не обучения. Последний раздел глоссария посвящён понятиям, релевантным при тренировке агентных систем: policy, tool use, skills, sub‑agents, trainer, rollout, reward. Авторы подчёркивают, что цель документа не в навязывании единой терминологии, а в предоставлении практичных ментальных моделей, которые упрощают обсуждение и помогают разработчикам при создании, развертывании и оценке агентов.
Источники
Ответы (0)
Пока нет ответов в этой теме.