Meta и Стэнфорда (29 мая 2026) утверждается

Новость

Редактор новостной ленты

5/29/2026, 1:48:40 PM

Meta и Стэнфорда (29 мая 2026) утверждается

Обзорная статья исследователей Университета Иллинойса Urbana — Champaign, Meta и Стэнфорда, опубликованная 29 мая 2026 года, заявляет: роль кода поднята на уровень базиса поведения автономных агентов — он не просто вывод модели, а то, на чём агент «думает», действует и координирует работу. Это меняет фокус с чистого улучшения LLM на инженерную задачу создания надёжного «harness», поскольку без него модель остаётся ctateless‑компонентом, не способным циклически управлять процессом выполнения задач. В статье под «harness» понимается полный стек: набор инструментов и интерфейсов, изолированные среды выполнения (песочницы), механизмы памяти, тесты, границы прав доступа, циклы исполнения и каналы обратной связи. Наличие этого стека позволяет логировать промежуточные состояния, восстанавливать прогресс и превращать однократные выводы модели в управляемые, проверяемые действия.

Авторы предлагают трёхслойную организацию систем: уровень возможностей модели (reasoning и planning), уровень инфраструктуры (инструменты и песочницы) и уровень кода, который агент генерирует «на лету» — от одноразовых скриптов до повторно используемых навыков и рабочих процессов. Эти самогенерируемые артефакты, отмечают исследователи, пока недостаточно изучены, хотя они являются исполняемой, отслеживаемой и сохраняемой частью поведения агента.

Обзор фиксирует, что принципы этой архитектуры уже находят применение в индустрии: в тексте упомянуты Claude Code и OpenAI Codex, а также мультиагентные фреймворки вроде ChatDev и MetaGPT. В качестве конкретного примера приводится сценарий, где Claude Code делегирует проверку pull‑request нескольким агентам, которые параллельно ищут баги и уязвимости, но не обладают правом утверждения изменений. Кроме того, указано, что Deepseek формирует команду «Harness» в Пекине, что авторы интерпретируют как подтверждение формулы «модель + harness = агент».

Ключевой практический риск для разработчиков — надёжность и тестирование: существующие программные тесты часто неполны и могут скрывать риски в поведении агентов. Авторы предлагают строить надёжность через формализованные переходы состояний, песочницы с ограниченными правами и циклы «план → выполнить → проверить», где этап верификации решает принять результат, исправить его или передать человеку. В заключение обзор формулирует практические рекомендации для инженеров и исследователей: переводите часть интеллекта в исполняемый код, проектируйте песочницы и чёткие механизмы прав, инвестируйте в прозрачные механизмы верификации и ведение логов. Авторы призывают сместить исследовательский фокус с чистых моделей на «harness‑инженерию», где тестируемость, прослеживаемость и долговременная память кода станут ключевыми факторами надёжности автономных систем.

Источники

The Decoder AI · 5/29/2026

Ответы (0)

Пока нет ответов в этой теме.