
Авторы статьи «LLMs Corrupt Your Documents When You Delegate» выпустили дополнительные разъяснения, уточнив, какие выводы их исследования отражают, а что оно не предназначено доказывать. Они объясняют, что публикация возникла после обсуждений в сообществе и что основная цель — разработать надёжные методы оценки поведения систем при долгом и многошаговом делегировании задач; это важно, поскольку подобные сценарии могут приводить к накоплению ошибок в документах и других артефактах.
В работе формализован класс взаимодействий под названием delegated work‑situations: пользователь поручает ИИ выполнять многослойные правки документов, таблиц, кода или структурированных файлов при ограниченной проверке между шагами. Для оценки авторы применяли контролируемую методику — цепочки задач типа chained transformation‑and‑inversion и domain‑specific semantic parsing, которые фиксируют семантические изменения содержимого, а не только стиль и форматирование. В качестве стресс‑теста предложен бенчмарк DELEGATE‑52, предназначенный моделям и агентам для проверки устойчивости в долгосрочных сценариях.
Кроме базовых трансформаций команда протестировала упрощённый агентный каркас с возможностью использования инструментов: исполнение Python‑кода и операции с файлами. Авторы подчёркивают, что этот каркас демонстрационный: он не является моделированием продакшн‑решений, оптимизированных под конкретные рабочие процессы, и не должен рассматриваться как готовая архитектура для внедрения. По результатам экспериментов современные крупные модели показывали разреженные, но значимые ошибки, которые могли аккумулироваться при повторных итерациях делегирования. В проанализированных настройках наблюдалась примерно 19 — 34% деградация целостности артефактов после 20 итераций. При этом рабочие процессы, основанные на Python, оказались существенно более устойчивыми — в среднем менее 1% деградации. Метрика «коррупции» отражает потерю семантической точности, а не завершение задачи или удовлетворённость пользователя.
Авторы делают практический вывод: надёжное долгосрочное делегирование остаётся открытой задачей для исследований и инженерии, и высокие показатели по краткосрочным бенчмаркам не гарантируют корректную многослойную автоматизацию. Многие действующие системы снижают риски через циклы верификации, оркестрацию, retrieval‑механизмы и доменно‑специфические инструменты; в тексте также упоминаются демонстрационные наработки Azure AI Foundry Labs как один из возможных направлений развития.
Источники
Ответы (0)
Пока нет ответов в этой теме.