
Разработчики внедрили модель запрос‑ориентированного сжатия контекста, которая извлекает минимальные релевантные спаны из страниц и передаёт их в модель ответа вместо полного текста.
В этом месяце разработчики развернули в приложениях и на платформе API новый генератор сниппетов: модуль на основе запрос‑ориентированного сжатия контекста теперь формирует фрагменты источников перед передачей в модель ответа. Смысл нововведения — не отправлять на обработку весь извлечённый текст страницы, а выбрать только те отрывки, которые прямо необходимы для текущего запроса; это должно повысить точность ответов и одновременно сократить задержки и расходы на запросы. Подход реализован как выборочная экстрактивная компрессия: для каждого запроса и каждой candidate‑страницы модель определяет, какие спаны (отрезки текста) нужно сохранить. Авторы целенаправленно отказались от генеративного варианта (перефразирование или суммаризация) из‑за риска искажения цитирования, появления лишних слов, дополнительных задержек и роста стоимости; приоритет отдан хирургической экстракции оригинальных фрагментов.
Модификация мотивируется практическими проблемами «сырых» контекстов: веб‑страницы содержат навигацию, рекламу, метаданные и прочий боилерплейт, что вызывает три негативных эффекта. Во‑первых, падает точность — модели расходуют ограничённую вместимость на нерелевантный текст (так называемый «rot»). Во‑вторых, растёт латентность из‑за большого числа лишних токенов. В‑третьих, увеличиваются расходы на запросы из‑за роста входных и reasoning‑токенов. Исходя из этих проблем, разработчики сформулировали три ключевых требования к сниппету: 1) повышать точность, предоставляя точные доказательства для ответа; 2) снижать задержки и стоимость, удаляя нерелевантный контекст до вызова LLM; 3) обеспечивать трассируемость и соответствие цитатам (citation fidelity) путём сохранения исходных формулировок источника. Новая система нацелена удовлетворять все три пункта одновременно.
С практической точки зрения архитектура минимизирует объём передаваемого контекста: вместо обобщённой суммаризации модель выбирает «самую маленькую, хирургически вырезанную» часть документа, содержащую требуемое доказательство. Такое поведение упрощает выравнивание цитирования и снижает риск введения в сниппет слов, отсутствующих в исходной странице. Для разработчиков и интеграторов это означает более контролируемую цепочку доказательств: меньше токенов во входе — ниже расходы и меньше помех в рассуждении модели, а сохранение исходного текста упрощает проверку и верификацию ответов. Статья также описывает подходы к построению и обучению модели сжатия, направленные на достижение «best‑in‑class» результатов по этой задаче.
Источники
Ответы (0)
Пока нет ответов в этой теме.