Команда Dharma — AI опубликовала 22 мая 2026 года анализ режимов ошибок автогрессивных моделей в продуктивном OCR: авторы Erick Lachmann, Pimenta de Freitas Cardoso и GabrielPimenta99 демонстрируют, что «text degeneration» превращает небольшую долю запросов в узкие места пропускной способности. В их эксперименте на специализированной небольшой модели DharmaOCR для распознавания PDF‑страниц менее 3% страниц потребляли почти половину суммарного wall‑clock времени, потому что модель доходила до размера max‑tokens и продолжала генерировать повторяющиеся фрагменты вместо завершения вывода.
Исследователи показали структуру проблемы на визуализациях: каждый запрос представлен полосой от начала к концу, а проблемные запросы подсвечены красным, что наглядно иллюстрирует влияние отдельных «дегенеративных» примеров на общую пропускную способность батча. Эти проблемные запросы характеризуются появлением шаблонных n‑грам‑повторов в конце вывода — модель не генерирует EOS, повторяет фрагмент и идет дальше до принудительной остановки по лимиту токенов. Авторы повторили эксперимент на двух дополнительных датасетах и получили ту же форму распределения с разной интенсивностью: небольшой набор запросов систематически занимает заметную долю времени в батчах, даже если в среднем система выглядит приемлемо. Технически явление не новое — его описывали ранее (Holtzman et al.
модель учится повышать вероятность следующего токена локально, но не получает штрафа за нарушение целостности всей последовательности, из‑за чего усиливается поведение продолжения и возрастает риск застревания в цикле повторений. Практические контрмеры, которые показывают улучшение, включают усиление штрафа за повторения, понижение температуры генерации, смену алгоритма декодирования и добавление стриминг‑проверок, которые прерывают вывод при начале повторов. Однако авторы подчёркивают, что эти эвристики лишь смягчают симптом, а не устраняют структурную причину. Дегенеративный запрос генерирует значительно больше токенов, и время работы GPU для такого запроса может быть в несколько раз выше, чем для корректного запроса с похожим входом.
Выводы важны для инженеров и команд, обслуживающих системы с требованиями по латентности и стоимости инференса, особенно в OCR и других конвейерах с длинными входами: необходимо мониторить логи инференса на n‑грам‑повторы и попадание в max‑tokens, измерять wall‑clock по отдельным запросам и рассматривать исправления на уровне тренировки и распределения обучающих примеров, а не полагаться исключительно на эвристики декодера.
Источники
Ответы (0)
Пока нет ответов в этой теме.