
Исследователи из ByteDance Seed и Гонконгского университета науки и технологий описали MMProLong — мультимодель на базе Qwen2.5‑VL, обученную на задаче извлечения ответов из больших контекстов вместо постраничной транскрипции.
Группа исследователей из ByteDance Seed совместно с Hong Kong University of Science and Technology представила MMProLong — мультимодальную модель, построенную на открытой Qwen2.5‑VL от Alibaba, которая специально обучена извлекать ответы из очень длинных документов. Это важно потому, что авторы показывают: формулировка учебной задачи в виде вопрос‑ответа заставляет модель эффективнее «искать» релевантные фрагменты в огромном контексте и даёт практические преимущества по сравнению с подходом, ориентированным на полную OCR‑транскрипцию страниц.
В экспериментальной части исследования сравнивали два подхода. В первом режиме модель проходила OCR‑транскрипцию страниц — то есть обучение требовало распознавания символов на всех или выбранных страницах. Во втором конвейере отдельная система (Seed 2.0) автоматически генерировала пары вопрос‑ответ для участков документа; при этом использовались OCR‑парсинг, автоматическая генерация вопросов и реэмбеддинг для извлечения длинных примеров. Основной фокус авторов был не на построчной расшифровке, а на способности модели выделять и сопоставлять нужную информацию в больших входах.
По результатам тестов OCR‑ориентированное обучение не только не давало преимуществ, но в ряде случаев ухудшало качество по сравнению с исходной моделью. На скромном бюджете обучения MMProLong превосходит более крупные открытые мультимодели, такие как InternVL3‑38B и Gemma3‑27B, что подчёркивает практическую эффективность подхода QA‑обучения. Авторы также отмечают, что крупные игроки (OpenAI, Google, Alibaba) заявляют о контекстных окнах до миллиона токенов, но редко раскрывают, какие учебные задачи и сочетания данных обеспечивают стабильность на таких длинах.
Дополнительные эмпирические находки уточняют практику: обучение на смеси коротких и длинных примеров оказывается надёжнее, чем узкая фокусировка на максимальной длине; основной узкий блок — не последующая логика или вычисления, а поиск релевантного фрагмента; и формат вопрос‑ответ сохраняет способности к коротким задачам, даже если основное обучение проводилось на длинных контекстах. По словам авторов, даже дополнительная дообучка не позволяла OCR‑версиям догнать преимущества QA‑обучения.
Технически важно, что при «достаточном» рецепте и относительно небольшом объёме данных (авторы указывают, что модель тренировали на 128000 токенов) MMProLong остаётся стабильной при входах в 256000 и даже 512000 токенов. Для разработчиков это означает, что эффективные конвейеры с автоматической генерацией QA и реэмбеддингом дают путь к масштабированию длинного контекста без экспоненциального роста размера модели и бюджета.
Источники
Ответы (0)
Пока нет ответов в этой теме.