Entrenar LMMs con preguntas supera la transcripción en documentos largos, según estudio

News

5/24/2026, 2:08:59 PM

Entrenar LMMs con preguntas supera la transcripción en documentos largos, según estudio

Qué ocurrió: Un equipo de ByteDance Seed y la Hong Kong University of Science and Technology (HKUST) publicó el 24 de mayo de 2026 un estudio que compara dos estrategias para entrenar modelos multimodales en documentos largos. Concluyen que usar pares pregunta‑respuesta para forzar la localización de pasajes rinde mejor que enseñar al modelo a transcribir páginas completas; esto afecta la forma en que se preparan datos para ventanas de contexto muy largas.

Arquitectura y pipeline: Los investigadores construyeron MMProLong sobre Qwen2.5‑VL (Alibaba) y diseñaron una canalización que combina parsing OCR, generación automática de preguntas mediante Seed 2.0 y re‑embedding para extraer ejemplos de contexto prolongado. Esa mezcla buscaba crear tareas que simulan búsquedas y respuestas dentro de documentos con muchas imágenes y páginas.

Diseño experimental: En los experimentos compararon dos vías de entrenamiento: una orientada al reconocimiento de caracteres en las páginas (transcripción/OCR) y otra basada en pares pregunta‑respuesta que obliga al modelo a identificar y extraer los pasajes relevantes dentro del documento. El contraste permitió evaluar no solo exactitud de texto sino la habilidad de localizar información pertinente en contexto largo.

Resultados principales: El entrenamiento basado en preguntas mejoró de forma marcada el desempeño en documentos extensos; por el contrario, la variante centrada en OCR empeoró el rendimiento respecto al punto de partida y no se recuperó con fine‑tuning adicional. MMProLong, pese a partir de una base concreta, superó a competidores de mayor tamaño. El estudio también observa que los grandes laboratorios rara vez detallan la mezcla de datos y tareas usadas para entrenar ventanas de contexto muy largas.

Por qué importa: Estos resultados sugieren que diseñar tareas que requieran búsqueda y respuesta dentro de un contexto prolongado es más eficaz para enseñar a los LMMs a navegar documentos que la transcripción exhaustiva. La conclusión orienta a desarrolladores y equipos de investigación sobre qué tipos de datos y objetivos priorizar cuando el objetivo es comprensión y localización de información en textos e imágenes extensos.

Fuentes

The Decoder AI · 5/24/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás