
Un equipo del MIT y del MIT — IBM Computing Research Lab creó ChartNet, un conjunto de datos con más de un millón de gráficos que codifica elementos visuales, lingüísticos y numéricos para enseñar a modelos visión‑lenguaje a interpretar figuras complejas.
Investigadores del MIT y del MIT — IBM Computing Research Lab presentaron ChartNet, un conjunto de más de un millón de gráficos diseñado para enseñar a modelos visión‑lenguaje a integrar comprensión visual, numérica y textual en un solo paso. El propósito es resolver la tendencia de los VLMs a generar respuestas inexactas al analizar figuras que combinan información gráfica y texto.
Para construir ChartNet los autores aplicaron un nuevo método de generación de datos y compilaron una amplia variedad de gráficos. Cada entrada del conjunto codifica múltiples componentes de la imagen — aspectos visuales, descripciones lingüísticas y datos numéricos— y esa estructura sirvió para entrenar una serie de modelos de código abierto orientados a tareas de análisis de gráficos.
En las evaluaciones, los modelos entrenados con ChartNet, incluidos modelos relativamente pequeños, superaron a modelos comerciales de órdenes de magnitud mayores en labores concretas como la extracción de datos de gráficos y la generación de resúmenes. Ese rendimiento puntual indica que la calidad del entrenamiento en tareas específicas puede compensar diferencias en tamaño y coste computacional.
ChartNet podría facilitar que empresas pequeñas y equipos académicos con presupuestos limitados empleen IA para el análisis de tendencias de negocio o la interpretación de figuras científicas. Jovana Kondic, autora principal, describe ChartNet como "un punto único" para la comprensión de gráficos. La investigación incluye coautores como Pengyuan Li, Dhiraj Joshi e Isaac Sanchez (MIT y IBM Research) y se presentará en la conferencia IEEE Computer Vision and Pattern Recognition.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.