
Investigadores de Peking University y Shanghai Artificial Intelligence Laboratory presentaron CiteVQA, un benchmark diseñado para comprobar si los modelos de IA no solo responden correctamente sobre documentos, sino que señalan la evidencia exacta.
Qué ocurrió: Un equipo de Peking University y Shanghai Artificial Intelligence Laboratory creó CiteVQA para exponer lo que denominaron "attribution hallucination": modelos grandes de lenguaje que ofrecen respuestas correctas sobre documentos pero respaldan esas respuestas con pasajes que no prueban lo afirmado.
Detalles concretos: CiteVQA incorpora 1.897 preguntas extraídas de 711 archivos PDF (451 en inglés y 260 en chino), con documentos de media de 40,6 páginas. El criterio exige marcar el párrafo, tabla o figura exacta; un número de página no basta. El conjunto se generó con una canalización automática que valida la necesidad de cada documento y usa modelos como Gemini 3.0 Flash para trazar la cadena de evidencia. Una respuesta correcta con cita equivocada obtiene SAA = 0.
o de mercado: Cuando se obliga a citar con precisión, el rendimiento cae en modelos comerciales: Gemini-3.1 — Pro‑Preview alcanza 76/100 en la métrica relevante, mientras GPT-5.4 pasa de 87,1 a 59. Los modelos de código abierto obtienen puntuaciones aún menores, fenómeno que los vuelve más arriesgados para despliegues en sectores que requieren rastro verificable de las fuentes.
Consecuencias: El hallazgo subraya que verificar solo la respuesta no garantiza trazabilidad; la cita exacta es clave en auditorías, peritajes médicos y procesos legales. CiteVQA proporciona una herramienta cuantitativa para evaluar ese aspecto y podría influir en requisitos de validación para aplicaciones críticas que dependan de evidencia verificable.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.