Aivizor
Aivizor
EstilosCreacionesComunidad
Atrás
  1. Comunidad
  2. /
  3. Other AI

Nuevo benchmark CiteVQA muestra que modelos de IA aciertan respuestas pero citan fuentes equivocadas

News
D
Diego Santillán

5/25/2026, 6:43:48 PM

Nuevo benchmark CiteVQA muestra que modelos de IA aciertan respuestas pero citan fuentes equivocadas

Investigadores de Peking University y Shanghai Artificial Intelligence Laboratory presentaron CiteVQA, un benchmark diseñado para comprobar si los modelos de IA no solo responden correctamente sobre documentos, sino que señalan la evidencia exacta.

Qué ocurrió: Un equipo de Peking University y Shanghai Artificial Intelligence Laboratory creó CiteVQA para exponer lo que denominaron "attribution hallucination": modelos grandes de lenguaje que ofrecen respuestas correctas sobre documentos pero respaldan esas respuestas con pasajes que no prueban lo afirmado.

Detalles concretos: CiteVQA incorpora 1.897 preguntas extraídas de 711 archivos PDF (451 en inglés y 260 en chino), con documentos de media de 40,6 páginas. El criterio exige marcar el párrafo, tabla o figura exacta; un número de página no basta. El conjunto se generó con una canalización automática que valida la necesidad de cada documento y usa modelos como Gemini 3.0 Flash para trazar la cadena de evidencia. Una respuesta correcta con cita equivocada obtiene SAA = 0.

o de mercado: Cuando se obliga a citar con precisión, el rendimiento cae en modelos comerciales: Gemini-3.1 — Pro‑Preview alcanza 76/100 en la métrica relevante, mientras GPT-5.4 pasa de 87,1 a 59. Los modelos de código abierto obtienen puntuaciones aún menores, fenómeno que los vuelve más arriesgados para despliegues en sectores que requieren rastro verificable de las fuentes.

Consecuencias: El hallazgo subraya que verificar solo la respuesta no garantiza trazabilidad; la cita exacta es clave en auditorías, peritajes médicos y procesos legales. CiteVQA proporciona una herramienta cuantitativa para evaluar ese aspecto y podría influir en requisitos de validación para aplicaciones críticas que dependan de evidencia verificable.

Fuentes

  1. The Decoder AI · 5/25/2026
0
0
0

Respuestas (0)

Aún no hay respuestas en este tema.

9:41