Estudio revela que agentes de búsqueda de IA confirman conocimientos previos en vez de investigar en la web

News

5/31/2026, 8:37:32 AM

Estudio revela que agentes de búsqueda de IA confirman conocimientos previos en vez de investigar en la web

Investigadores de la Harbin Institute of Technology y Xiaohongshu crean LiveBrowseComp, un benchmark temporal de 335 preguntas que muestra que muchos agentes de búsqueda de IA dependen de conocimiento memorizado más que de búsquedas reales en la web.

Un estudio conjunto de la Harbin Institute of Technology y Xiaohongshu concluye que los agentes de búsqueda basados en modelos de lenguaje frecuentemente validan respuestas que ya llevan en su memoria en lugar de investigar activamente la web. Para medir ese comportamiento los autores diseñaron un benchmark con límite temporal, LiveBrowseComp, destinado a forzar a los modelos a buscar hechos recientes y comprobar cuánto dependen de su conocimiento interno.

LiveBrowseComp incluye 335 preguntas redactadas por personas y pensadas específicamente para requerir al menos un hecho ocurrido en los 90 días previos a la prueba. Los investigadores evaluaron once modelos en total y compararon los resultados con benchmarks estáticos previos como BrowseComp, buscando aislar la capacidad real de navegación en tiempo real frente al desempeño basado en información aprendida durante el entrenamiento.

Entre los modelos sometidos a prueba aparecen GPT‑5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek — V4‑Pro, Kimi — K2.6 y MiniMax M2.5. En benchmarks estáticos, algunos de estos modelos han ido escalando posiciones porque el conocimiento requerido se ha ido incorporando a sus parámetros con las sucesivas generaciones; eso puede explicar por qué modelos como GPT‑5.4 o Kimi — K2.6 aparecen en los primeros puestos sin que ello garantice mejor habilidad de navegación en tiempo real.

Los autores introducen el término "intrinsic knowledge dependence" (IKD) para describir esta dependencia del conocimiento interno. Para cuantificarla, midieron el rendimiento de los modelos cuando no tenían acceso a la web: MiniMax M2.5 resolvió el 44.5% de las tareas de BrowseComp desde memoria, y Kimi — K2.6 alcanzó el 62% en la variante china BrowseComp‑ZH. Esos resultados muestran que una porción sustancial del desempeño observado procede directamente de la memoria del modelo.

Para analizar el efecto opuesto, los investigadores realizaron una segunda prueba que mantenía la interfaz de búsqueda pero eliminaba del índice todos los documentos que contenían evidencia que apoyara las respuestas correctas. Bajo ese escenario, todos los modelos sufrieron caídas pronunciadas: MiniMax pasó del 44.5% al 8.0%, y Kimi descendió del 25.5% al 2.3%. Esos desplomes indican que la presencia de la capacidad de búsqueda puede, en ausencia de hits confirmatorios, inducir a los agentes a desviarse de la respuesta correcta.

El estudio examina además las trazas de búsqueda generadas por los agentes. Más de la mitad de las consultas lanzadas por los agentes proceden de hipótesis generadas internamente por el propio razonamiento del modelo, no de hallazgos previos en los resultados. Cuando aparece evidencia relevante en los resultados, los agentes la incorporan en menos de un tercio de los casos. En la práctica, el ciclo de investigación está dominado por las conjeturas del modelo en lugar de por la evidencia externa encontrada.

LiveBrowseComp fue concebido para medir comportamiento de búsqueda más allá de la frontera del conocimiento entrenado. Las 335 preguntas se fundamentan en fuentes continuamente actualizadas — bases de datos de cine, directorios de juegos, registros de vulnerabilidades de seguridad y catálogos de terremotos—, y los autores aplicaron filtrados deliberados para excluir eventos globalmente prominentes y eliminar respuestas inestables generadas por el pipeline de evaluación.

Las implicaciones del estudio son claras: las métricas actuales sobre agentes con capacidad de navegación tienden a sobreestimar su habilidad para investigar en tiempo real. Las clasificaciones obtenidas en benchmarks estáticos pueden reordenarse cuando se bloquea la dependencia de la memoria, por lo que evaluadores y desarrolladores deberían incorporar pruebas temporales y controles sobre el índice para medir la verdadera competencia de búsqueda.

Fuentes

The Decoder AI · 5/31/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás