
La función IA Overviews integrada en Search produjo errores básicos de ortografía y conteo de letras; Google atribuye el problema a las limitaciones de los modelos de lenguaje basados en tokens y dice que trabaja en la corrección.
La función IA Overviews integrada en Search comenzó a ofrecer respuestas con errores elementales de ortografía y recuento de caracteres, un fallo que compromete la exactitud literal en el buscador. Este problema afecta la confiabilidad de respuestas que aparecen de forma visible y prioritaria para usuarios y equipos que dependen de la generación automática de texto; Google afirma que está trabajando para corregirlo.
Varios ejemplos publicados muestran fallos concretos: la herramienta respondió que la palabra “Google” tiene dos letras P; aseguró que en “poop” hay exactamente una letra 'r'; contó dos 'd' en “journalism” pero la mostró como j-o-u-r-n-a-d-i-s-m; y produjo la secuencia t-r-p-u-m al intentar escribir el apellido del presidente de EE. UU. Estos errores ilustran imprecisiones a nivel de carácter que no se corrigen simplemente con una lectura superficial.
El problema surge mientras Google reorienta Search para situar la generación de IA en el centro de su buscador, un producto con 29 años de historia. La compañía ya corrigió recientemente un caso en el que la búsqueda de “disregard” devolvía un resultado con texto tipo asistente: "Understood. Let me know whenever you have a new prompt or question!". En un comunicado por correo electrónico, Google señaló: "Counting within words has been a known challenge for LLMs, and we’re working to fix this particular issue."
Técnicamente, estos fallos reflejan cómo funcionan muchos grandes modelos de lenguaje (LLM): se basan en arquitecturas transformer que procesan texto como tokens — que pueden ser palabras, sílabas o fragmentos— y no necesariamente como letras individuales. La tokenización convierte entradas en representaciones numéricas que el modelo utiliza para generar salidas, de modo que el sistema predice y ensambla fragmentos útiles en lugar de “leer” y validar carácter por carácter.
Investigadores en el área han explicado este comportamiento. Matthew Guzdial, profesor asistente de la University of Alberta, señaló que un LLM puede tener codificaciones para tokens frecuentes como "the" pero no para cada letra individual. Sheridan Feucht, doctorando en interpretabilidad de LLMs en Northeastern University, advirtió que no parece probable diseñar un tokenizador perfecto, ya que los modelos tienden a agrupar el texto en trozos que resultan útiles para sus objetivos de predicción.
No es la primera vez que los resúmenes generados por IA en Search provocan problemas públicos: despliegues anteriores citaron contenidos satíricos y mensajes de Reddit que acabaron dando consejos absurdos — como comer piedras o poner pegamento en la pizza— y así se han evidenciado riesgos prácticos cuando la IA actúa como la primera respuesta visible al usuario.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.