Pruebas de Kiran Shahid muestran fallos de detectores de IA para distinguir textos humanos y generados

News

5/31/2026, 6:08:59 AM

Pruebas de Kiran Shahid muestran fallos de detectores de IA para distinguir textos humanos y generados

El 29 de mayo de 2026 Kiran Shahid publicó una serie de pruebas y anécdotas que ponen en duda la fiabilidad de detectores de contenido de IA y advierten sobre riesgos para estudiantes y creadores.

El 29 de mayo de 2026 la periodista Kiran Shahid publicó un artículo con experimentos y relatos personales que cuestionan el uso de detectores de contenido de inteligencia artificial como prueba concluyente sobre la autoría de un texto. Shahid relata que, tras la petición de un potencial cliente, pasó horas sometiendo sus propios textos a estas herramientas y que un post sobre su experiencia se volvió viral en LinkedIn, lo que motivó la atención sobre la validez práctica de estos detectores.

Para ilustrar las limitaciones, Shahid preparó cuatro muestras de texto con distintas combinaciones de autoría y calidad: un texto mal escrito generado por una IA (producido con Claude), un texto humano mal escrito, un texto humano bien escrito (un artículo previo sobre Asana vs. Basecamp) y, con intención de comparar, un texto IA bien escrito. Todas las muestras se hicieron pasar por tres detectores populares: ZeroGPT, Copyleaks y TraceGPT, con el propósito de observar concordancias y divergencias entre herramientas.

En uno de los experimentos la autora dedicó hasta 45 minutos a intentar que un texto obtuviera una puntuación del 100 % como “escrito por humano”, un esfuerzo que pone de relieve la tentación de optimar redacciones para sortear etiquetas automáticas en lugar de centrarse en la calidad y la voz propia. Shahid utilizó este proceso para mostrar lo laborioso y poco fiable que puede ser tratar de calibrar un texto frente a sistemas que ofrecen resultados variablemente interpretables.

En la muestra generada por IA y mal escrita (Claude), los tres detectores coincidieron en identificar autoría artificial: ZeroGPT marcó el texto como 100 % generado por IA; TraceGPT lo evaluó en torno al 75 % o como “muy probable” de origen artificial; y Copyleaks también lo detectó como IA, aunque sin ofrecer un porcentaje exacto. En este caso concreto la concordancia entre herramientas fue clara, lo que sirvió como control dentro de las pruebas.

Los resultados fueron mucho menos consistentes en la muestra humana mal escrita. Para un artículo antiguo de Shahid sobre estrategias de TikTok, ZeroGPT estimó que el texto estaba cerca del 75 % generado por IA y TraceGPT marcó un 65 % de probabilidad de origen artificial. Copyleaks, sin embargo, clasificó correctamente ese mismo texto como escrito por una persona. Esa discrepancia entre herramientas ejemplifica cómo un texto humano puede ser señalado como artificial por algunos detectores.

La tercera comparación, con un texto humano bien redactado (el artículo sobre Asana vs. Basecamp), arrojó otra mezcla de respuestas: ZeroGPT indicó un 16 % de contenido generado por IA y llegó a señalar la introducción y frases enfocadas en la primera persona como potencialmente sospechosas; TraceGPT marcó un 43 % de probabilidad de IA; mientras que Copyleaks volvió a identificar correctamente el texto como humano. Estos resultados subrayan que incluso textos claramente humanos y de calidad pueden recibir puntuaciones elevadas de “IA” según el detector utilizado.

Shahid también cita un estudio piloto que respalda sus hallazgos: en esa investigación, siete detectores tipo GPT clasificaron erróneamente en promedio el 61,22 % de los ensayos TOEFL escritos por hablantes no nativos como generados por IA. Ese dato refuerza la preocupación de que los detectores puedan sesgarse contra escritores con estructuras o estilos distintos al inglés nativo, y expone riesgos concretos para estudiantes y creadores que no escriben en un registro académico o estandarizado.

Las implicaciones prácticas que destaca la autora son claras: la falta de fiabilidad puede perjudicar a estudiantes y creadores, especialmente a hablantes no nativos, y generar exigencias injustas para que los autores inviertan tiempo en ajustar su texto con el fin de sortear un marcador automático. Shahid advierte que basar sanciones disciplinarias, decisiones contractuales o evaluaciones profesionales en estos sistemas es problemático, porque las etiquetas automáticas muestran reiteradas inconsistencias entre herramientas.

Como alternativa a la búsqueda de una cifra “100 % humana”, Shahid recomienda centrar la revisión en la voz, el punto de vista y la calidad del texto: comprobar la coherencia de la voz narrativa, la presencia y fiabilidad de las fuentes y la estabilidad del estilo aporta más valor práctico que confiar en una etiqueta automática. En su experiencia, esa aproximación ayuda a discernir autoría y calidad sin depender exclusivamente de porcentajes que hoy demuestran poca consistencia.

Fuentes

Zapier AI · 5/29/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás