LLM de OpenAI supera a médicos en tareas de razonamiento clínico con registros de urgencias, según estudio del 30 de abril

News

5/13/2026, 2:34:10 PM

Un estudio publicado el 30 de abril en la revista Science probó un gran modelo de lenguaje de OpenAI con registros reales de pacientes de salas de urgencias y encontró que el modelo superó a médicos en varias tareas de razonamiento clínico, como identificar diagnósticos y proponer planes de tratamiento. El resultado plantea la posibilidad de que estos sistemas complementen decisiones clínicas en entornos críticos, aunque su validez fuera de pruebas controladas aún no está demostrada.

Los autores evaluaron la versión o1‑preview, un modelo de propósito general que desde entonces ha sido reemplazado por versiones más recientes. Tras los análisis, los investigadores recomendaron ensayos clínicos prospectivos y sugirieron emplear la IA como apoyo puntual — por ejemplo, para solicitar una segunda opinión en momentos concretos del proceso diagnóstico — en lugar de integrarla de forma autónoma en la atención al paciente.

El hallazgo llega en un contexto de rápida comercialización: OpenAI presentó este año productos dirigidos a profesionales, incluidos ChatGPT for Clinicians y ChatGPT for Healthcare. Ese movimiento coincide con un interés creciente de empresas y hospitales por incorporar herramientas basadas en LLM en flujos de trabajo clínicos. La literatura previa ofrece resultados mixtos: algunos trabajos informan buen desempeño diagnóstico de chatbots médicos, pero otros documentan problemas como citas fabricadas, consejos erróneos y gran variabilidad según los protocolos de evaluación. Un estudio citado señaló que casi la mitad de las respuestas de cinco chatbots populares a preguntas abiertas de salud eran defectuosas.

Bar plot comparing human and IA diagnostic performance on clinical cases. Large language models mostly performed the same or slightly better than internal medicine attending physicians.

Autores y expertos piden cautela ante la adopción. Mickael Tordjman (Icahn School of Medicine) afirmó que hacen falta ensayos clínicos prospectivos y que modelos más nuevos o específicamente entrenados en medicina podrían rendir mejor. El coautor Arjun Manrai (Harvard Medical School) subrayó que los hallazgos no implican que la IA vaya a reemplazar a los médicos, y Adam Rodman (Beth Israel Deaconess) expresó inquietud sobre posibles usos indebidos de estos resultados.

Fuentes

IEEE Spectrum AI · 5/13/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás