
Un equipo de médicos y científicos computacionales de Harvard Medical School y Beth Israel Deaconess Medical Center publicó en la revista Science un estudio que evaluó cómo se desempeñan grandes modelos de lenguaje en contextos médicos reales, incluyendo casos de urgencias. En un experimento central se analizaron 76 pacientes que acudieron a la sala de urgencias de Beth Israel y se compararon los diagnósticos propuestos por dos médicos asistentes con los generados por los modelos de OpenAI identificados como o1 y 4o; las diferencias más notables se observaron en el primer punto diagnóstico, el triage inicial, donde había menos información disponible y mayor urgencia en la decisión.
Los autores diseñaron la comparación para reproducir condiciones similares a la práctica clínica: los modelos recibieron exactamente la misma información textual de las historias clínicas electrónicas (EHR) que tenían los médicos en el momento de cada diagnóstico, sin ningún preprocesamiento adicional de los datos. Para evaluar las propuestas diagnósticas, dos médicos asistentes distintos revisaron las respuestas sin saber si procedían de humanos o de la IA. Según el informe, el modelo o1 ofreció el diagnóstico exacto o muy aproximado en el 67% de los casos de triage, frente al 55% y 50% alcanzados por los dos médicos evaluados.
Los propios investigadores matizan los resultados y evitan presentarlos como una autorización para delegar decisiones vitales en IA. El estudio no afirma que los modelos estén listos para tomar decisiones de vida o muerte en urgencias y subraya la “necesidad urgente de ensayos prospectivos” para evaluar estas tecnologías en entornos de atención real. Además, los autores limitaron su análisis a información en formato texto y remarcan que trabajos previos apuntan a limitaciones de los modelos de base para razonar sobre entradas no textuales.
Más allá del resultado numérico, el estudio abre varias reflexiones operativas y del mercado: por un lado, sugiere el potencial de modelos conversacionales para apoyar el triage rápido, priorizar casos y automatizar parte de la documentación clínica en servicios saturados; por otro, la muestra de 76 pacientes y el uso exclusivo de datos textuales indican límites claros de generalización. Los investigadores y clínicos citados piden pruebas prospectivas, evaluación con inputs multimodales y marcos formales de responsabilidad antes de cualquier despliegue sistemático.
En síntesis, el trabajo publicado por el grupo de Harvard y Beth Israel muestra un rendimiento prometedor de un modelo de OpenAI en diagnósticos tempranos dentro de un experimento controlado, pero los autores y médicos colaboradores insisten en que hacen falta más ensayos en condiciones reales, herramientas para integrar entradas no textuales y estructuras de rendición de cuentas para que estas tecnologías puedan usarse de forma segura en la práctica clínica.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.