
В новой статье, опубликованной в Science, исследователи из Гарвардской медицинской школы и Beth Israel Deaconess Medical Center провели ретроспективное сравнение диагностических выводов, в котором одна из больших языковых моделей OpenAI оказалась точнее дежурных врачей отделения неотложной помощи. Эксперимент опирался на 76 случаев, поступивших в отделение неотложной помощи Beth Israel, и сопоставлял диагнозы, предложенные двумя дежурными врачами, с диагностическими вариантами, сгенерированными моделями o1 и 4o от OpenAI.
Методология была рассчитана на реализм: данные не предобрабатывались — моделям подавали ту же текстовую информацию из электронных медицинских записей, которая была доступна врачам во время принятия решений. Оценка корректности диагнозов проводилась двумя другими дежурными врачами, которые не знали, какие выводы были сделаны человеком, а какие — моделью. Авторы отмечают, что в условиях ограниченной информации (первичная триажа) отличие в пользу модели было особенно заметно.
По результатам исследования модель o1 давала «точный или очень близкий» диагноз в 67% случаев первичной триажи, тогда как один из дежурных врачей попадал в ту же категорию в 55% случаев, а второй — в 50% случаев. В материале Гарвардской медицинской школы соавтор и руководитель лаборатории Arjun Manrai заявил: «We tested the AI model against virtually every benchmark, and it eclipsed both prior models and our physician baselines» — результаты, по его словам, превосходили предыдущие модели и клинические эталоны, использованные в исследовании.
авторы исследования прямо предостерегают от преждевременной клинической имплементации: работа не утверждает, что ИИ готов принимать жизненно важные решения в реальном времени. В тексте говорится о «неотложной потребности в проспективных испытаниях» для оценки моделей в реальной клинической практике, а также подчеркивается, что в данном анализе использовались только текстовые вводные, тогда как «существующие исследования указывают на более ограниченные возможности фундаментальных моделей при обработке нетекстовых данных» (например, изображений или сигналов).
Помимо методологических ограничений, исследователи и клиницисты обращают внимание на организационные и этические последствия. Один из соавторов, врач Beth Israel Adam Rodman, отметил отсутствие формальной рамки ответственности за диагнозы, сгенерированные ИИ, и напомнил, что пациенты по-прежнему хотят, чтобы за критическими решениями стоял человек. В то же время команда и авторы обзора отмечают практическую значимость результатов: улучшение качества первичной триажи при помощи языковых моделей может снизить диагностические ошибки в условиях дефицита информации, но масштабирование и интеграция таких инструментов требуют дополнительных испытаний, регуляторной оценки и оценки работы с мультимодальными данными.
В более широком контексте результаты усиливают интерес лабораторий и стартапов к применению больших языковых моделей в медицине, но сами авторы и TechCrunch подчёркивают, что текущие выводы ограничены ретроспективным дизайном и набором из 76 случаев. Публичные заявки на преимущества модели подкрепляются призывом к строгим проспективным исследованиям и координации с клиническими и нормативными структурами, прежде чем такие модели будут использоваться в рутинной клинической практике.
Источники
Ответы (0)
Пока нет ответов в этой теме.