BitcoinWorld
Точность диагностики ИИ превосходит врачей скорой помощи в новаторском исследовании Гарварда
Новаторское исследование Гарварда показывает, что ИИ ставит более точные диагнозы, чем врачи скорой помощи, в определённых клинических сценариях, что знаменует значительный рубеж в медицинском искусственном интеллекте. Опубликованное в журнале Science, исследование демонстрирует, что большие языковые модели OpenAI способны превосходить врачей-людей при диагностике пациентов в реальных случаях отделения скорой помощи.
Исследователи из Гарвардской медицинской школы и медицинского центра Бет Исраэль Диаконесс провели серию экспериментов для оценки того, как модели OpenAI сравниваются с врачами-людьми. Исследование было сосредоточено на 76 пациентах, посетивших отделение скорой помощи Бет Исраэль. Два лечащих врача поставили диагнозы, тогда как модели o1 и 4o OpenAI сгенерировали свои собственные. Затем два других лечащих врача оценили все диагнозы, не зная, какие из них поставлены людьми, а какие — ИИ.
Результаты оказались впечатляющими. На каждом диагностическом этапе модель o1 показывала результаты либо номинально лучше, либо наравне с двумя лечащими врачами. Модель 4o также продемонстрировала высокую эффективность. Наиболее выраженные различия наблюдались при первичной сортировке в отделении скорой помощи, когда информации мало, а срочность высока.
В случаях сортировки модель o1 поставила точный или очень близкий диагноз в 67% случаев. Один врач достиг этого в 55% случаев, а другой — в 50% случаев. Это представляет собой улучшение точности диагностики на 12–17 процентных пунктов.
Исследовательская группа подчеркнула, что данные не подвергались предварительной обработке. Модели ИИ получили ту же информацию, которая была доступна в электронных медицинских картах на момент каждого диагноза. Такой подход обеспечил справедливое сравнение между человеческим и машинным мышлением.
Арджун Манрай, руководящий лабораторией ИИ в Гарвардской медицинской школе и являющийся одним из ведущих авторов исследования, заявил в пресс-релизе: «Мы тестировали модель ИИ практически по всем показателям, и она превзошла как предыдущие модели, так и наши базовые показатели врачей».
Большие языковые модели, такие как o1 и 4o OpenAI, продемонстрировали замечательные возможности в обработке текстовой медицинской информации. Однако исследование не утверждало, что ИИ готов принимать жизненно важные решения в отделении скорой помощи. Вместо этого оно подчеркнуло насущную необходимость в проспективных испытаниях для оценки этих технологий в условиях реального ухода за пациентами.
Исследователи также отметили ограничения. Они изучали только то, как модели работают с текстовой информацией. Существующие исследования свидетельствуют о том, что современные базовые модели более ограничены в рассуждении над нетекстовыми данными, такими как медицинские изображения или показатели жизнедеятельности пациента.
Адам Родман, врач Бет Исраэль и соавтор исследования, сообщил Guardian, что не существует формальной системы ответственности за диагнозы ИИ. Он подчеркнул, что пациенты по-прежнему хотят, чтобы люди направляли их в жизненно важных решениях и сложных вариантах лечения.
Экстренная медицина требует быстрых и точных решений при ограниченной информации. Исследование предполагает, что ИИ может служить мощным инструментом поддержки принятия решений для врачей скорой помощи. Предоставляя точные диагностические предложения, ИИ может помочь снизить диагностические ошибки и улучшить результаты лечения пациентов.
Однако интеграция ИИ в клинические рабочие процессы представляет собой проблемы. Врачи должны доверять технологии, понимать её ограничения и сохранять окончательную ответственность за уход за пациентами. Исследование призывает к тщательной оценке перед широким внедрением.
В исследовании сравнивались две модели OpenAI: o1 и 4o. Модель o1 неизменно превосходила 4o на всех диагностических этапах. Это свидетельствует о том, что более новые и продвинутые модели могут обеспечить ещё большую точность в медицинских применениях.
Таблица: Точность диагностики при первичной сортировке
| Источник диагноза | Точность |
|---|---|
| Модель OpenAI o1 | 67% |
| Врач 1 | 55% |
| Врач 2 | 50% |
| Модель OpenAI 4o | Сопоставимо с врачами |
Эти результаты подчёркивают стремительное развитие ИИ в здравоохранении. Однако авторы исследования предостерегают от чрезмерной интерпретации результатов. Размер выборки был небольшим, а клинический контекст — ограниченным.
Медицинские эксперты отреагировали как с энтузиазмом, так и с осторожностью. Одни видят в ИИ трансформирующий инструмент, способный демократизировать доступ к диагностике экспертного уровня. Другие обеспокоены чрезмерной зависимостью от технологий и размыванием клинического суждения.
Гарвардское исследование дополняет растущую базу доказательств, подтверждающих потенциал ИИ в здравоохранении. Предыдущие исследования показали, что ИИ хорошо работает в радиологии, патологии и дерматологии. Данное исследование распространяет доказательства на экстренную медицину — высокорисковую среду.
Доктор Манрай подчеркнул, что модель ИИ была протестирована практически по всем показателям и превзошла предыдущие модели. Это говорит о том, что ИИ не просто соответствует человеческой эффективности, но и превосходит её в определённых контекстах.
Исследование поднимает важные этические вопросы. Кто несёт ответственность, когда диагноз ИИ оказывается неверным? Как следует интегрировать ИИ в клиническое принятие решений, не подрывая доверие пациентов? Эти вопросы требуют тщательного рассмотрения со стороны регуляторов, поставщиков медицинских услуг и разработчиков технологий.
В настоящее время не существует формальной системы ответственности за диагнозы ИИ. Родман отметил, что пациенты по-прежнему хотят получать руководство от людей при жизненно важных решениях. Это свидетельствует о том, что ИИ должен дополнять, а не заменять человеческую экспертизу.
Авторы исследования призывают к проспективным испытаниям для оценки ИИ в условиях реального ухода за пациентами. Такие испытания предоставят более весомые доказательства эффективности, безопасности ИИ и его влияния на результаты лечения пациентов.
Проспективные испытания также помогут выявить потенциальные подводные камни, такие как алгоритмическая предвзятость или чрезмерная зависимость от ИИ. Они предоставят данные о том, как ИИ работает среди разнообразных групп пациентов и клинических сценариев.
Исследователи планируют продолжить свою работу, расширив исследование за счёт включения большего числа пациентов и клинических центров. Они также стремятся протестировать модели ИИ на нетекстовых данных, таких как медицинские изображения и результаты лабораторных анализов.
Для пациентов это исследование даёт надежду на более точную и своевременную диагностику. Для врачей оно открывает возможность использовать ИИ в качестве инструмента поддержки принятия решений. Однако обе группы должны подходить к ИИ с реалистичными ожиданиями.
ИИ не является заменой человеческого суждения. Это инструмент, который может повысить точность диагностики, особенно в ситуациях высокого давления, таких как отделение скорой помощи. Ключевым является ответственная интеграция ИИ, обеспечивающая его дополнение, а не подрыв клинической экспертизы.
Гарвардское исследование представляет убедительные доказательства того, что ИИ ставит более точные диагнозы, чем врачи скорой помощи, в определённых контекстах. Модель o1 OpenAI превзошла врачей-людей по точности сортировки, продемонстрировав потенциал больших языковых моделей в здравоохранении. Однако исследование также подчёркивает необходимость тщательной оценки, этических систем и проспективных испытаний, прежде чем ИИ сможет широко применяться в клинических условиях. По мере развития ИИ его роль в медицине, вероятно, будет расширяться, однако человеческий надзор остаётся необходимым для безопасности пациентов и доверия.
В1: Как гарвардское исследование сравнивало ИИ и врачей-людей?
О1: Исследователи сравнивали диагнозы моделей o1 и 4o OpenAI с диагнозами двух лечащих врачей в 76 случаях скорой помощи. Два других врача оценивали диагнозы, не зная их источника.
В2: Какова была точность модели ИИ в исследовании?
О2: Модель o1 поставила точный или очень близкий диагноз в 67% случаев сортировки, по сравнению с 55% и 50% у двух врачей-людей.
В3: Готов ли ИИ заменить врачей скорой помощи?
О3: Нет. Исследование не утверждает, что ИИ готов к реальным клиническим решениям. Оно призывает к проспективным испытаниям и подчёркивает необходимость человеческого надзора и ответственности.
В4: Каковы ограничения ИИ в медицинской диагностике?
О4: Современные модели ИИ ограничены текстовой информацией и могут не так хорошо работать с нетекстовыми данными, такими как медицинские изображения или показатели жизнедеятельности пациента. Исследование также отмечает отсутствие формальных систем ответственности.
В5: Что это означает для будущего здравоохранения?
О5: ИИ имеет потенциал для улучшения точности диагностики и поддержки клинического принятия решений. Однако необходимы тщательная интеграция, этические рекомендации и дальнейшие исследования перед широким внедрением.
Эта публикация «Точность диагностики ИИ превосходит врачей скорой помощи в новаторском исследовании Гарварда» впервые появилась на BitcoinWorld.


