Nature: ИИ не готов для здравоохранения


Фото: ИЗВЕСТИЯ/Юлия Майорова

ИИ-отличник, но плохой врач

В последние годы технологии искусственного интеллекта совершили революционный скачок в сфере здравоохранения. Современные нейросетевые модели научились расшифровывать рентгенограммы, обнаруживать новообразования, формировать врачебные заключения и даже успешно сдавать квалификационные тесты, предназначенные для будущих докторов. На этом фоне все чаще высказываются предположения, что уже в скором времени ИИ вытеснит часть медперсонала. Однако научное сообщество советует не спешить с подобными утверждениями. Свежая научная работа продемонстрировала: блестящие показатели искусственного интеллекта на экзаменах вовсе не гарантируют, что ему можно поручить терапию живых людей. О том, почему медицинские нейросети пока остаются лишь ассистентами врачей и какие барьеры мешают их полноценной интеграции в клиническую практику, — в обзоре «Известий».

Почему отличная оценка на тесте еще не делает ИИ компетентным доктором

За прошедшие два года крупные языковые модели не раз становились центральными фигурами резонансных публикаций. Одни безупречно преодолевали американский лицензионный экзамен USMLE, другие показывали производительность, сравнимую с заключениями квалифицированных врачей при ответах на клинические запросы. Эти успехи создали впечатление, что искусственный интеллект уже почти способен работать с больными автономно. Но создатели нового исследования в журнале Nature Medicine полагают, что именно такое мышление сейчас выступает одним из ключевых заблуждений при анализе медицинского ИИ.

Авторы акцентируют внимание на дилемме, обозначаемой термином «benchmark ≠ readiness» («эталон ≠ готовность») — иначе говоря, триумфальное решение тестов еще не свидетельствует о пригодности к труду в реальном стационаре. Большинство нынешних систем оценки базируется на заблаговременно скомпонованных задачах, где присутствует однозначный ответ. Подлинная же медицина устроена принципиально иначе: больные нечасто описывают жалобы строго по справочнику, патологии способны маскироваться друг под друга, лабораторные данные могут противоречить одно другому, а специалисту регулярно требуется действовать в обстановке нехватки сведений.

Исследователи проводят аналогию с экзаменом для летчика: человек способен безукоризненно ответить на вопросы об аэродинамике и навигационных приборах, но это еще не подтверждает, что он сумеет посадить лайнер в грозу. По их суждению, с медицинским искусственным интеллектом творится похожая картина: алгоритмы превосходно справляются с типовыми задачами, однако настоящая врачебная деятельность нуждается в гораздо более сложных навыках — способности оперировать в условиях неопределенности, непредвиденных факторов и индивидуальных характеристик каждого больного.

Поэтому ученые предлагают отойти от традиционного подхода, где эффективность ИИ измеряется лишь долей корректных ответов. Взамен они рекомендуют тестировать модели в обстановке, предельно имитирующей реальную работу доктора: анализировать, как алгоритмы кооперируются с медперсоналом, реагируют на фрагментарные данные, разъясняют свои заключения и функционируют в нештатных обстоятельствах.

Ключевая сложность — медицина не схожа с экзаменом

В числе наиболее критичных проблем современных нейросетей остаются так именуемые галлюцинации — моменты, когда модель самоуверенно продуцирует сведения, не соответствующие реальности. В обыденной жизни такая оплошность может обернуться некорректным пересказом публикации или выдуманной ссылкой на научный труд. В здравоохранении же цена подобной неточности становится значительно весомее: алгоритм способен придумать несуществующий медикамент, ошибиться в дозировке или процитировать клинические гайдлайны, которых никогда не было.

Не менее весомой трудностью эксперты именуют искажение выборки данных, на которых обучаются системы. Если алгоритм изучал главным образом истории пациентов конкретной возрастной группы, пола или этнической принадлежности, его безошибочность может существенно снижаться при взаимодействии с иными группами лиц. По данной причине многие профессионалы утверждают, что медицинский ИИ надлежит испытывать на предельно разнородных сведениях до его развертывания в стационарах.

Еще одной характеристикой искусственного интеллекта выступает то, что он практически не транслирует сомнений. Не в пример доктору, который способен заказать вспомогательные обследования или отправить больного к узкому специалисту, языковая модель нередко выстраивает ответ так, словно абсолютно не сомневается в собственной правоте. По воззрению авторов статей в Nature Medicine, непосредственно эта «мнимая непогрешимость» причисляется к самым угрожающим чертам теперешних нейросетей, поскольку человеку тяжело осознать, в чем алгоритм вправду компетентен, а в чем лишь искусно заблуждается.

Наконец, врачебное дело — это не только разбор симптоматики и установление диагноза. Доктору требуется принимать во внимание душевное состояние больного, растолковывать непростые постановления родным, улавливать нюансы, не поддающиеся оцифровке, и брать на себя груз ответственности за принятое решение. Покамест ни одна языковая модель не в силах всецело воссоздать эту сторону клинической деятельности. Собственно, поэтому преобладающая часть ученых нынче воспринимает искусственный интеллект не как замену специалисту, а как инструмент, способный помочь врачу стремительнее обрабатывать информацию, но не долженствующий выносить итоговые заключения автономно.

Почему масса изысканий покамест ничего не обосновывают

Не глядя на бурное развитие медицинского искусственного интеллекта, исследователи доныне не могут однозначно разрешить центральный вопрос: вправду ли такие системы совершенствуют здоровье пациентов. Корень проблемы в том, что превалирующая доля работ тестирует функционирование алгоритмов в синтетической среде — на вопросах тестов, заблаговременно сформированных клинических эпизодах или коллекциях медицинских изображений. До живой практики доходит лишь малая толика схожих разработок.

Подтверждением служит всеобъемлющий обзор, также размещенный в Nature Medicine ранее. Ученые подвергли анализу 4609 научных трудов, касающихся больших языковых моделей в практической медицине. Обнаружилось, что львиная доля исследований оценивали умения ИИ в симуляторах или гипотетических сценариях. Настоящие больные фигурировали лишь приблизительно в четверти работ, а подлинных рандомизированных клинических испытаний — золотого стандарта передовой медицины — эксперты отыскали лишь 19.

По их мнению, сложившаяся ситуация схожа с апробацией свежего лекарства исключительно в лабораторных пробирках: даже если субстанция идеально действует in vitro, этого недостает для выписки ее миллионам людей. Препарат призван миновать несколько ступеней клинических изысканий, подтвердить безвредность, результативность и лишь после данного этапа оказаться в больницах. Авторы думают, что медицинский ИИ испытывает нужду в столь же неукоснительной системе верификации, ибо цена просчета в медицине непомерно высока.

Именно оттого в недавние годы ученые взялись за разработку специальных интернациональных руководств по инкорпорированию искусственного интеллекта в клиническую деятельность. Одним из схожих начинаний выступил проект DECIDE-AI, выдвигающий унифицированные правила апробации медицинских алгоритмов до их применения в стационарах. Эксперты убеждены, что нейросети призваны подвергаться пошаговой верификации — от стендовых экспериментов до функционирования в фактических клиниках под неизменным надзором профессионалов. По существу, дискутируется о выстраивании для ИИ той же архитектуры тестирования, какая уже функционирует для оригинальных фармпрепаратов и медицинского оборудования.

Способен ли ИИ когда-либо сделаться доктором

При всем при этом сами исследователи отнюдь не воспринимают искусственный интеллект как бесперспективную технологию. Наоборот, уже в настоящее время нейросети ассистируют врачам в обнаружении новообразований на КТ, стремительнее расшифровывают рентгенограммы, идентифицируют проявления диабетической ретинопатии, разыскивают орфанные болезни и автоматизируют составление врачебной документации. Во многих операциях ИИ способен кардинально уменьшить время анализа данных и понизить нагрузку на профессионалов.

Однако практически все нынешние изыскания сходятся в едином воззрении: на теперешней стадии эволюции искусственный интеллект призван оцениваться преимущественно как средство саппорта принятия постановлений, а не как автономный актор лечебного процесса. Финальный диагноз, выбор тактики терапии и груз ответственности за больного все так же остаются прерогативой доктора, который способен принимать в расчет массу переменных, недосягаемых для алгоритма, — от характерных особенностей протекания недуга до душевного самочувствия человека и деталей коммуникации с его родными.

Авторы свежей публикации в Nature Medicine выделяют: центральная миссия грядущих лет состоит не в том, чтоб натаскать нейросети еще виртуознее отвечать на тестовые задания, а в созидании оригинальных методик верификации их безотказности в подлинной медицине. Искусственный интеллект призван выказывать не только превосходную точность, но и резистентность к фрагментарным сведениям, умение корректно кооперироваться с врачами, разъяснять собственные умозаключения и безопасно оперировать в самых многообразных клинических обстоятельствах.

Летопись медицины уже неоднократно иллюстрировала, что даже наиболее многообещающие технологии испытывают нужду в долговременной апробации, раньше чем сделаться компонентом будничной деятельности. Искусственный интеллект, по всей вероятности, тоже минует данный маршрут. Сейчас он уже способен весомо упростить труд врачей, но до рубежа, когда алгоритму возможно станет беспрекословно препоручить человеческое существование, наука, по воззрению самих экспертов, покамест не добралась. Выдающийся балл на экзамене очутился только стартовым этапом — впереди у медицинского ИИ намного более трудоемкая проверка: столкновение с настоящим пациентом.