Крупнейшие чат-боты начали предоставлять в два раза больше неверной информации. По словам специалистов, процент ложных ответов увеличился с 18 до 35%, несмотря на развитие технологий и использование онлайн-поиска. В материале «Известий» рассказывается, почему искусственный интеллект стал ошибаться чаще, каковы опасности такой тенденции и какие меры актуальны для устранения проблемы.
Что известно о росте фейковых ответов в нейросетях?Исследователи из американской компании NewsGuard зафиксировали увеличение объема недостоверных данных в популярных чат-ботах, включая ChatGPT и Perplexity. Согласно данным специалистов, несмотря на технические улучшения и подключение веб-поиска, доля ложной информации в их ответах выросла с 18% до 35%.
В рамках исследования было протестировано 10 популярных моделей искусственного интеллекта. Каждой из них задали по 10 преднамеренно ложных утверждений, касающихся бизнеса, брендов и политических событий. Запросы классифицировались на три группы: предполагающие правдивость, нейтральные и провокационные. Цель эксперимента — оценить, как нейросети справляются с фактчекингом и сопротивляются дезинформации.
Рост уровня ложных ответов по моделям распределился так:
- Чат-бот Pi (стартап Inflection) — до 57%;
- Perplexity (Perplexity AI) — с 0 до 47%;
- ChatGPT (Open AI) — с 33 до 40%;
- Grok (xAI) — с 13 до 33%;
- Gemini (Google) — 17%;
- Claude (Anthropic) — 10%.
Аналитики NewsGuard связывают ухудшение показателей с тем, что современные нейросети отвечают на любые запросы без достаточной проверки достоверности, хотя в 2024 году они отказывались отвечать примерно в 31% случаев.
Это мнение подтверждает директор направления Data Fusion Лиги цифровой экономики Александр Кобозев.
— Ситуация усугубляется поиском по вебу без строгой проверки качества источников. Наличие ссылок не гарантирует правдивость, так как модели нередко берут данные с сайтов-копий или псевдо-СМИ, принимая их за надежные ресурсы, — поясняет эксперт.
Плюс к этому добавляются целенаправленные кампании по «дрессировке» ИИ, известные как LLM grooming. Они предполагают массовое размещение материалов, ориентированных на поисковые алгоритмы, с целью увеличить вероятность включения ложных данных в ответ ИИ.
Особенно высока уязвимость при многоязычном использовании: согласно аудиту NewsGuard, наибольшее число ошибок и отказов приходится на запросы на русском и китайском языках — более 50% вместе.
К тому же современный контент все чаще создается при помощи ИИ — дипфейки, статьи и посты в соцсетях и мессенджерах, добавляет ведущий эксперт по сетевой безопасности и web-разработчик компании «Код Безопасности» Константин Горбунов.
— Нейросети способны генерировать тексты практически по любой теме. Подключение веб-поиска и снижение числа отказов от ответов означают, что модели обучаются на собственной выдаче. Этот механизм сравним с «испорченным телефоном», — объясняет он.
Техническая сущность проблемы заключается в архитектуре больших языковых моделей, которые предсказывают следующее слово на базе статистики, а не реального осознания контекста, отмечает директор по ИИ «Группы Астра» Станислав Ежов.
Перспективы изменений ситуации с фейковыми ответами ИИСложность проблемы обусловлена комплексным характером, поэтому она может сохраняться длительное время, делится с «Известиями» AI-консультант и эксперт Аналитического центра кибербезопасности компании «Газинформсервис» Татьяна Буторина.
— Многие разработчики стремятся быстро выпустить нейросетевые модели, обучая их на ограниченных данных, содержащих как правдивую, так и ложную информацию. Это напрямую влияет на качество ответов, — поясняет она.
Более того, по словам Буториной, чем специфичнее и новее тема запроса, тем меньше данных доступно для формирования ответа, что увеличивает риск выдуманных нейросетью ответов. Ситуация усугубляется при недостаточно точных или грамотно сформулированных промптах, использовании сленга и другого «словесного шума», мешающих правильному восприятию запроса.
В то же время специалист по кибербезопасности компании Angara Security Никита Новиков уверен, что со временем рынок подтолкнет корпорации к улучшению качества нейросетей. Компании не смогут позволить себе систематические ошибки в трети ответов. Появятся усовершенствованные фильтры, системы проверки фактов и доверенные источники.
— Снизить количество фейковых ответов поможет возврат к более строгим фильтрам отказа и внедрение инструментов проверки источников. В частности, важно сопоставлять данные с базами ложных нарративов, — подтверждает Александр Кобозев.
Пользователи хотят получить ответ на любой запрос, что стимулирует разработчиков снижать осторожность моделей, дополняет Станислав Ежов. Однако уже реализуются активные меры для решения проблемы, в том числе российские методы выявления «галлюцинаций» ИИ с точностью на 30% выше существующих аналогов.
Какие меры помогут защититься от ложных ответов нейросетей?Большинство пользователей обращается к ИИ, когда не могут самостоятельно проверить информацию, отмечает управляющий партнер коммуникационного агентства «Со-общение» Никита Степнов. Это делает ложные ответы опасными в самых разных сферах — от запуска вредоносного кода до приёма лекарств с риском для здоровья.
— Чтобы минимизировать риски, пользователям стоит критически относиться к ответам ИИ и всегда проверять их достоверность. Нужно понимать, где использование искусственного интеллекта приемлемо, а где его применение нежелательно, — советует Константин Горбунов.
Особенно важно не доверять ИИ в вопросах здоровья, приема медикаментов, финансового и юридического характера — такие проблемы нужно обсуждать только с профессионалами. Кроме того, нельзя передавать чат-ботам конфиденциальные данные при любых обстоятельствах.
С технической точки зрения выходом может стать создание доверенных ИИ-систем и интеграция нейросетей с системами проверки фактов, добавляет Никита Новиков. Это предполагает генерацию текста нейросетью и последующую проверку специальными модулями или дополнительным уровнем ИИ, обученным на критическом анализе.
— Возможна также маркировка уровня уверенности модели: сомнительные данные не объявлять за факт, а информировать пользователя, что это гипотеза. Еще один шаг — прозрачность источников: если ответ основан на конкретных ссылках, пользователь может самостоятельно проверить достоверность, — отмечает эксперт.
Кроме того, возможна маркировка сгенерированного ИИ-контента, что позволит либо исключать такой материал из обучающих выборок, либо снижать к нему доверие при обучении новых моделей, заключает Константин Горбунов.