Нейросети все чаще дают фейковые ответы: над пропастью из лжи


Фото: ИЗВЕСТИЯ/Сергей Лантюхов

Чат-боты стали в два раза чаще давать ложные ответы, узнай почему и как защититься

Крупнейшие чат-боты начали предоставлять в два раза больше неверной информации. По словам специалистов, процент ложных ответов увеличился с 18 до 35%, несмотря на развитие технологий и использование онлайн-поиска. В материале «Известий» рассказывается, почему искусственный интеллект стал ошибаться чаще, каковы опасности такой тенденции и какие меры актуальны для устранения проблемы.

Что известно о росте фейковых ответов в нейросетях?

Исследователи из американской компании NewsGuard зафиксировали увеличение объема недостоверных данных в популярных чат-ботах, включая ChatGPT и Perplexity. Согласно данным специалистов, несмотря на технические улучшения и подключение веб-поиска, доля ложной информации в их ответах выросла с 18% до 35%.

В рамках исследования было протестировано 10 популярных моделей искусственного интеллекта. Каждой из них задали по 10 преднамеренно ложных утверждений, касающихся бизнеса, брендов и политических событий. Запросы классифицировались на три группы: предполагающие правдивость, нейтральные и провокационные. Цель эксперимента — оценить, как нейросети справляются с фактчекингом и сопротивляются дезинформации.

Рост уровня ложных ответов по моделям распределился так:

  • Чат-бот Pi (стартап Inflection) — до 57%;
  • Perplexity (Perplexity AI) — с 0 до 47%;
  • ChatGPT (Open AI) — с 33 до 40%;
  • Grok (xAI) — с 13 до 33%;
  • Gemini (Google) — 17%;
  • Claude (Anthropic) — 10%.
Причины увеличения количества неверных ответов у чат-ботов

Аналитики NewsGuard связывают ухудшение показателей с тем, что современные нейросети отвечают на любые запросы без достаточной проверки достоверности, хотя в 2024 году они отказывались отвечать примерно в 31% случаев.

Это мнение подтверждает директор направления Data Fusion Лиги цифровой экономики Александр Кобозев.

— Ситуация усугубляется поиском по вебу без строгой проверки качества источников. Наличие ссылок не гарантирует правдивость, так как модели нередко берут данные с сайтов-копий или псевдо-СМИ, принимая их за надежные ресурсы, — поясняет эксперт.

Плюс к этому добавляются целенаправленные кампании по «дрессировке» ИИ, известные как LLM grooming. Они предполагают массовое размещение материалов, ориентированных на поисковые алгоритмы, с целью увеличить вероятность включения ложных данных в ответ ИИ.

Особенно высока уязвимость при многоязычном использовании: согласно аудиту NewsGuard, наибольшее число ошибок и отказов приходится на запросы на русском и китайском языках — более 50% вместе.

К тому же современный контент все чаще создается при помощи ИИ — дипфейки, статьи и посты в соцсетях и мессенджерах, добавляет ведущий эксперт по сетевой безопасности и web-разработчик компании «Код Безопасности» Константин Горбунов.

— Нейросети способны генерировать тексты практически по любой теме. Подключение веб-поиска и снижение числа отказов от ответов означают, что модели обучаются на собственной выдаче. Этот механизм сравним с «испорченным телефоном», — объясняет он.

Техническая сущность проблемы заключается в архитектуре больших языковых моделей, которые предсказывают следующее слово на базе статистики, а не реального осознания контекста, отмечает директор по ИИ «Группы Астра» Станислав Ежов.

Перспективы изменений ситуации с фейковыми ответами ИИ

Сложность проблемы обусловлена комплексным характером, поэтому она может сохраняться длительное время, делится с «Известиями» AI-консультант и эксперт Аналитического центра кибербезопасности компании «Газинформсервис» Татьяна Буторина.

— Многие разработчики стремятся быстро выпустить нейросетевые модели, обучая их на ограниченных данных, содержащих как правдивую, так и ложную информацию. Это напрямую влияет на качество ответов, — поясняет она.

Более того, по словам Буториной, чем специфичнее и новее тема запроса, тем меньше данных доступно для формирования ответа, что увеличивает риск выдуманных нейросетью ответов. Ситуация усугубляется при недостаточно точных или грамотно сформулированных промптах, использовании сленга и другого «словесного шума», мешающих правильному восприятию запроса.

В то же время специалист по кибербезопасности компании Angara Security Никита Новиков уверен, что со временем рынок подтолкнет корпорации к улучшению качества нейросетей. Компании не смогут позволить себе систематические ошибки в трети ответов. Появятся усовершенствованные фильтры, системы проверки фактов и доверенные источники.

— Снизить количество фейковых ответов поможет возврат к более строгим фильтрам отказа и внедрение инструментов проверки источников. В частности, важно сопоставлять данные с базами ложных нарративов, — подтверждает Александр Кобозев.

Пользователи хотят получить ответ на любой запрос, что стимулирует разработчиков снижать осторожность моделей, дополняет Станислав Ежов. Однако уже реализуются активные меры для решения проблемы, в том числе российские методы выявления «галлюцинаций» ИИ с точностью на 30% выше существующих аналогов.

Какие меры помогут защититься от ложных ответов нейросетей?

Большинство пользователей обращается к ИИ, когда не могут самостоятельно проверить информацию, отмечает управляющий партнер коммуникационного агентства «Со-общение» Никита Степнов. Это делает ложные ответы опасными в самых разных сферах — от запуска вредоносного кода до приёма лекарств с риском для здоровья.

— Чтобы минимизировать риски, пользователям стоит критически относиться к ответам ИИ и всегда проверять их достоверность. Нужно понимать, где использование искусственного интеллекта приемлемо, а где его применение нежелательно, — советует Константин Горбунов.

Особенно важно не доверять ИИ в вопросах здоровья, приема медикаментов, финансового и юридического характера — такие проблемы нужно обсуждать только с профессионалами. Кроме того, нельзя передавать чат-ботам конфиденциальные данные при любых обстоятельствах.

С технической точки зрения выходом может стать создание доверенных ИИ-систем и интеграция нейросетей с системами проверки фактов, добавляет Никита Новиков. Это предполагает генерацию текста нейросетью и последующую проверку специальными модулями или дополнительным уровнем ИИ, обученным на критическом анализе.

— Возможна также маркировка уровня уверенности модели: сомнительные данные не объявлять за факт, а информировать пользователя, что это гипотеза. Еще один шаг — прозрачность источников: если ответ основан на конкретных ссылках, пользователь может самостоятельно проверить достоверность, — отмечает эксперт.

Кроме того, возможна маркировка сгенерированного ИИ-контента, что позволит либо исключать такой материал из обучающих выборок, либо снижать к нему доверие при обучении новых моделей, заключает Константин Горбунов.