Новый алгоритм быстро выявляет фейковые масляные картины в Сети


Фото: ИЗВЕСТИЯ/Юлия Майорова

Российские учёные создали ИИ для обнаружения нелогичных и фейковых изображений.

В России был предложен новый способ анализа изображений, позволяющий обнаруживать несоответствия между отдельными элементами картинок, а также выявлять нарушения здравого смысла. Центральным элементом данной технологии выступает алгоритм искусственного интеллекта, основанный на работе с текстовыми описаниями изображений. Применение данного метода повышает точность обработки визуальных данных и снижает затраты на вычисления. Ученые считают, что разработка будет полезна для выявления поддельных фото, анализа спутниковых снимков, распознавания рукописного текста и в других областях.

Принцип распознавания изображений

Российские исследователи создали оригинальный и ресурсосберегающий способ выявления скрытых противоречий в изображениях. Метод позволяет быстро определять визуальные данные, не соответствующие здравому смыслу. В разработке участвовали специалисты из Института AIRI, Сколтеха, центра компетенций MWS AI и Московского физико-технического института.

— Представьте картинку, где средневековый рыцарь держит мобильный телефон или пингвин едет на велосипеде. Человек сразу понимает, что, хотя все объекты по отдельности выглядят правдоподобно, в целом изображение кажется странным. Мозг автоматически соотносит увиденное с накопленными знаниями о мире и находит несоответствия. Для искусственного интеллекта это гораздо более трудная задача, — пояснил в интервью «Известиям» один из авторов проекта, доктор компьютерных наук Александр Панченко, руководитель групп «Вычислительная семантика» в AIRI и NLP в Сколтехе.

Он отметил, что современные системы хорошо распознают отдельные объекты — например, рыцаря, телефон, велосипед или пингвина. Однако им сложно определить, насколько эти объекты совместимы друг с другом с точки зрения логики и здравого смысла. Решая эту задачу, исследователи предложили не анализировать само изображение, а обрабатывать его текстовое описание с помощью ИИ-алгоритмов.

Сначала модель ИИ генерирует простые утверждения о каждом элементе изображения, буквально перечисляя увиденное. Чтобы предоставить многоаспектное описание картинки без повторений, система выбирает максимально непохожие по содержанию фразы, рассказал ученый.

На следующем этапе специальная нейросетевая языковая модель преобразует эти фразы в числовые последовательности — векторы, при этом предложения, близкие по смыслу, получают похожие числовые представления. Это позволяет математически сопоставлять смысл различных утверждений о картинке.

Данный способ обработки требует значительно меньше ресурсов для расчетов, чем традиционные визуальные алгоритмы, обучающиеся на большом количестве заранее размеченных данных.

На заключительном этапе система автоматически сравнивает числовые векторы и при обнаружении существенных различий делает вывод, что изображение является противоречивым или странным. При отсутствии значительных различий картинка считается нормальной.

— Следовательно, если ввести нестандартное изображение, система начинает выдавать друг другу противоречивые описания. Например, для фото с рыцарем фраза «рыцарь держит телефон» обнаружит расхождение. Это помогает выявить странности картинки. Далее подобные моменты можно зафиксировать, используя методы классификации противоречий, модели семантической последовательности и другие подходы, — объяснил Александр Панченко.

По его словам, этот метод уже протестировали на реальных изображениях из библиотек, применяемых для проверки программного обеспечения. Новая система показала точность, превышающую результаты популярных моделей на 0,5–15% в зависимости от конкретного набора данных. При этом она оказалась существенно экономичнее в плане вычислительных затрат.

Возможные сферы применения ИИ-анализа изображений

Предложенная технология открывает путь к созданию более надежных систем компьютерного зрения и может применяться в службах модерации контента. Например, после дополнительного обучения на специализированных данных программное обеспечение сможет выявлять сфабрикованные фото, отражающие недостоверные факты, отметил Александр Панченко.

— Современный мир переполнен визуальным контентом. В условиях развития генерации изображений с помощью ИИ и создания фейков люди все меньше могут доверять увиденному. Подобные подложные изображения становятся нормой. Поэтому разработка таких алгоритмов — это не только научный прорыв, но и важнейший вопрос доверия к информации, — рассказала «Известиям» доцент, руководитель научно-учебной лаборатории систем искусственного интеллекта Сибирского федерального университета Анна Пятаева.

Она подчеркнула, что в данном исследовании заметен сдвиг от простого распознавания объектов к пониманию смысловой нагрузки изображения. Это решение приближает ИИ к человеческому восприятию — теперь он не просто видит, но осознает, что на картинке не так. Помимо очевидных сфер применения, таких как модерация и проверка подлинности изображений, технология в будущем будет полезна и на производстве — например, для контроля качества, экологического мониторинга с помощью спутников и распознавания рукописных или исторических документов.

Кроме того, предложенный подход пригодится для оценки качества синтетических изображений, которые имитируют статистические характеристики настоящих картин, но не отображают конкретных объектов или событий, добавил заведующий кафедрой «Вычислительная техника» Пензенского государственного университета, доктор технических наук Максим Митрохин. Такие данные широко применяются в алгоритмах машинного обучения.

— Определение «странностей» на фото или видео — один из методов выявления материалов, сгенерированных искусственным интеллектом. В то же время в индустрии до сих пор существует дискуссия о том, нужно ли распознавать изменения, внесенные ИИ в изображения, и какой уровень вмешательства считать достаточным, чтобы обозначить материал как сгенерированный, — отметила заместитель директора по продуктам компании VisionLabs Татьяна Дешкина.

По ее мнению, в ближайшем будущем креативные работы, созданные без применения ИИ, вероятно, начнут маркировать специальными символами, аналогично товарам с пометкой «без ГМО». Для такой идентификации потребуется разработка стандартов и нормативов, чтобы не вводить потребителей в заблуждение.

— Обработка текстовой информации в целом требует меньше ресурсов, чем анализ изображений. Поэтому проверка реалистичности фото через перевод смысла в текстовую форму — вполне реальна, — подчеркнул ML-бренд-директор «Яндекса» Петр Ермаков.

Однако специалист предупредил, что перевод визуальной информации в текстовый формат необратим. Даже самое детальное описание не способно полноценно передать все визуальные детали, оставляя пространство для различного толкования, — резюмировал он.