Мяуканье с эмоциями поможет создать эмпатичный ИИ


Фото: Global Look Press/Janus/imageBROKER.com

ИИ научился слышать и передавать эмоции — даже в кошачьем мяуканье

Российские исследователи разработали технологию, позволяющую искусственному интеллекту не только передавать эмоции через голос, но и распознавать их по интонации собеседника. Для этого учёные проанализировали эмоциональные выкрики людей и выделили их акустические признаки. Эффективность предложенного подхода была подтверждена экспериментально: нейтральное кошачье мяуканье трансформировали в звуки с разными эмоциональными оттенками, которые большинство людей сумело правильно интерпретировать. Авторы намерены применять эту технологию при обучении ИИ, а также при создании методик, помогающих пациентам с аутизмом лучше распознавать и понимать эмоции. Эксперты также видят потенциал метода для усиления эмоционального воздействия в кинематографе.

Мяуканье с эмоциональной окраской

В экспериментах специалисты Сколтеха и Института высшей нервной деятельности и нейрофизиологии РАН выделили физические параметры звуков, характерные для смеха, плача и испуга. Они также нашли акустические маркеры искренности этих состояний. Чтобы проверить полученные выводы, исследователи по разработанным признакам придали нейтральному кошачьему мяуканью различные эмоциональные окраски. Большинство участников эксперимента распознало в модифицированных звуках радость, грусть и страх. Выявленные характеристики можно использовать для обучения ИИ выражать эмоции голосом и распознавать их по интонации человека, а также для создания технологий, помогающих людям с аутизмом и шизофренией лучше взаимодействовать с окружающими.

Фото: Галина Портнова Галина Портнова

— Мы исследовали невербальные звуки плача, смеха и испуг и при помощи сложных атематических методов выявили их специфические физические характеристики. Это показатели громкости, частотного спектра, степень хаотичности и другие. Радостные вокализации характеризовались более высокими фрактальными размерностями, а грустные звуки отличались громкостью и сниженной акустической изменчивостью. Вокализации страха идентифицировались по их минимальному и максимальному уровням громкости и повышенной спектральной плотности мощности в диапазоне 1–2 кГц. Искренность в невербальных звуках коррелировала с нелинейными характеристиками, — сказала ведущий научный сотрудник лаборатории Высшей нервной деятельности человека института РАН Галина Портнова.

Учёные собрали видеоматериалы с естественными ситуациями, в которых люди испытывали эти эмоции, и из них выделили 664 звука. После того как исследователи определили отличительные признаки каждого переживания, они проверили, как эти параметры влияют на восприятие, записав ряд мяуканий и придав им характеристики радости, печали и страха.

— Люди склонны «очеловечивать» изображения и звуки. Например, в неодушевленных предметах узнавать лица или в криках животных слышать какие-то чувства. Кошки научились модифицировать свои естественные вокализации так, чтобы они были похожи на человеческие. Поэтому мы решили использовать их в экспериментах, — рассказала специалист.

Фото: Галина Портнова Кошка Дуся

Исследователи прикрепили микрофон к домашней кошке Дусе и в течение двоих суток записали её мяуканье во взаимодействии с человеком, когда звук был максимально нейтральным и животное не испытывало страха. Затем эти записи подвергли модификации с помощью найденных алгоритмов. В результате получили версии мяуканья с радостной, испуганной и грустной окраской, которые продемонстрировали экспертам.

— 80% хорошо узнавали радостное мяуканье, узнавание грусти и испуга было чуть меньше, но тоже значимым. Так как изначальный звук был нейтральным, то эксперимент подтвердил нашу гипотезу об акустических характеристиках, специфичных для каждой эмоции, — сказала Галина Портнова.

Применение технологии

Поскольку исследователям удалось выделить для каждой эмоции параметры звука, указывающие на её искренность, эти данные можно применять и в системах оперативной оценки правдивости человека. В следующем этапе авторы планируют серию испытаний с пациентами с аутизмом, шизофренией и депрессией, чтобы обучить их распознавать чувства собеседников.

— Наше исследование показывает, что человек воспринимает некие универсальные характеристики звука для распознавания эмоциональной окраски поступающей информации. Более того, эти характеристики присущи звукам в целом, а не только воспринимаемой человеческой речи. Далее мы можем перенести найденные характеристики, например методами генеративного ИИ, на любые другие изначально нейтральные звуки и вызвать нужные эмоции у человека, слушающего запись, — сказал старший преподаватель Центра искусственного интеллекта Сколтеха Максим Шараев.

Такая методика найдёт применение в клинике и при психофизиологических исследованиях, но, по словам автора, она может также пригодиться и, например, в индустрии развлечений.

— Наработки, улучшающие взаимопонимание ИИ и человека, ведут нас к прогрессу. Но не совсем понятно, до какой степени он может быть чувствителен к эмоциям. Это исследование описывает только базовые эмоции, но из них строятся сложные эмоции, а с ними всё не так однозначно. Пока машина не умеет разбираться в таких нюансах, — сказала научный сотрудник Института психологии РАН Ирина Ветрова.

По её мнению, технология, подсказывающая чувства окружающих, могла бы оказаться полезной для отдельных групп пациентов. Спрос на подобные устройства есть, но важно рассматривать ИИ как вспомогательный инструмент, а не как окончательный источник оценок.

Как пояснил «Известиям» специалист по коммуникационным системам и кибернетическим эмоциональным системам Артемий Котов, исследования влияния эмоциональной окраски голоса на качество диалога между человеком и машиной ведутся уже несколько десятилетий. И верно подобранные параметры действительно способны облегчить такое взаимодействие.

— Это нужно и полезно. Эмоции опознаются человеком, вопрос в том, где и как их правильно должен выражать робот. Распознавание машиной чувств человека тоже важно. Но проблема в том, что у людей нужно разделять испытываемые эмоции и выражаемые. Это очень тонкая грань, и объяснить ее компьютеру может быть слишком сложно, — отметил он.

По мнению генерального продюсера кинокомпании RED MOON CINEMA Саида Дашука, отмеченные звуковые параметры могут служить дополнительным средством для придания голосам актёров в фильмах большей эмоциональной выразительности.

— Это вполне реально, так как ИИ хорошо анализирует и обучается на голосовых примерах. Он может выявлять паттерны тех или иных характеристик звука. Теоретически это реально, но нужно проверять на практике. Усиление эмоциональных акцентов в голосе было бы очень интересно создателям кино, чтобы подчеркнуть, например, радость или смех, — сказал эксперт.

По его словам, это можно сопоставить с эффектом «25-го кадра», однако последний слишком явен и легко заметен. Тонкая настройка звука остаётся незаметной для зрителя и, воздействуя на подсознание, может оказывать более сильный эффект.

Лента

Все новости