Учёные в РФ научили нейросеть работать при нехватке данных


Фото: ИЗВЕСТИЯ/Юлия Майорова

Как казанские учёные научили ИИ делать выводы на основе крошечных данных

Российские специалисты создали способ, который даёт возможность системам искусственного интеллекта делать выводы и принимать решения при нехватке исходных данных. Метод, предложенный исследователями из Казани, помогает максимально быстро извлекать уникальную информацию из общего массива. В частности, новый подход уже использовали для оценки качества питьевой воды, опираясь на небольшую выборку анализов крови детей. По словам разработчиков, это помогло в принятии мер по улучшению состояния воды. О принципах работы российской разработки — в материале ниже.

Почему ИИ ошибается при недостатке данных

При ограниченном объеме сведений вычислительные модели на базе искусственного интеллекта нередко дают ненадежные выводы. Причина в том, что такие модели не ведут критического анализа, а ориентируются на статистически наиболее вероятные ответы. При небольшой базе данных нейросети теряют устойчивость.

Решая эту проблему, ученые из Казанского национального исследовательского технического университета им. А.Н. Туполева — КАИ предложили новый метод построения моделей, в котором в работу ИИ интегрированы элементы, похожие на «детективные» техники.

— На практике есть задачи, где получение сведений связано с ограничениями физического, юридического и иного рода. Например, это относится к персональным данным, — рассказала один из разработчиков, профессор кафедры прикладной математики и информатики КНИТУ-КАИ Светлана Новикова. — Также некоторые материалы тяжело получить в силу их труднодоступности. В частности, с глубин океана или с поверхности других планет. Кроме того, зачастую построение моделей затрудняет слабое понимание взаимосвязей, нехватка подробностей или измерений.

По словам автора методики, при дефиците сведений ИИ склонен заполнять пустоты, синтезируя новые данные на основе имеющихся. Чем меньше исходной информации, тем выше риск искаженных итогов. Поэтому предложенный подход заставляет систему действовать как сыщик: последовательно задавать вопросы, выстраивать логические цепочки и выявлять скрытые связи.

Фото: КНИТУ-КАИ

Ученый пояснила, что основа работы модели — идея резонанса. Поступающие данные сравниваются с шаблонами, сохраненными в памяти системы. При наличии похожести возникает «созвучие», и новая информация отнесется к уже известному классу. Если же сходств нет, то поступившие сведения формируют новый шаблон. Важное улучшение от специалистов КНИТУ-КАИ — способ определения уникальности данных.

— Как правило, расширение выборки желательно и полезно для повышения точности модели. Однако в случае с редкими сведениями добавление в набор новой информации нужно тщательно взвешивать, поскольку даже единичное измерение может привести к разбалансировке модели. Решение о том, следует ли их включать в систему, принимается путем дополнительной экспертной оценки, — сообщила Светлана Новикова.

Для принятия таких решений система при распределении данных по классам учитывает одновременно множество признаков с разными «весами». Если суммарный «вес» не достигает порога, это указывает на то, что «новичок» не вписывается в существующие шаблоны памяти модели.

Предложенная методика не только повышает точность моделей, но и обеспечивает прослеживаемость процесса принятия решений ИИ человеком. Это способствует росту доверия к таким системам.

Какой следующий шаг в развитии искусственного интеллекта

— Новые алгоритмы продемонстрировали эффективность при решении практических задач. К примеру, их применили для анализа содержания цинксодержащих соединений в крови детей в возрасте от года до 14 лет в Казани. Цель исследования заключалась в том, чтобы установить взаимосвязь между местом проживания, качеством питьевой воды и возможными угрозами для здоровья, — сообщила Светлана Новикова.

Она отметила, что цинк может попадать в систему водоснабжения из-за загрязнения источников промышленными сточными водами или в результате длительного контакта воды со старыми оцинкованными трубами. Превышение допустимых концентраций металла несет угрозу здоровью населения.

Эксперт добавила, что всего проанализировали 240 образцов с обезличенными данными. Несмотря на небольшую выборку, предложенный способ позволил построить работоспособные модели и выявить связь между содержанием цинка в организме детей и местом их проживания.

— Проблема дефицита данных — одна из самых острых в современной прикладной аналитике. Есть области, в которых далеко не всегда есть «миллионы наблюдений». Например, медицинские исследования, экология, промышленность, космос, редкие события, персональные данные, — рассказала «Известиям» руководитель Центра искусственного интеллекта Сибирского федерального университета Анна Пятаева. — Как только выборка становится разреженной, классические подходы машинного обучения «сыпятся». И это видно в любой отрасли. В частности, такой пробел характерен и для популярных чат-ботов с искусственным интеллектом.

Она добавила, что в настоящее время с малыми наборами данных работают главным образом исследовательские лаборатории и специализированные команды. Широкое распространение подобных инструментов ускорит развитие алгоритмов ИИ. По сути, это следующий этап — переход от универсальных моделей к системам, способным эффективно действовать там, где объективно мало данных. Рынок для таких решений уже начинает формироваться.

В свою очередь, научный директор Института искусственного интеллекта МФТИ Юрий Визильтер отметил, что глубокие нейронные сети начинают надежно обучаться и работать там, где имеется хотя бы десятки тысяч примеров. Конечно, лучше, когда их сотни тысяч или миллионы. Поэтому в области малого числа примеров существует существенный пробел, который должны заполнить специализированные методы.

— Достоверность моделей сильно зависит от качества исходных данных и корректности самих моделей. На малых выборках возрастает риск переобучения — когда ИИ сконцентрирован не на анализе и обобщении информации, а на «запоминании». Также малые выборки зачастую недостаточно репрезентативны, — сообщил старший научный сотрудник группы «Мультимодальные архитектуры ИИ» лаборатории «Сильный ИИ в медицине» Института AIRI Александр Нестеров.

По его мнению, инструменты ИИ для работы с малыми выборками особенно востребованы при анализе корпоративных данных.