Для поиска и блокировки противоправных материалов в интернете Роскомнадзор применяет комплекс автоматизированных решений. Эти технологии позволяют оперативно выявлять контент, запрещенный законом, — от наркопропаганды и экстремистских призывов до материалов, связанных с детской эксплуатацией. В беседе с «Известиями» замглавы ведомства Вадим Субботин раскрыл детали работы этих систем.
— Количество опасного контента увеличивается вместе с общим объемом данных в сети. Когда стало ясно, что справляться с этим вручную уже невозможно?
— В 2012 году мы контролировали лишь три категории особо опасных материалов: детскую порнографию, наркотики и суицидальный контент. Однако вскоре список расширился — добавились схемы вовлечения несовершеннолетних в преступления, инструкции по изготовлению взрывчатки, пропаганда смены пола и другое. Очевидно, что в таких масштабах человеческих ресурсов и жалоб от пользователей уже недостаточно. Некоторые виды контента, например террористические призывы, требуют мгновенной блокировки.
Сейчас ведомство реагирует на противоправные материалы в срок от нескольких минут до шести часов. Однако для сложных случаев, где важен контекст, экспертам требуется дополнительное время на анализ. Это необходимо для принятия обоснованных решений о блокировке. Подчеркну, что окончательное решение всегда остается за специалистами — психологами, лингвистами, искусствоведами.

— Какие технологии используются для мониторинга?
— Для контроля СМИ задействована Автоматизированная система мониторинга массовых коммуникаций. Теле- и радиовещание проверяется с помощью отдельной системы. Поиск запрещенного контента на сайтах и в соцсетях обеспечивает система «Чистый интернет» с модулями для анализа текстов, аудио и видео. В работе применяются нейросетевые технологии, включая распознавание изображений (например, модуль «Окулус»).

— В соцсетях ежемесячно публикуются миллиарды сообщений. Как системы определяют приоритеты?
— Алгоритмы работают по принципу имитации поведения пользователя. Сначала поисковые роботы сканируют сеть, используя запросы, подготовленные экспертами. Затем данные проходят многоэтапную проверку.
Сначала отсеиваются дубликаты и удаленные материалы, остаются только актуальные и уникальные. Далее подключаются аналитические модули: лингвистические словари ищут ключевые фразы, а нейросетевые модели (ЕМА) определяют смысловые признаки нарушений.

Пример: система обнаруживает пост с рекламой наркоплощадки. Лингвистический модуль находит маркеры (название, ключевые слова), ЕМА подтверждает контекст, а «Окулус» распознает логотип и ссылку на изображении.

— Насколько точны эти системы?
— Комплексный анализ позволяет выявлять до 98% особо опасного контента. В начале работы точность составляла лишь 10%.
ИИ обрабатывает около 500 000 материалов в сутки, сокращая нагрузку на операторов. После автоматической фильтрации остается примерно 2 000 нарушений. Это позволяет экспертам сосредоточиться на сложных случаях, повышая общую эффективность.

— ИИ всё ещё ошибается?
— Да, из-за неоднозначности языка и контекста возможны ложные срабатывания. Однако их доля минимальна благодаря постоянному обучению моделей на обширных датасетах и постобработке результатов.
Разработка таких систем сложна: требуется масштабируемое хранение данных, качественные обучающие выборки и регулярное обновление моделей. Мы используем машинное обучение для анализа контекста, включая сарказм и скрытые призывы, что снижает ошибки интерпретации.

Важна и прозрачность решений: операторы видят, на каких признаках основаны выводы ИИ. Сейчас система работает с 30 типами запрещенного контента.

— Какие новые угрозы требуют внимания?
— Активизируются попытки дестабилизации через сепаратистские нарративы, вбросы о национальной и религиозной исключительности. Для их выявления используется система «Вепрь», анализирующая инфоповоды в реальном времени.
Другая угроза — атаки на традиционные ценности: обесценивание жизни, героев истории, пропаганда деструктивных культов. В перспективе ИИ поможет точнее оценивать степень опасности таких материалов.

Мы развиваем технологии семантического анализа и прогнозирования угроз, чтобы действовать на опережение.