Российские ученые нашли способ исправлять ошибки ИИ

Вчера, 14:10

Новый метод контроля ИИ: как исправлять ошибки ChatGPT без переобучения модели

Специалисты из лаборатории искусственного интеллекта T-Bank AI Research предложили инновационный подход к анализу и управлению языковыми моделями с использованием технологии SAE Match. Разработка даёт возможность корректировать неточности и искажения в работе крупных языковых моделей непосредственно в процессе генерации текста. Об этом заявили представители научного подразделения Т-Банка.

Современные нейросетевые модели, включая ChatGPT, формируют ответы через многоуровневую систему обработки данных, где каждый слой последовательно преобразует информацию. Ранее учёные могли лишь наблюдать за появлением определённых паттернов в этих слоях, не имея возможности проследить их преобразование.

Новая технология помогает определить источник информации — внешний запрос или внутренние знания системы — и регулировать её работу, минимизируя вероятность ошибочных выводов. Метод не требует значительных вычислительных мощностей и доступен для внедрения в различных организациях. Такой подход позволяет локализовано исправлять недочёты, избегая ресурсоёмкого процесса переобучения нейросетей.

Тестирование продемонстрировало возможность избирательного усиления или блокировки конкретных параметров на разных стадиях обработки, что открывает перспективы для управления стилистикой, содержанием и эмоциональной окраской создаваемого текста. Это особенно актуально для разработки ответственных ИИ-решений, например, для автоматического исключения нежелательных тем в диалоговых системах без их кардинальной модернизации.

Данные исследования были озвучены на ICML — ведущей мировой конференции по машинному обучению и искусственному интеллекту, прошедшей в Ванкувере с 13 по 19 июля.

Лента