Специалисты T-Bank AI Research создали новый метод SAE Match, позволяющий выявлять моменты, когда ИИ-модель начинает давать неверные ответы, и своевременно корректировать их.
Разработчики отмечают, что использование нового метода особенно актуально при применении ИИ в критически важных областях, таких как здравоохранение, финансовые услуги и обеспечение безопасности.
SAE Match относится к области интерпретируемости ИИ. Современные языковые модели состоят из множества слоев, где каждый последующий слой использует результаты предыдущих расчетов. Это позволяет модели постепенно улучшать точность своих предсказаний, однако иногда она может ошибаться, говорят разработчики.
До появления SAE Match не было способа отслеживания изменений концепций на каждом слое модели. Новый метод фиксирует эти изменения и анализирует их динамику в ходе выполнения вычислений. Экспериментальные исследования подтвердили, что SAE Match помогает выявить устойчивые признаки, остающиеся стабильными на протяжении нескольких слоев, делая поведение ИИ более предсказуемым и понятным. Это открывает возможности для контроля процесса генерации текста без необходимости наложения внешних ограничений или повторного обучения модели.
Одним из главных преимуществ метода SAE Match является отсутствие потребности в дополнительных данных или переобучении модели, что представляет особую ценность для небольших команд, которым трудно собирать и обрабатывать большие объемы данных.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.