Исследователи из лаборатории искусственного интеллекта T-Bank AI Research разработали подход к интерпретации и управлению языковыми моделями. Он основан на методе SAE Match, который был представлен командой ранее. Исследователи предложили концепцию графа потока признаков — это карта, которая отражает, где, когда и как в ИИ-модели появляются, трансформируются или исчезают важные смысловые элементы. Эту информацию можно использовать для активного управления моделью.
Исследование относится к области интерпретируемого ИИ — попытке понять, как модели принимают решения. LLM строят свои ответы на основе многослойной архитектуры. Каждый слой обрабатывает информацию и передает ее дальше. Новый метод исследователей T-Bank AI Research позволяет проводить анализ как между слоями модели, так и внутри самих слоев: между такими модулями как Attention (механизм внимания, анализирует контекст) и Feedforward (отвечает за использование внутренних знаний модели).
Новый метод позволяет усиливать или подавлять определенные признаки на разных этапах обработки без изменения параметров модели и без дообучения. Таким образом можно изменять стиль, тематику или тональность генерируемого текста. Как утверждают исследователи, вмешательство сразу на нескольких слоях и модулях позволяет управлять моделью точнее и с меньшими потерями в качестве текста, чем попытки повлиять на отдельный уровень.
Метод не требует дополнительных данных и может применяться к уже обученным моделям. Как предполагают исследователи, новый подход поможет предотвратить потенциально вредоносное поведение модели до его появления в ответе.
Специалисты T-Bank AI Research представили метод SAE Match в апреле 2025 года. Он позволяет понять, в какой момент ИИ-модель начинает давать неправильные или нежелательные ответы и скорректировать их.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.