Ученые из T-Bank AI Research и лаборатории Центрального университета Omut AI создали метод обучения больших языковых моделей, который развивает способность к рассуждениям. Они предложили использовать Steering Vectors (векторы-настройки) — компактные подсказки, усиливающие правильные логические шаги предобученной модели. Новый подход — альтернатива обучения с подкреплением (Reinforcement Learning). Как утверждается, он позволяет значительно сократить количество изменяемых параметров при сопоставимом качестве.
По словам исследователей, метод подтвердил результативность на шести бенчмарках по математическому рассуждению с сохранением качества до 100%. 100% качества полного дообучения удалось восстановить на моделях Qwen2.5–1.5B, Qwen2.5-7B, Qwen2.5-14B и других.
На Qwen2.5-14B подход с Steering Vectors показал качество, сравнимое с RL-обучением. Объем памяти, необходимый для оптимизатора, сократился с 13,8 ГБ до 240 КБ.
Метод можно встроить в существующие пайплайны, например, чат-боты, системы проверки кода или аналитические платформы. Как считают исследователи, с помощью нового подхода университетские лаборатории и небольшие компании без суперкомпьютеров смогут обучать рассуждающие модели.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.