В T-Bank AI Research и Центральном университете разработали новый метод обучения рассуждающих моделей

11 ноября, 13:31|

156

Ученые из T-Bank AI Research и лаборатории Центрального университета Omut AI создали метод обучения больших языковых моделей, который развивает способность к рассуждениям. Они предложили использовать Steering Vectors (векторы-настройки) — компактные подсказки, усиливающие правильные логические шаги предобученной модели. Новый подход — альтернатива обучению с подкреплением (Reinforcement Learning). Как утверждается, он позволяет значительно сократить количество изменяемых параметров при сопоставимом качестве.

По словам исследователей, метод подтвердил результативность на шести бенчмарках по математическому рассуждению с сохранением качества до 100%. 100% качества полного дообучения удалось восстановить на моделях Qwen2.5–1.5B, Qwen2.5-7B, Qwen2.5-14B и других.

На Qwen2.5-14B подход с Steering Vectors показал качество, сравнимое с RL-обучением. Объем памяти, необходимый для оптимизатора, сократился с 13,8 Гб до 240 Кб.

Метод можно встроить в существующие пайплайны, например чат-боты, системы проверки кода или аналитические платформы. Как считают исследователи, с помощью нового подхода университетские лаборатории и небольшие компании без суперкомпьютеров смогут обучать рассуждающие модели.

Подробнее

Технологии:

#искусственный_интеллект #чат_боты

Компании:

#Т_Технологии #Центральный_университет

Расскажите знакомым:

Материалы
по теме: