
Метод адаптации больших языковых моделей
Общедоступная методология позволяет адаптировать любую большую языковую модель для целевого языка.
На первом из четырех этапов расширяется токенизация (способ представления текста в модель). Добавление русскоязычных токенов повышает эффективность генерации символов нейросетью. С помощью созданного токенайзера инициализируются входные и выходные слои модели (LM Head).
Далее эти слои (эмбеддинги) дообучаются вместе с внутренними слоями модели с помощью метода LoRA, что позволяет решать проблему катастрофической забывчивости модели. Для дообучения исследователями использовался датасет размером около 80 Гб, состоящий из статей «Википедии», новостей, материалов портала Habr и книг на русском языке.
Далее, с использованием метода Learning Embedding Propagation рассчитывается проекция из эмбеддингов базовой версии модели в эмбеддинги инструктивной, после чего эти слои применяются к самой инструктивной модели.
Далее модель откалибровывается с помощью тонкой настройки с учителем (Supervised Fine Tuning, SFT) на небольших датасетах, состоящих из инструкций, а также с помощью методов обучения с подкреплением, в частности KTO (Kahneman-Tversky Optimization) и SimPO (Simple Preference Optimization).
По заявлениям разработчиков, использование метода позволило ускорить скорость ответа моделей (в частности Qwen 2.5) на русском языке на 30—60% для коротких последовательностей и до 100% для длинных. Кроме того, адаптированные с помощью метода модели практически не переходят при генерации ответа на другой язык.
Метод Ruadapt был представлен исследователями из Научно-исследовательского вычислительного центра МГУ им. М. В. Ломоносова в декабре 2024 года.
#искусственный_интеллект#генеративный_ИИ#нейросети#машинное_обучение#open_source
Разработчик:Мониторинг 5G/6G: главное за май–июнь
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.