logo Ruadapt

Ruadapt

Метод адаптации больших языковых моделей

Описание:

Общедоступная методология позволяет адаптировать любую большую языковую модель для целевого языка.

На первом из четырех этапов расширяется токенизация (способ представления текста в модель). Добавление русскоязычных токенов повышает эффективность генерации символов нейросетью. С помощью созданного токенайзера инициализируются входные и выходные слои модели (LM Head).

Далее эти слои (эмбеддинги) дообучаются вместе с внутренними слоями модели с помощью метода LoRA, что позволяет решать проблему катастрофической забывчивости модели. Для дообучения исследователями использовался датасет размером около 80 Гб, состоящий из статей «Википедии», новостей, материалов портала Habr и книг на русском языке.

Далее, с использованием метода Learning Embedding Propagation рассчитывается проекция из эмбеддингов базовой версии модели в эмбеддинги инструктивной, после чего эти слои применяются к самой инструктивной модели.

Далее модель откалибровывается с помощью тонкой настройки с учителем (Supervised Fine Tuning, SFT) на небольших датасетах, состоящих из инструкций, а также с помощью методов обучения с подкреплением, в частности KTO (Kahneman-Tversky Optimization) и SimPO (Simple Preference Optimization).

По заявлениям разработчиков, использование метода позволило ускорить скорость ответа моделей (в частности Qwen 2.5) на русском языке на 30—60% для коротких последовательностей и до 100% для длинных. Кроме того, адаптированные с помощью метода модели практически не переходят при генерации ответа на другой язык.

Метод Ruadapt был представлен исследователями из Научно-исследовательского вычислительного центра МГУ им. М. В. Ломоносова в декабре 2024 года.


Репозиторий на GitHub


👤 Михаил Тихомиров

👤 Даниил Чернышев


logo Ruadapt
Проект запущен:
2024
Последнее обновление:15.04.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0