logo AQLM + PV-tuning

AQLM + PV-tuning

Метод сжатия больших языковых моделей

Описание:

Выложенное в общий доступ решение позволяет уменьшить большую языковую модель в несколько раз без значительной потери качества ответов нейросети.

Оно включает два инструмента. Алгоритм Additive Quantization of Language Models (AQLM) позволяет получить уменьшенную до восьми раз нейросеть. В его основе — аддитивное квантование (оптимизация за счет представления весов с меньшей точностью), где множество параметров нескольких слоев нейросети сжимается совместно с применением сборника кодов зашифрованных данных. Созданный в 2014 году алгоритм разработчики применили к задаче сжатия весов обученных больших языковых моделей. Второй инструмент — фреймворк для точной настройки (Fine-tuning) моделей PV-tuning, который исправляет ошибки, которые возникают в процессе сжатия.

Разработчики подчеркивают, что с помощью их метода впервые удалось добиться Парето — эффективной оптимизации моделей, в частности Llama 2, при сжатии в два бита на параметр. Заявляется, что решение позволяет обучать модели с 7 млрд параметров на одном графическом ускорителе, а модели с 70 млрд — на одном устройстве с восемью видеокартами NVIDIA A100.

Решение было представлено Yandex Research в июле 2024 года. По заявлениям разработчиков, тестирование с помощью англоязычных бенчмарков (известно об использовании WinoGrande, PiQA, HellaSwag, ARC) показало, что сохраняет в среднем 95% качества ответов нейросети относительно оригинальных версий.


Пост на Habr

Репозиторий на GitHub

Обучающие уменьшению нейросетей материалы на Google Colab

Сжатые с помощью метода модели на Hugging Face

Раздел об AQLM на сайте Международной конференции по машинному обучению ICML 2024

Посвященный PV-Tuning препринт на arXiv.org


👤 Ваге Егиазарян

👤 Владимир Малиновский


logo AQLM + PV-tuning
Проект запущен:
2024
Последнее обновление:13.01.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0