

Метод сжатия больших языковых моделей
Решение может быть использовано для уменьшения размеров больших языковых моделей в несколько раз без значительной потери качества ответов нейросети.
Оно включает два инструмента. Алгоритм Additive Quantization of Language Models (AQLM) позволяет получить уменьшенную до восьми раз нейросеть. В его основе — аддитивное квантование (оптимизация за счет представления весов с меньшей точностью), где множество параметров нескольких слоев нейросети сжимается совместно с применением сборника кодов зашифрованных данных. Созданный в 2014 году алгоритм разработчики применили к задаче сжатия весов обученных больших языковых моделей. Второй инструмент — фреймворк для точной настройки (Fine-tuning) моделей PV-tuning, который исправляет ошибки, которые возникают в процессе сжатия.
Разработчики подчеркивают, что с помощью их метода впервые удалось добиться Парето — эффективной оптимизации моделей, в частности Llama 2, при сжатии в два бита на параметр. Заявляется, что решение позволяет обучать модели с 7 млрд параметров на одном графическом ускорителе, а модели с 70 млрд — на одном устройстве с восемью видеокартами NVIDIA A100.
По заявлениям разработчиков, тестирование с помощью англоязычных бенчмарков (известно об использовании WinoGrande, PiQA, HellaSwag, ARC) показало, что использование инструментов сохраняет в среднем 95% качества ответов нейросети относительно оригинальных версий.
Решение было представлено Yandex Research в июле 2024 года. Доступно как открытое ПО.

Репозиторий сжатых с помощью метода моделей на Hugging Face
Инструкция по обучению с помощью метода моделей на Google Colab, а также текстовый обзор на Habr

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.