Специалисты Yandex Research, НИУ ВШЭ, Массачусетского технологического института (MIT), Австрийского института науки и технологий (ISTA) и Научно-технологического университета имени короля Абдаллы (KAUST) представили метод квантизации HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS). Он позволяет сжимать нейросети без использования дополнительных данных и без вычислительно сложной оптимизации параметров.
По словам разработчиков, HIGGS обеспечивает баланс между качеством, размером модели и сложностью квантизации, что позволяет использовать модели на самых разных устройствах, в том числе на телефоне или ноутбуке. Метод был протестирован на моделях Llama 3 и Qwen2.5. С помощью метода можно сжимать даже такие большие модели, как DeepSeek-R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров.
Карточки решений:
HIGGS
Ранее был разработан методы сжатия LLM, помогающие сократить расходы на вычислительные ресурсы значительной потери качества ответов нейросети. Также был создан сервис, позволяющий запускать модель с 8 млрд параметров на обычном компьютере или смартфоне через интерфейс браузера.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.