
HIGGS
Метод квантизации больших языковых моделей
Общедоступный метод HIGGS (Hadamard Incoherence and Gaussian MSE-Optimal Grids) позволяет быстро сжимать большие языковые модели без потери качества, использования дополнительных данных и оптимизации параметров нейросетей.
Метод предполагает использование Адамаровых вращений (Hadamard Rotations), приводящим распределение весов модели к нормальному независимому и одинаковому распределению (IID), для которого рассчитанны оптимальные решетки.
Data-Free метод доступен как для скалярной, так и для векторной квантизации и проверен на популярных моделях Llama 3 и Qwen 2.5.
Метод HIGGS был представлен исследователями из Yandex Research, НИУ ВШЭ совместно с коллегами из MIT, KAUST и ISTA в апреле 2025 года.
