
HuBERT-CTC
Метод предобучения моделей распознавания речи
Выложенный в открытый доступ метод HuBERT-CTC помогает повысить качество распознавания русского языка моделями ИИ и формировать более семантические представления данных.
В его основе лежит метод HuBERT, однако, в отличие от последнего, в HuBERT-CTC используется энкодер (часть модели, применяемая для кодирования входящих данных), настроенный для задач распознавания речи (ASR, Automatic Speech Recognition). Используемое в методе самоконтролируемое обучение (Self-Supervised Learning, SSL) позволяет моделям учиться на неразмеченных данных.
Метод масштабируется по размеру модели и объему данных. За счет динамического маскирования механизма самовнимания (Self-Attention Mechamism, входа из предыдущего слоя нейросети) обученная модель может работать в онлайн- и офлайн-режиме без необходимости переобучения.
По заявлениям разработчиков, по сравнению с моделью Whisper от OpenAI HuBERT-CТС снижает количество ошибок распознавания (Word Error Rate) на 50%.
Метод HuBERT-CТС был представлен исследователями из «Сбера» на международной конференции Interspeech в августе 2025 года.
