ГлавнаяЛента

Сбербанк

В «Сбере» разработали метод предобучения HuBERT-CTC для улучшения распознавания русской речи

22 августа, 12:59|
324

Исследователи «Сбера» представили метод предобучения ИИ-моделей HuBERT-CTC с открытым кодом. В нем используются целевые переменные из CTC-модели (Connectionist Temporal Classification) распознавания речи. Это, по словам разработчиков, позволяет формировать более семантические представления данных, чем в таких моделях, как wav2vec2.0, HuBERT и BEST-RQ.

В HuBERT-CTC применяется метод Self-Supervised Learning, который позволяет моделям учиться на массивах неразмеченных данных. Также используется динамическое маскирование self-attention, чтобы модель могла работать в онлайн- и офлайн-режиме без необходимости переобучения.

Метод предназначен для повышения качества распознавания различных языков. Утверждается, что количество ошибок распознавания русской речи снижается на 50% по сравнению с моделью Whisper-large-v3 от OpenAI.

В «Сбере» предполагают, что решение будет полезным для сервисов автоматического распознавания речи, голосовых помощников, контакт-центров и систем аналитики телефонных звонков. Метод также может быть востребован в мультимедийных системах, например в чат-ботах с аудиопотоком.

Исследование «GigaAM: эффективный метод предобучения для распознавания речи» опубликовано на сайте ISCA Archive.


«Т-Технологии» в июле выпустили в открытый доступ модель автоматического распознавания речи (ASR) T-one. Пайплайн включает предобученную потоковую акустическую CTC-модель, модуль разделения на фразы и декодер для распознавания в реальном времени.


Подробнее

Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.