Исследователи «Сбера» представили метод предобучения ИИ-моделей HuBERT-CTC с открытым кодом. В нем используются целевые переменные из CTC-модели (Connectionist Temporal Classification) распознавания речи. Это, по словам разработчиков, позволяет формировать более семантические представления данных, чем в таких моделях, как wav2vec2.0, HuBERT и BEST-RQ.
В HuBERT-CTC применяется метод Self-Supervised Learning, который позволяет моделям учиться на массивах неразмеченных данных. Также используется динамическое маскирование self-attention, чтобы модель могла работать в онлайн- и офлайн-режиме без необходимости переобучения.
Метод предназначен для повышения качества распознавания различных языков. Утверждается, что количество ошибок распознавания русской речи снижается на 50% по сравнению с моделью Whisper-large-v3 от OpenAI.
В «Сбере» предполагают, что решение будет полезным для сервисов автоматического распознавания речи, голосовых помощников, контакт-центров и систем аналитики телефонных звонков. Метод также может быть востребован в мультимедийных системах, например в чат-ботах с аудиопотоком.
Исследование «GigaAM: эффективный метод предобучения для распознавания речи» опубликовано на сайте ISCA Archive.
«Т-Технологии» в июле выпустили в открытый доступ модель автоматического распознавания речи (ASR) T-one. Пайплайн включает предобученную потоковую акустическую CTC-модель, модуль разделения на фразы и декодер для распознавания в реальном времени.
В Москве утвержден порядок работы роверов в доставке
Департамент транспорта
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.