logo GigaAM

GigaAM

Предобученная нейросеть для обработки речи

Описание:

GigaAM (Giga Acoustic Мodel) подходит для адаптации под различные задачи работы со звуком. Она обучена на датасете из 50 тыс. часов разнообразных русскоязычных данных. Модель существует в двух дообученных состояниях: GigaAM-CTC — для распознавания речи и GigaAM-Emo — для определения эмоций.

Обучение GigaAM-CTC проходило на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для умных колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20–35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3.

Модель GigaAM-Emo для определения эмоций дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актеры озвучки, остальные собраны из подкастов. Каждой записи приписано одно из четырех состояний: злость, грусть, нейтральная эмоция или счастье.

Этот класс Open Source — моделей был представлен разработчикам в декабре 2023 года, а в апреле 2024 года они были опубликованы в свободном доступе на GitHub и GitVerse. В декабре 2024 года было выпущено обновление моделей, в котором были усовершенствованы подготовка данных и технология предобучения базовой модели. За счёт этого удалось значительно снизить количество ошибок в словах (Word Error Rate) при распознавании русскоязычных запросов. Для повышения доступности использования моделей был упрощен код и подготовлена конвертация в формат открытой библиотеки программного обеспечения ONNX. Также была представлена самая продвинутая версия линейки — GigaAM-RNNT, предназначенная для распознавания речи.


Изучить текстовый обзор на Habr

Презентация


👤 Георгий Господинов


logo GigaAM
Проект запущен:
2023
Последнее обновление:17.12.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0