logo GigaAM

GigaAM

Предобученная нейросеть для обработки речи

Описание:

GigaAM (Giga Acoustic Мodel) подходит для адаптации под различные задачи работы со звуком. Она обучена на датасете из 50 тыс. часов разнообразных русскоязычных данных. Модель существует в двух дообученных состояниях: GigaAM-CTC — для распознавания речи и GigaAM-Emo — для определения эмоций.

Обучение GigaAM-CTC проходило на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для умных колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20–35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3.

Модель GigaAM-Emo для определения эмоций дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актеры озвучки, остальные собраны из подкастов. Каждой записи приписано одно из четырех состояний: злость, грусть, нейтральная эмоция или счастье.

Этот класс Open Source — моделей был представлен разработчикам в декабре 2023 года, а в апреле 2024 года они были опубликованы в свободном доступе на GitHub и GitVerse.


Изучить текстовый обзор на Habr

Презентация


👤 Георгий Господинов


logo GigaAM
Проект запущен:
2023
Последнее обновление:25.10.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0