Предобученная нейросеть для обработки речи
GigaAM (Giga Acoustic Мodel) подходит для адаптации под различные задачи работы со звуком. Она обучена на датасете из 50 тыс. часов разнообразных русскоязычных данных. Модель существует в двух дообученных состояниях: GigaAM-CTC — для распознавания речи и GigaAM-Emo — для определения эмоций.
Обучение GigaAM-CTC проходило на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для умных колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20–35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3.
Модель GigaAM-Emo для определения эмоций дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актеры озвучки, остальные собраны из подкастов. Каждой записи приписано одно из четырех состояний: злость, грусть, нейтральная эмоция или счастье.
Этот класс Open Source — моделей был представлен разработчикам в декабре 2023 года, а в апреле 2024 года они были опубликованы в свободном доступе на GitHub и GitVerse.
Изучить текстовый обзор на Habr
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.