Предобученная нейросеть для обработки речи
GigaAM (Giga Acoustic Мodel) подходит для адаптации под различные задачи работы со звуком. Она обучена на датасете из 50 тыс. часов разнообразных русскоязычных данных. Модель существует в двух дообученных состояниях: GigaAM-CTC — для распознавания речи и GigaAM-Emo — для определения эмоций.
Обучение GigaAM-CTC проходило на корпусах Golos SberDevices, Sova, CommonVoice и LibriSpeech. Качество тестировали на семи срезах данных, учитывая как запросы для умных колонок, так и записи из телефонных каналов. В коротких запросах она допускает на 20–35% меньше ошибок в словах, чем такие решения, как NeMo-Conformer-RNNT и Whisper-Large-v3.
Модель GigaAM-Emo для определения эмоций дообучали на наборе Dusha: он состоит из записей речи продолжительностью до 20 секунд. Часть аудио записали актеры озвучки, остальные собраны из подкастов. Каждой записи приписано одно из четырех состояний: злость, грусть, нейтральная эмоция или счастье.
Этот класс Open Source — моделей был представлен разработчикам в декабре 2023 года, а в апреле 2024 года они были опубликованы в свободном доступе на GitHub и GitVerse. В декабре 2024 года было выпущено обновление моделей, в котором были усовершенствованы подготовка данных и технология предобучения базовой модели. За счёт этого удалось значительно снизить количество ошибок в словах (Word Error Rate) при распознавании русскоязычных запросов. Для повышения доступности использования моделей был упрощен код и подготовлена конвертация в формат открытой библиотеки программного обеспечения ONNX. Также была представлена самая продвинутая версия линейки — GigaAM-RNNT, предназначенная для распознавания речи.
Изучить текстовый обзор на Habr
Куда движутся российские экосистемы
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.