Ученые лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ сообщили о создании ИИ-модели Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER) для распознавания эмоций человеческой речи.
Модель объединяет самообучение (Self-Supervised Learning) с использованием предобученной модели wav2vec 2.0 и спектральных акустических признаков. Сначала система детектирует важные характеристики речи, а затем добавляет к ним данные о звуках голоса, в том числе их громкость и тональность, с учетом того, какую часть аудиоспектра лучше всего воспринимает человек. Эти два типа информации объединяются с помощью специального механизма, эффективно соединяя общие характеристики речи с ее детальными особенностями. Это помогает точнее определять эмоции говорящего человека.
Разработчики отмечают, что инструмент применим в голосовых чат-ботах, колл-центрах, а также в приложениях цифрового мониторинга психологического здоровья и других областях, где нужно анализировать эмоции в режиме реального времени.
Ученые ИТМО представили цифрового ассистента ChemCoScientist
Университет ИТМО
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.