46
В России представили ИИ-модель CA-SER для распознавания эмоций речи
Ученые лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ сообщили о создании ИИ-модели Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER) для распознавания эмоций человеческой речи.
Модель объединяет самообучение (Self-Supervised Learning) с использованием предобученной модели wav2vec 2.0 и спектральных акустических признаков. Сначала система детектирует важные характеристики речи, а затем добавляет к ним данные о звуках голоса, в том числе их громкость и тональность, с учетом того, какую часть аудиоспектра лучше всего воспринимает человек. Эти два типа информации объединяются с помощью специального механизма, эффективно соединяя общие характеристики речи с ее детальными особенностями. Это помогает точнее определять эмоции говорящего человека.
Разработчики отмечают, что инструмент применим в голосовых чат-ботах, колл-центрах, а также в приложениях цифрового мониторинга психологического здоровья и других областях, где нужно анализировать эмоции в режиме реального времени.
📃Научная статья в ECAI 2024
🔗 Источник: https://www.sberbank.com/ru/news-and-media/press-releases/article?newsID=82e02842-5bb2-4f1f-99ca-2ca388a2ba86&blockID=7®ionID=77&lang=ru&type=NEWS
Ученые лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ сообщили о создании ИИ-модели Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER) для распознавания эмоций человеческой речи.
Модель объединяет самообучение (Self-Supervised Learning) с использованием предобученной модели wav2vec 2.0 и спектральных акустических признаков. Сначала система детектирует важные характеристики речи, а затем добавляет к ним данные о звуках голоса, в том числе их громкость и тональность, с учетом того, какую часть аудиоспектра лучше всего воспринимает человек. Эти два типа информации объединяются с помощью специального механизма, эффективно соединяя общие характеристики речи с ее детальными особенностями. Это помогает точнее определять эмоции говорящего человека.
Разработчики отмечают, что инструмент применим в голосовых чат-ботах, колл-центрах, а также в приложениях цифрового мониторинга психологического здоровья и других областях, где нужно анализировать эмоции в режиме реального времени.
📃Научная статья в ECAI 2024
🔗 Источник: https://www.sberbank.com/ru/news-and-media/press-releases/article?newsID=82e02842-5bb2-4f1f-99ca-2ca388a2ba86&blockID=7®ionID=77&lang=ru&type=NEWS
Оригинал