Ученые Центра практического искусственного интеллекта Сбербанка и НИУ ВШЭ представили новую систему распознавания эмоций. Она сочетает временные сверточные сети (TCN) и трансформерные мультимодальные архитектуры. В системе одновременно ведется анализ мимики, голоса и речи.
По словам разработчиков, решение может учитывать динамику эмоций в реальных условиях — при разном освещении, фоновом шуме и других помехах. Аудиовизуальная модель работает даже при недостатке данных. Например, если не видно лица или плохо слышно голос. Утверждается, что система на 10% точнее, чем лучшие модели, которые анализируют только выражения лиц.
Ученые предполагают, что разработку можно использовать в колл-центрах для анализа настроения клиентов, в маркетинговых исследованиях для оценки реакции на продукты, в системах безопасности для выявления агрессии или паники. В перспективе систему можно адаптировать для виртуальных ассистентов или для телемедицины.
В «Сбере» в апреле 2025 года представили метод мультимодального анализа эмоций с оптимизацией вычислений. Ученые предложили использовать комбинацию визуальных, акустических и текстовых данных для повышения точности эмоционального анализа на основе ИИ-моделей.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.