Ученые Центра практического искусственного интеллекта «Сбера» представили подход к увеличению точности распознавания на видео составных эмоций, таких как «радостно удивленный» или «печально испуганный». Для извлечения эмоциональных признаков используются модели, такие как MT-EmotiMobileFaceNet. Предсказания сглаживаются с помощью усреднения или гауссовских фильтров.
Метод сглаживания предсказаний улучшил F1-меру классификации составных эмоций на 4,5 п. п. Разработчики называют преимуществом решения отсутствие необходимости в дообучении модели на новых данных с составными эмоциями.
Кроме того, в «Сбере» представили серию легковесных нейросетей, включая MT-EmotiDDAMFNet и MT-EmotiEffNet для одновременного решения нескольких задач. Они распознают выражение лица, знак (Valence) и интенсивность (Arousal) его эмоций, а также 12 кодов лицевых движений из классификации Пола Экмана. Решения работают на мобильных устройствах.
На конкурсе ABAW-7 модели «Сбера» увеличили точность распознавания выражений лица на 7 п. п., а качество предсказания знака и интенсивности эмоций — почти в 1,3 раза. Суммарная метрика качества для трех задач конкурса увеличилась в 4,5 раза.
В «Сбере» считают, что разработки могут использоваться в цифровом маркетинге и при анализе пользовательского опыта. Они могут быть полезны для производителей смартфонов, умных устройств, автопроизводителей, а также при взаимодействии человека и компьютера.
В Москве утвержден порядок работы роверов в доставке
Департамент транспорта
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.