ГлавнаяЛента

НИУ ВШЭ

В Инженерно-математической школе НИУ ВШЭ и VK разработаны ИИ-модели для оценки качества синтеза речи

11 сентября, 13:41|
284

Исследователи Инженерно-математической школы НИУ ВШЭ и VK представили пять моделей для оценки синтеза речи. MOSNet, MOSNetBert и WhisperBert работают по метрике MOS (Mean Opinion Score) — они выставляют аудиофайлам оценки от одного до пяти. NeuralSBS и NeuralSBSBert используют метрику SBS (Side-by-Side) — они сравнивают два аудиофрагмента и выбирают лучший.

Для обучения использовались открытые англоязычные датасеты SOMOS. Они содержат 20,1 тыс. аудиофрагментов, 200 TTS-систем (Text-to-Speech) и больше 350 тыс. оценок.

Результат MOS-моделей по метрике RMSE составил около 0,4 по сравнению с 0,62 у человека. То есть ИИ дает более точные ответы. NeuralSBS определяет лучшее аудио в 73% случаев. Как отмечают исследователи, показатель на уровне среднего субъективного слушателя.

В будущем планируется переобучить модели на русском языке. Возможна их интеграция в пайплайны CI/CD (Continuous Integration / Continuous Deployment) — это позволит внедрить автоматическую проверку качества в производственные процессы генерации речи.

Подробнее

Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.