ГлавнаяНовостиРобот слышит и отвечает: технологии распознавания и синтеза речи

Робот слышит и отвечает: технологии распознавания и синтеза речи

29 апреля 2019РЕДАКЦИЯ
700

эксклюзив

Скучные профессии со временем исчезнут — их в первую очередь поручат роботам. Такое мнение недавно высказал на лекции в рамках проекта «Тактики и практики» директор по стратегическому маркетингу Яндекса Андрей Себрант.

Оператор контакт-центра — яркий пример такой профессии. И не только потому, что работа тяжелая и монотонная, но и потому, что в этой сфере уже активно внедряется искусственный интеллект.

Роботы в городах

Согласно представленному год назад анализу применения передовых технологий в работе контакт-центров мировых мегаполисов, из 20 изученных городов робот-оператор применялся в трех — в Москве, Нью-Йорке и Санкт-Петербурге. В российской столице применяется решение на базе ЦРТ, в американском мегаполисе — IBM Watson.

Статистика работы единой справочной Москвы показывает, что горожане привыкли взаимодействовать с роботом (доля тех, кто готов разговаривать с машиной, увеличилась за год с 73% до 91%). Сейчас все входящие звонки случайным образом разделяются на два потока — половина сразу попадает к человеку-оператору (который при необходимости может затем перенаправить звонок роботу), вторая половина идет на робота (в сложных случаях затем происходит умная переадресация на нужного специалиста). В столичном Департаменте информационных технологий ожидают, что уже осенью машина сможет полностью обрабатывать около 50% всех звонков.

Нам как разработчикам очень приятно наблюдать, как исчезает страх перед роботами и компании меняются. Рутина отдается машине.

Евгения Дворскаяосновательница HR-робота Sever.AI
 

Помимо ЦРТ («Центр речевых технологий») готовое решение для распознавания и синтеза речи предоставляет Яндекс. Сервис называется SpeechKit и он доступен на базе платформы Яндекс.Облако.

ICT.Moscow предлагает познакомиться с несколькими сервисами и разработками из Москвы в сфере речевых технологий.

 


Универсальные решения

Yandex SpeechKit

Сервис распознавания и синтеза речи

Сервис работает с аудио и текстами на четырех языках: русском, английском, украинском и турецком. Yandex SpeechKit складывает речь более чем из миллиона отдельных фонем, а интонация задается нейросетью, обученной на множестве примеров из реальной жизни. Для обмена данными с сервисом предусмотрен HTTP API.

Инфраструктура сервиса спроектирована с учетом высоких нагрузок, чтобы обеспечивать доступность и безотказную работу системы даже при большом количестве одновременных обращений. На основе SpeechKit работает Алиса — голосовой помощник Яндекса.


VoiceNavigator

IVR-система c голосовым управлением (ЦРТ)

Решение от ЦРТ автоматизирует предоставление услуг и справочной информации, увеличивает производительность контакт-центров и сокращает время перевода вызова на целевого оператора.

Применяется многими компаниями и организацями, включая РЖД, «МегаФон», МТС, МЧС России и др.


Платформа MIR

Платформа распознавания речи

В продукте применяются разработки «Ситроникс» в области преобразования речевого сигнала в цифровую информацию и технология понимания естественного языка, которая позволяет выделять смысловые объекты, анализировать эмоциональное состояние говорящего

Платформа распознавания речи MIR представлена в нескольких вариантах: облачный сервис и On-premise решение для установки на серверах экосистемы заказчика. Точность распознавания общей модели составляет 84%.


VoiceFabric

Сервис для озвучивания синтезированным голосом текстовой информации (ЦРТ)

Еще один сервис от ЦРТ. Он позволяет отказаться от услуг диктора и предзаписи звуковых роликов в IVR-меню, написанный текст преобразуется в звукозапись и озвучивается клиенту в телефонном разговоре. Используя синтезированные голоса, можно озвучивать книги, видеоролики, записывать голосовые открытки без потери «естественной» интонации. Voicefabric гарантирует грамотную расстановку ударений, правильное чтение сокращений, чисел, аббревиатур. Доступно 8 голосов (женских и мужских), которые умеют говорить на трех языках (русский, английский, казахский).


VOCO

Приложение для преобразования речи в текст (ЦРТ)

По команде программа устанавливает нужный знак препинания, переводит курсор на новую строчку или вставляет любой текст с помощью автозамены распознанной команды. При распознавании аудиофайлов знаки препинания расставляются автоматически. Расширенные версии программы включают тематические словари, количество которых постоянно пополняется.

Распознавание осуществляется локально на компьютере пользователя. Voco.Professional и Voco.Enterprise позволяют осуществлять распознавание речи из аудиозаписей. Конвертация осуществляется в специальном плагине для редактора MS Word с отображением аудиозаписи в плеере и связью звука с распознанным текстом.


Продажи и HR

Программный оператор

Робот для приема и обработки телефонных и интернет-заказов

Программный оператор принимает звонки, распознает и понимает речь, в случае необходимости задает уточняющие вопросы. Робот в автоматическом режиме обрабатывает заказы, оформленные через сайт, и перезванивает по указанному телефону, уточняя и подтверждая информацию.

В системе используются нейросети и машинное обучение, модуль синтеза речи. Блок распознавания речи построен на базе облачного сервиса 3i Speech Recognition, разработанного Консорциумом 3i Technologies.


SmartCalls

Сервис автообзвона с искусственным интеллектом

Система умных звонков с распознаванием и синтезом речи, а также с интерактивными сценариями разговора. Сценарии можно создавать в визуальном редакторе, передвигая блоки и настраивая необходимую последовательность действий: звонок, анкетирование по заданным вопросам, повторные звонки в случае пропущенного звонка, распознавание и запись голосового ответа.

В компании заверяют, что звонок такого робота не отличается от звонка оператора колл-центра, при этом в три раза дешевле.


Sever.AI

Сервис подбора кандидатов на базе искусственного интеллекта

Решение для рекрутинга находит и оценивает резюме, может самостоятельно обзванивать и общаться с кандидатами (имитируя голоса разных сотрудников), проводить видеоинтервью с соискателями. Помимо речевого взаимодействие сервис может вести переписку, осуществлять рассылки и ставить встречи с успешными кандидатами в календарь HR-специалиста.

Технология позволяет проанализировать множество личностных характеристик соискателя и сопоставить их с требованиями компаниями к каждому конкретному кандидату.


Решения для массового обслуживания клиентов

Общегородской контакт-центр

Роботизированный сервис голосового информирования горожан

Общегородской контакт-центр включает в себя 34 горячие линии для граждан, юридических лиц, органов власти. Обрабатывает более трех миллионов вызовов жителей в месяц. Автоматизация самообслуживания осуществляется при помощи голосовых интерфейсов. Робот совершенствует свое произношение в режиме реального времени, анализирует ударение и интонацию абонентов. На основе полученного анализа робот предлагает администратору системы внести изменения в интонацию или ударение слов. Виртуальный оператор изучает, как человек реагирует на его речь и насколько успешно завершился диалог.

В городском контакт-центре используются следующие технологии: омниканальность (взаимная интеграция разрозненных каналов коммуникации в единую систему), робот-оператор, идентификация личности по голосу, искусственный интеллект, анализ больших данных, распознавание эмоций по голосу.


Водосчетчики

Сервис приема показаний водосчетчиков

Сервис приема показаний водосчетчиков ведется в простом и доступном диалоге жителей с роботом. При любом непонимании вопроса робота, гражданин может переспросить и получить подсказку своих дальнейших действий.

Робот понимает любые варианты и комбинации произносимых клиентами показаний. При этом, заложенный алгоритм проверки, не позволяет допустить внесения неверных значений показаний. Сервис также модифицируется под прием показаний тепловых счетчиков и электросчетчиков.


Специальные решения

VoiceDigger

Система поиска информации в аудиозаписях по ключевым словам (ЦРТ)

Решение от ЦРТ по распознаванию речи. Система обеспечивает быстрый поиск нужной информации в больших массивах аудиоданных, анализ всей записанной аудиоинформации. Сочетание технологий поиска по акустическим моделям и распознавания слитной русской речи, лежащие в основе продукта, позволяют анализировать большие объемы данных для быстрого поиска нужных фрагментов и слов.

Система может быть развернута на обычном ПК в качестве настольного приложения или на базе многопроцессорного комплекса с клиент-серверной архитектурой.


Voice2Med

Программа для голосового заполнения медицинской документации (ЦРТ)

Специализированный сервис для распознавание речи в текст в режиме реального времени. Особенностью продукта является наличие специализированных лексических русскоязычных словарей: врача-терапевта общей практики, лор-врача, врача-диагноста МРТ, КТ, УЗИ.

Робот умеет заполнять шаблоны протоколов и любых текстовых документов, способен дообучаться и добавлять слова в словарь, расставлять пунктуацию и автозамену, есть возможность редактирования текста перед сохранением.


Оценка поведения

Формула успешного собеседования

Сервис индивидуальной подготовки к переговорам на основе ИИ

Сервис анализирует записанный кандидатом видеофайл с самопрезентацией, в котором человек рассказывает то, что планирует говорить во время собеседования. Нейронная сеть обрабатывает файл и дает оценку на основе опроса более 500 HR-специалистов из различных отраслей бизнеса. Разработчики утверждают, что нейросеть уже натренировалась на более 1000 видеофайлах с самопрезентациями и научилась рассчитывать процент вероятности прохождения собеседования.

После этого эксперт просматривает запись и выявляет смысловые ошибки презентации. При этом нейросеть и эксперт оценивают то, что соискатель говорит, его интонацию, скорость и громкость речи, а также позу, жесты и мимику. В результате пользователь получает письменный отчет, в котором указывается вероятность успешного прохождения собеседования и результаты по каждому оцениваемому фактору.


RiskControl

Платформа оценки человеческих рисков

Решение ведет автоматизированный опрос и тестирование с контролем информативных признаков стресса и лжи в параметрах голоса человека, его внешних признаках. Процедура полностью автоматизирована и не требует сопровождения специальным персоналом, что исключает субъективный фактор и снижает стоимость эксплуатации системы.

В программном комплексе используется Voice Lie Control — интеллектуальная система ведения опроса с контролем информативных признаков стресса и лжи на основе анализа параметров речи. Результат формируется сразу после завершения тестирования. Интерпретатор системы определяет уровень личностных рисков и реальных угроз на момент прохождения проверки, а также правдивость испытуемого при ответах на вопросы. 


Хотите рассказать о других московских системах распознавания и синтезирования речи или сервисах, в которых они применяются? Напишите нам!

На сайте ICT.Moscow формируется база цифровых решений, созданных разработчиками из Москвы. Московские компании и стартапы могут бесплатно размещать информацию о своих разработках.

Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая платформа о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

© 2019 ICT.Moscow

При поддержке Правительства Москвы