ГлавнаяЛента

Коммерсант

«Яндекс» разрабатывает мультимодальную модель SpeechGPT

3 июня, 13:40|
722

Компания «Яндекс» ведет разработку мультимодальной модели SpeechGPT. Она будет воспринимать текст и звук и отвечать при их же помощи, решать разные задачи на стыке текста и звука. В «Яндексе» пояснили, что работают над мультимодальностью в ассистенте «Алиса» и других сервисах, однако новых подробностей не раскрыли. Сейчас компания ищет ML-инженера в команду SpeechGPT.

В настоящее время некоторые нейросетевые сервисы «Яндекса» уже позволяют принимать вводные данные разных видов, но процесс происходит с преобразованием их из одного вида в другой. Как поясняет сооснователь Just AI Кирилл Петров, мультимодальные модели позволяют учитывать весь контент, причем без задержек.

По словам Владимира Кравцева из Axenix, MVP SpeechGPT может появиться в ближайшие месяцы, «дальше пойдет процесс непрерывных улучшений». Эксперт полагает, что SpeechGPT будет прежде всего встраиваться в «уже существующие сервисы, связанные с каналами коммуникации с клиентами, партнерами «Яндекса», то есть будет происходить постепенная замена текущих более простых моделей на современные».

В свою очередь в Сбербанке сообщили, что обучают GigaChat вести мультимодальные диалоги, а в области мультимодальных моделей содействовали разработке модели OmniFusion от Института искусственного интеллекта AIRI.


Карточки решений:

GigaChat, OmniFusion

Подробнее

Расскажите знакомым:

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0