Компания «Яндекс» ведет разработку мультимодальной модели SpeechGPT. Она будет воспринимать текст и звук и отвечать при их же помощи, решать разные задачи на стыке текста и звука. В «Яндексе» пояснили, что работают над мультимодальностью в ассистенте «Алиса» и других сервисах, однако новых подробностей не раскрыли. Сейчас компания ищет ML-инженера в команду SpeechGPT.
В настоящее время некоторые нейросетевые сервисы «Яндекса» уже позволяют принимать вводные данные разных видов, но процесс происходит с преобразованием их из одного вида в другой. Как поясняет сооснователь Just AI Кирилл Петров, мультимодальные модели позволяют учитывать весь контент, причем без задержек.
По словам Владимира Кравцева из Axenix, MVP SpeechGPT может появиться в ближайшие месяцы, «дальше пойдет процесс непрерывных улучшений». Эксперт полагает, что SpeechGPT будет прежде всего встраиваться в «уже существующие сервисы, связанные с каналами коммуникации с клиентами, партнерами «Яндекса», то есть будет происходить постепенная замена текущих более простых моделей на современные».
В свою очередь в Сбербанке сообщили, что обучают GigaChat вести мультимодальные диалоги, а в области мультимодальных моделей содействовали разработке модели OmniFusion от Института искусственного интеллекта AIRI.
Карточки решений:
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.