Мультимодальная ИИ-модель
Языковая модель OmniFusion способна поддерживать визуальный диалог и отвечать на вопросы по картинкам. Ее иностранными аналогами являются такие продукты, как LLaVA, Gemini, GPT-4 Vision и китайские Qwen, DeepSeek и LVIS. Первая версия была презентована в ноябре 2023 года.
В апреле 2024 года в свободном доступе была опубликована версия OmniFusion 1.1, которая предназначена для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например изображений, а в перспективе — аудио-, 3D- и видеоконтента.
Эта версия способна распознать и описать изображение. С ее помощью можно проанализировать карту помещений или узнать, как собрать устройство по фото его отдельных комплектующих. Также OmniFusion 1.1 умеет распознавать тексты, решать логические задачи. С ее помощью можно решить математический пример, написанный на доске, или распознать формулу и получить ее представление в формате LaTeX.
Качество модели оценивали в разных вариантах ее архитектуры при помощи ряда бенчмарков (специализированных текстов для анализа эффективности ИИ-моделей в ответах на визуальные вопросы).
Модель можно использовать как в некоммерческой, так и в коммерческой деятельности.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.