logo OmniFusion

OmniFusion

Мультимодальная ИИ-модель

Описание:

Языковая модель OmniFusion способна поддерживать визуальный диалог и отвечать на вопросы по картинкам. Ее иностранными аналогами являются такие продукты, как LLaVA, Gemini, GPT-4 Vision и китайские Qwen, DeepSeek и LVIS. Первая версия была презентована в ноябре 2023 года.

В апреле 2024 года в свободном доступе была опубликована версия OmniFusion 1.1, которая предназначена для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например изображений, а в перспективе — аудио-, 3D- и видеоконтента.

Эта версия способна распознать и описать изображение. С ее помощью можно проанализировать карту помещений или узнать, как собрать устройство по фото его отдельных комплектующих. Также OmniFusion 1.1 умеет распознавать тексты, решать логические задачи. С ее помощью можно решить математический пример, написанный на доске, или распознать формулу и получить ее представление в формате LaTeX.

Качество модели оценивали в разных вариантах ее архитектуры при помощи ряда бенчмарков (специализированных текстов для анализа эффективности ИИ-моделей в ответах на визуальные вопросы).

Модель можно использовать как в некоммерческой, так и в коммерческой деятельности.


Репозиторий на GitHub

Текстовый обзор на Habr

Technical Report на arXiv


logo OmniFusion
Проект запущен:
2023
Последнее обновление:15.04.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0