Мультимодальный искусственный интеллект — модели глубокого обучения, способные одновременно обрабатывать данные разных типов (текст, изображения, видео, 3D и пр.) — получил заметное развитие в 2024 году, которое будет продолжаться в ближайшие годы.
На глобальном уровне среднегодовой темп прироста этого сегмента в перспективе ближайших лет будет составлять 35%, прогнозируют аналитики из MarketsandMarkets. Исследователи же отмечают, что именно MLLM (Multimodal Large Language Model, или мультимодальные большие языковые модели) демонстрируют наибольшее сходство с человеческим восприятием, что открывает перед мультимодальностью большие перспективы.
В России также наблюдается интерес к ИИ как универсальному инструменту для работы с разнородной информацией. В разработку различных мультимодальных продуктов активно вошли бигтех и научные центры, включая МГУ им. М.В. Ломоносова, СПбГУ и Сбербанк.
ICT.Moscow составил краткий обзор существующих мультимодальных решений, обсудил с представителями компаний-разработчиков («Яндекс», «Сбер», T-Bank AI Research, VK) и научных центров (AIRI, МФТИ, НИУ ВШЭ) вопросы востребованности бизнесом таких продуктов, стоящие перед ними барьеры, а также прогнозы на 2025 год.
Рынок ИИ в 2024 году запомнился серией мультимодальных проектов. OpenAI презентовала модель GPT-4o и анонсировала первую «размышляющую» модель o1-preview. Компания Meta (признана экстремистской и запрещена в РФ) выпустила семейство открытых мультимодальных моделей Llama 3.2, представила серию алгоритмов Movie Gen для создания видео- и аудиоконтента, а также квантованные версии Llama для мобильных устройств, подтвердив тенденцию к сжатию моделей. Google выпустила Med-Gemini для медицинских задач, способную анализировать ЭКГ, рентгенограммы, медкарты и другую информацию, и представила мультимодальную Gemini 1.5 для более общих задач. А французская некоммерческая лаборатория Kyutai Labs создала Moshi — первую систему для полноценного речевого диалога с минимальным временем отклика. Наконец, китайская ByteDance выпустила LLaVA-OneVision — мультимодальную систему, ставшую лидером по обработке изображений и видео.
Серию мультимодальных разработок анонсировали и в России. В апреле в открытый доступ Институт искусственного интеллекта AIRI выложил свою OmniFusion 1.1. Система создавалась при участии ученых и разработчиков из Sber AI и SberDevices. На момент презентации модель могла распознавать и описывать изображения, работать с текстом и решать логические задачи. В перспективе планировалось расширить число модальностей — добавить работу с аудио-, 3D- и видеоконтентом.
В том же апреле «Яндекс» показал мультимодальный сценарий в «Нейро» на базе собственной VLM-модели (Visual Language Model, или визуально‑текстовой мультимодальной модели), которая также работает в «умной камере» в приложении «Яндекс» с «Алисой». В «Нейро» пользователь может задать вопрос картинкой и текстом и получить сгенерированный ответ, напомнили в компании.
руководитель подгруппы дискриминативного анализа изображений «Яндекса»
Серию обновлений получил и GigaChat «Сбера». В 2024 году, заметил технический директор этого проекта Фёдор Минькин, продукт дополнили модальностью изображений на основе GigaChat Vision. Это дало возможность пользователям решать задачи на стыке текста и изображений: работать с таблицами, графиками и другими документами.
Таким образом, мультимодальность из многообещающего тренда превратилась в устойчивое направление исследований в области ИИ, констатирует генеральный директор AIRI Иван Оселедец.
генеральный директор Института искусственного интеллекта AIRI
Одна из основных причин популярности мультимодальных моделей обусловлена их высокой эффективностью в обработке неструктурированных данных различного типа и глубоким пониманием контекста сложных задач, пояснял ранее эксперт компании Axenix (ex-Accenture). Например, исследователи из Торонто в 2024 году выяснили, что модели по типу VideoMAEv2 (системы Video Masked Autoencoders, предназначенные для обработки видео, созданы группой китайских ученых) превосходят предыдущие одномодальные решения благодаря способности обрабатывать временные и пространственные данные одновременно. А CAV-MAE (Contrastive Attention-based Video Masked Autoencoder — системы для обработки аудиовизуальных данных, разработанные международной группой ученых) демонстрируют большую согласованность между аудио- и видеоданными. Кроме того, исследователи доказали, что подобные модели лучше адаптируются к новым задачам, так как используют дополнительные контексты (например, связь между видео и звуком).
Александр Панов из МФТИ считает, что развитие мультимодальности становится фактически неизбежным, учитывая, что потенциал чисто текстовых моделей практически исчерпан.
директор Центра когнитивного моделирования МФТИ
Хотя компании стремятся создать модели, способные работать с множеством различных модальностей, большинство таких решений пока уверенно генерирует лишь самые распространенные типы данных — текст, изображения и аудио. Что касается последнего, сценарии использования в основном связаны с преобразованием речи в текст и наоборот, замечает исследователь лаборатории T-Bank AI Research Станислав Дерека.
Создание же новых видов контента, таких как 3D и видео, все еще вызывает трудности. Например, автор исследования The Survey of SoTA Multimodal Architectures от 2023 года указывал, что современные мультимодальные системы часто используют специальные адаптеры, которые настраиваются только под конкретные задачи работы с разными типами данных. Подобная проблема сохранялась и в 2024 году. Авторы исследования A Comprehensive Review of Multimodal Generative Models: Challenges in Video and 3D Content Creation отмечали, что современные решения зачастую полагаются на дополнительные модули для каждого отдельного кейса. Такой подход имеет свои ограничения и показывает, что методы объединения разных типов контента требуют дальнейшего развития.
В настоящее время к наиболее изученным модальностям можно отнести текстовую. Следом идут изображения и аудио. При этом в VK Lab выделяют речевое направление как одно из самых неисследованных.
руководитель лаборатории искусственного интеллекта VK Lab
Что касается популярности различных модальностей, она напрямую связана с их развитием. В повседневной жизни самой востребованной остается наиболее отточенная текстовая модальность. Также активно используется речевая модальность, что обусловлено растущим распространением голосовых помощников, умных колонок и прочих устройств с голосовым управлением.
директор центра аналитических сервисов VK Predict
Но похоже, что главным потребителем мультимодальных моделей все же станет бизнес. Все опрошенные эксперты ICT.Moscow подтвердили: подобные решения уже используются в B2B, и в ближайшие годы этот тренд будет только усиливаться. При этом мультимодальные модели находят применение в самых разнообразных сценариях и сферах: от промышленного сектора до медицины.
В промышленности и на производстве, напомнил заведующий центром глубинного обучения и байесовских методов Института искусственного интеллекта и цифровых наук факультета компьютерных наук НИУ ВШЭ Айбек Аланов, подобные системы помогают объединять данные с оборудования, изображения и текстовые отчеты для предиктивного обслуживания и оптимизации процессов. Эффективны мультимодальные технологии в обучении и развитии персонала через программы, сочетающие текст, видео, аудио и виртуальную реальность. В области кибербезопасности они используются для анализа различных типов данных с целью предотвращения сложных атак, а в маркетинге и анализе данных помогают лучше понимать потребности клиентов и создавать персонализированные стратегии.
Есть и более специализированные проекты. Один из них, заметил Роман Стятюгин, — проектирование узлов и агрегатов в виде схем и изображений с описанием. А соединение визуальных данных (например, чертежей CAD) с текстовыми спецификациями может упростить процесс проектирования в строительстве, добавил Иван Оселедец. Разработкой проекта, при котором ИИ будет создавать полную схему объекта и его техническую документацию, планировали заняться и в самом AIRI.
Особый интерес к мультимодальным моделям проявляет медицина. Уже сегодня одновременная интеграция медицинских изображений, электронных записей и генетической информации улучшает диагностику, персонализированное лечение и позволяет выявлять заболевания на ранних стадиях. Применение мультимодальных моделей в медицине, уверен Иван Оселедец, является крайне перспективным, так как «позволяет анализировать различные типы документов и создавать более комплексные выводы».
При этом эксперт отметил, что вне зависимости от сегмента рынка, для которого создают решения разработчики, отталкиваться нужно именно от бизнес-задачи.
генеральный директор Института искусственного интеллекта AIRI
Дальнейшее развитие мультимодальных систем сталкивается с целым рядом ограничительных факторов — это характерно и для глобального рынка, и для России. Многие из них знакомы и разработчикам унимодальных продуктов, например дефицит вычислительных мощностей. Для сравнения: чтобы обучить Llama 3.1 c 405 млрд параметров, Meta потребовалось более 16 тыс. графических процессоров NVIDIA H100.
Большинство крупных компаний, включая OpenAI, не раскрывают данные о количестве использованных вычислительных мощностей. Однако исследователи MIT подчеркивали: все мультимодальные модели требуют более сложных алгоритмов и больших ресурсов по сравнению с традиционными унимодальными системами. А это значит, что для создания того же GPT-4o и o1-preview компании потребовалось в разы больше мощностей, чем использовалось при обучении ее прошлых продуктов.
В России ситуация с вычислительными ресурсами стоит острее, чем в странах Запада или Китае. Санкционное ограничение, уход западных вендоров и, как следствие, медленное обновление инфраструктуры сказывается на развитии ИИ-проектов. Как отмечает Егор Спирин, обучать мультимодальные модели с нуля «могут единицы, и в большинстве случаев происходит разного уровня адаптация открытых популярных моделей». В свою очередь исследователь в научной группе Multimodal LLMs лаборатории T-Bank AI Research Георгий Бредис обращает внимание на то, что большинство современных технологий «требует значительно больших вычислительных мощностей, чем те, которые доступны».
В связи с этим одной из набирающих популярность тенденций в развитии мультимодальных моделей становятся их сжатие и оптимизация. Исследователи как в России, так и в мире все больше внимания уделяют методам компрессии моделей, таким как квантизация, дистилляция знаний и прунинг, чтобы сделать их более компактными и энергоэффективными. Это объясняется не только потребностью в сокращении вычислительных затрат, но и необходимостью развертывания алгоритмов на пользовательских устройствах.
руководитель подгруппы дискриминативного анализа изображений «Яндекса»
Несколько иного мнения придерживается Егор Спирин. Эксперт замечает, что методы сжатия и ускорения применяются на стадии использования моделей, что позволяет задействовать меньше ресурсов при их работе. Однако на этапе создания и обучения такие подходы не используются. Подтверждают данный тезис и в «Сбере».
технический директор GigaChat
Еще одна проблема, которую выделили опрошенные ICT.Moscow эксперты — кадровый голод и недостаточная коллаборация. Сотрудничество между уже существующими научными группами, подчеркивает Георгий Бредис, в рамках совместных исследований происходит не так часто, как это требуется. Это затрудняет обмен знаниями и сдерживает развитие новых подходов и технологий. На мировой научной арене активно исследуются различные подходы к улучшению моделей, причем зачастую они основаны на пересечении нескольких областей знаний, которые ранее могли казаться экспертам совершенно независимыми друг от друга. Для таких междисциплинарных исследований необходимы специалисты с различным бэкграундом и разными подходами к решению задач, поясняет эксперт.
В России преградой на пути развития мультимодальных моделей становятся сами русскоязычные данные — их попросту недостаточно.
директор Центра когнитивного моделирования МФТИ
Проблема нехватки качественных русскоязычных датасетов остается актуальной не первый год. CEO ИТ‑компании «ДЮК Технологии» Александр Сулейкин обращал внимание на недостаточный уровень культуры хранения и обработки данных на стороне самих компаний. Более того, по состоянию на март 2024 года почти 70% российского рынка решений для сбора, аналитики и визуализации данных (BI-систем) были представлены иностранными вендорами.
Во многом роль ведущих по разработке новых русскоязычных наборов данных взяли на себя ИТ-гиганты. Например, «Сбер» анонсировал крупный открытый датасет для распознавания эмоций в устной речи на русском языке Dusha. MTS AI и «Сколтех» создали набор данных RuPAWS, с помощью которого можно обучать и тестировать модели для идентификации парафразов. В прошлом году «Яндекс» выпустил Geo Reviews Dataset 2023 — набор отзывов об организациях, опубликованных на «Яндекс Картах». А в декабре 2024 года ученые T-Bank AI Research и Института AIRI представили публичный датасет для контекстного обучения с подкреплением — XLand-100B.
Впрочем, как заметил Иван Оселедец, в контексте развития мультимодальных моделей региональные ограничения не имеют столь большого значения.
генеральный директор Института искусственного интеллекта AIRI
Во многом фокус дальнейшего развития мультимодальных систем в России будет соответствовать мировым тенденциям. Как замечает Александр Панов, в первую очередь это работа с более качественными визуальными данными — длинные видео и более качественные картинки, а также разработка модальностей, связанных с робототехникой, сфера которой является прямым потребителем мультимодальности. Кроме того, продолжится улучшение работы с интерфейсами, оптимизация взаимодействия в сложных динамических средах и прогресс в понимании сложных деталей, добавляет Георгий Бредис.
исследователь в научной группе Multimodal LLMs, лаборатория исследований искусственного интеллекта T-Bank AI Research
Сами крупные технологические компании уже формируют стратегии по интеграции мультимодальных решений. «Яндекс» планирует расширять области применения таких моделей, фокусируясь на их адаптации к различным форматам данных. При этом Егор Спирин из VK Lab считает, что «российские компании будут стремиться к внедрению мультимодальных моделей в собственные продукты».
руководитель лаборатории искусственного интеллекта VK Lab
Фёдор Минькин полагает, что перед российскими разработчиками стоят сразу несколько фундаментальных задач: сделать единую модель, которая сможет принимать несколько модальностей на вход без потерь качества, добавить модальность (например, голос) на выход и научиться использовать другие мультимодальные системы (например, нейросети, генерирующие видео или изображения) «в тандеме с LLM».
На вектор развития мультимодальности, очевидно, окажут влияние и общие тренды в индустрии ИИ. Первостепенное значение приобретает развитие автономности систем. Роман Стятюгин прогнозирует появление самостоятельных ИИ-агентов, способных не только анализировать информацию, но и принимать независимые решения. Это изменение означает качественный скачок в технологическом развитии. Помимо этого, рынок ИИ, по его мнению, будет делать ставку на дальнейшее масштабирование языковых моделей и повышение их качества в решении логических и математических задач, а также в написании кода.
Исполнительный директор MTS AI Дмитрий Марков уверен, что одним из ведущих направлений станет использование LLM для работы с видео. В числе прочего подобные модели могут быть полезны для фильтрации: они способны анализировать видео на наличие недопустимого контента, упрощая модерацию на крупных платформах, где объемы информации делают ручную проверку невозможной.
Роман Исаченко полагает, что на первый план выйдет возможность практического использования моделей, что будет включать в себя ряд качественных улучшений (борьба с галлюцинациями, следование инструкциям), создание агентных систем, а также области оптимизации использования, в том числе новые подходы к ускорению времени работы и уменьшению зависимости от вычислительных мощностей. Отдельно эксперт выделяет тренд на создание синтетических датасетов: «Современные модели все чаще используются для создания новых наборов данных для обучения еще более продвинутых моделей».
Комментируя для ICT.Moscow свой прогноз конца прошлого года, директор по развитию искусственного интеллекта в «Яндексе» Александр Крайнов отмечает, что «прогресс в мультимодальности пока не очень большой, в 2025 году тренд на мультимодальность продолжится». При этом он убежден, что «стоит ожидать активного развития направления мультиагентных систем».
Агентные системы как тренд в ИИ 2025 года выделяет и Фёдор Минькин. По его словам, оценить возможности таких решений мы можем уже сегодня.
технический директор GigaChat
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.