15
Мультимодальный ИИ «не должен быть прикручен ради тренда»
В 2024 году как в мире, так и в России была представлена серия громких проектов в области мультимодального ИИ. Ученые из-за сходства таких моделей с человеческим восприятием прогнозируют направлению большие перспективы, а аналитики говорят о среднегодовом 35-процентном росте сегмента в ближайшие годы.
Эксперты отмечают, что развитие мультимодальности становится неизбежным и уже превратилось в устойчивое направление исследований.
Александр Панов, директор Центра когнитивного моделирования МФТИ:
«Все давно осознали тот факт, что только одна текстовая модальность, на которой раньше основывались Foundation-модели, уже практически исчерпана. И если мы хотим повышать качество решений или качество ассистентов, то нам нужно двигаться в сторону видео и аудио. Альтернатив этому пути нет. Поэтому Foundation-модели уже практически становятся мультимодальными. Мы это видим по GPT-4o, есть и другие примеры. Конечно, все это будет развиваться и дальше в 2025 году».
К наиболее изученным модальностям эксперты относят текстовую, она же является наиболее востребованной в повседневной жизни.
Роман Стятюгин, директор центра аналитических сервисов VK Predict:
«Основные изменения последнего времени заключаются в том, что голосовые помощники становятся все более основанными на LLM. Текстовая модальность востребована с точки зрения общения с ИИ-консультантами, например, банков, телеком-компаний, интернет- и E-commerce-платформ и т. д.».
Что касается трендов, то сейчас большое внимание разработчики уделяют сжатию и оптимизации моделей, чтобы сделать их более компактными и энергоэффективными.
Роман Исаченко, руководитель подгруппы дискриминативного анализа изображений «Яндекса»:
«Тренд на уменьшение объема моделей уже начался, так как парадигма по привлечению все больших мощностей не может продолжаться вечно. Данные появляются с большей скоростью, чем их успевают «поглощать» модели. Поэтому методы уменьшения моделей — крайне важная точка развития мультимодальности».
🧠 Своим мнением также поделились представители «Сбера», T-Bank AI Research, AIRI, НИУ ВШЭ. Подробнее
В 2024 году как в мире, так и в России была представлена серия громких проектов в области мультимодального ИИ. Ученые из-за сходства таких моделей с человеческим восприятием прогнозируют направлению большие перспективы, а аналитики говорят о среднегодовом 35-процентном росте сегмента в ближайшие годы.
Эксперты отмечают, что развитие мультимодальности становится неизбежным и уже превратилось в устойчивое направление исследований.
Александр Панов, директор Центра когнитивного моделирования МФТИ:
«Все давно осознали тот факт, что только одна текстовая модальность, на которой раньше основывались Foundation-модели, уже практически исчерпана. И если мы хотим повышать качество решений или качество ассистентов, то нам нужно двигаться в сторону видео и аудио. Альтернатив этому пути нет. Поэтому Foundation-модели уже практически становятся мультимодальными. Мы это видим по GPT-4o, есть и другие примеры. Конечно, все это будет развиваться и дальше в 2025 году».
К наиболее изученным модальностям эксперты относят текстовую, она же является наиболее востребованной в повседневной жизни.
Роман Стятюгин, директор центра аналитических сервисов VK Predict:
«Основные изменения последнего времени заключаются в том, что голосовые помощники становятся все более основанными на LLM. Текстовая модальность востребована с точки зрения общения с ИИ-консультантами, например, банков, телеком-компаний, интернет- и E-commerce-платформ и т. д.».
Что касается трендов, то сейчас большое внимание разработчики уделяют сжатию и оптимизации моделей, чтобы сделать их более компактными и энергоэффективными.
Роман Исаченко, руководитель подгруппы дискриминативного анализа изображений «Яндекса»:
«Тренд на уменьшение объема моделей уже начался, так как парадигма по привлечению все больших мощностей не может продолжаться вечно. Данные появляются с большей скоростью, чем их успевают «поглощать» модели. Поэтому методы уменьшения моделей — крайне важная точка развития мультимодальности».
🧠 Своим мнением также поделились представители «Сбера», T-Bank AI Research, AIRI, НИУ ВШЭ. Подробнее