
«Модель мира станет ключевым компонентом будущих систем ИИ», — заявил французский ученый, лауреат премии Тьюринга, профессор Нью-Йоркского университета Ян Лекун, выступая 19 сентября 2025 года на симпозиуме консорциума Массачусетского технологического института по влиянию генеративного ИИ (MIT Generative AI Impact Consortium, MGAIC).
За последнее время компании из США и Китая разработали целый ряд подобных моделей. В течение 2025 года были представлены линейка моделей NVIDIA Cosmos (Cosmos Predict в январе, Cosmos Reason в мае, Cosmos Transfer в августе), обновленная версия модели V-JEPA (в июне), а также Genie 3 (в августе). В сентябре были показаны широкой общественности как минимум три модели мира: UnifoLM-WMA-0, Marble и Code World Model.
ICT.Moscow разобрался, почему с этой темой нередко связывают будущее искусственного интеллекта, и попросил экспертов высказаться об особенностях моделей мира, их востребованности, а также о перспективах применения технологии в России.
Понятие моделей мира (World Models) нельзя назвать новым в области глубокого обучения. В 2018 году Дэвид Ха совместно с Юргеном Шмидхубером обучил рекуррентную нейросеть создавать простые игровые окружения, такие, например, как гонки картинга. Созданная ими модель мира обучалась сжатому пространственному представлению и временной динамике игры. В понимании исследователей модель мира — это нейросеть, которая «без надзора формирует пространственное и временное представление об окружающей среде».
Этот мир может быть ограничен по объемности и описывать, например, всего лишь шахматную доску, отмечает исследователь в области машинного обучения и автор ряда научных статей Никита Сушко.

исследователь в области машинного обучения
Некоторые специалисты отмечают, что модель мира может быть, по выражению Сушко, «свойством любой модели». В опубликованном в сентябре 2025 года препринте исследователи во главе с Джонатаном Ритченсом доказывают, что в любом способном обобщать ИИ-агенте содержится представление об окружающем его мире, т. е. модель мира. Как модель мира можно рассматривать и LLM, отмечает старший научный сотрудник группы «Воплощенные агенты» лаборатории когнитивных систем ИИ Института AIRI Алексей Староверов. Однако он подчеркивает, что сделать это можно «исключительно для текстового пространства».
Современные модели мира, отмечает эксперт, зачастую используют архитектуры, схожие с мультимодальными языковыми моделями. Для примера, модели мира NVIDIA, в частности Сosmos Predict, являются диффузионными трансформерами, как и значительная часть моделей для генерации видео и изображений. В основе некоторых других моделей мира лежит созданная Яном Лекуном в 2022 году архитектура JEPA (Joint Embedding Predictive Architecture). Модели такой архитектуры вместо обучения предсказанию следующего токена (как LLM) или пикселя (как модели генерации изображений) учатся предсказывать эмбеддинг (числовой вектор), содержащий описание абстрактного явления.
Однако, подчеркивает исследователь из Института AIRI, в отличие от LLM, у моделей мира «принципиально иная» цель.

cтарший научный сотрудник группы «Воплощенные агенты» лаборатории когнитивных систем ИИ Института AIRI
Такие модели, добавляет специалист, предсказывают «целую последовательность событий в интерактивной среде на основе текстового промпта и текущего состояния мира».
По мнению Яна Лекуна, у LLM глубокое понимание того, как устроен мир, отсутствует. «Ребенок четырех лет через зрение воспринял столько же данных, сколько и самая большая LLM», — указал исследователь из Франции.
Модели же мира, подчеркивал Лекун, подобно детям учатся пониманию физических, причинно-следственных связей через сенсорный опыт. Ученый выразил надежду, что такие модели могут стать основанием для систем ИИ, способных приспосабливаться к любым условиям и взаимодействовать с физическим миром в самых разных областях и сферах. Схожую с французским коллегой позицию занимает и Алексей Староверов, отмечающий, что LLM «не обладает пониманием физической реальности».
Устройства, например роботы, использующие модели мира, могут планировать свои действия перед тем, как их осуществить, подчеркнул руководитель научно-исследовательских работ IBM в Европе Хуан Бернабе-Морено. Производимая моделями в цифровых двойниках симуляция позволяет снизить риски и ускорить обучение таким задачам, как конвейерная сборка и работа на складе. Эта же способность помогает моделям мира обучаться быстрее на меньшем объеме данных. Так, одна из ранних моделей мира — IRIS — научилась играть сравнимо с лучшими игроками в компьютерные игры бенчмарка Atari 100k.
В то же время объем требуемых для обучения таких моделей данных остается значительным: для составления датасета для одной подобной модели компании Niantic Spatial потребовалось описать около 10 млн локаций игры Pokemon Go.
В сентябре 2025 года вице-президент компании NVIDIA Рев Лебаредьян оценивал потенциальный объем рынка моделей мира в $100 трлн, «если нам удастся создать ИИ, который может понимать физический мир и действовать в нем». Использование моделей мира в системах физического ИИ — способных понимать и взаимодействовать с окружающим их реальным миром — видится одной из основных сфер их применения.
Алексей Староверов из Института AIRI называет самыми перспективными рыночными сегментами для внедрения моделей мира беспилотный транспорт и робототехнику.

cтарший научный сотрудник группы «Воплощенные агенты» лаборатории когнитивных систем ИИ Института AIRI
В беспилотных автомобилях модели мира уже работают. По данным проведенного в марте 2025 года специалистами из Хуачжунского университета науки и технологий и компании Baidu исследования, в мире насчитывалось почти 50 моделей, использовавшихся для подобных целей.
Разработчики британского стартапа Wayve, создавшие одну из моделей мира для автономного вождения, GAIA, поясняли, что такие решения позволяют беспилотному автомобилю предугадывать ситуацию на дороге и в соответствии с ней планировать свои действия. Генерация синтетических данных для обучения — одна из важнейших областей применения моделей мира, подчеркивает Алексей Староверов. Они могут создавать «огромные массивы разнообразных и, что особенно важно, редких, но критически значимых сценариев».

исследователь в области машинного обучения
Модели мира кажутся основой для одной из составляющих физического ИИ — воплощенного ИИ (Embodied AI), то есть систем искусственного интеллекта, непосредственно взаимодействующих с окружающим их миром. Так, модели мира использовались при обучении человекоподобного робота Optimus.
Модели мира, рассказывает Алексей Староверов из AIRI, помогают в планировании действий ИИ-агентам. Предсказывая развитие событий «на несколько секунд вперед», ИИ-агент заранее вырабатывает оптимальную стратегию поведения.
В опубликованном в июле 2025 года на arXiv препринте научной статьи на близкую тему выделяется три типа воплощенных ИИ-агентов (Embodied AI Agents). Виртуальные воплощенные агенты — 2D- или 3D-двойники роботов-андроидов — могут использоваться в качестве ИИ-психологов, участников виртуальных сред, аватаров при создании видеоконтента и игр. Воплощенные агенты могут внедряться и в носимые устройства. Так, ведется работа над созданием ИИ-агентов для умных очков. Подобные решения будут как ассистировать пользователям подобных гаджетов (подсказывать рецепты при готовке, давать инструкции по сборке мебели и т. п.), так и обучать их или помогать при восстановлении после травм и болезней. Наконец, предполагается использование ИИ-агентов как операторов роботов.
Также модели мира, рассказывает Алексей Староверов, используются для симуляции окружений, где валидируют и тестируют ИИ-системы.

cтарший научный сотрудник группы «Воплощенные агенты» лаборатории когнитивных систем ИИ Института AIRI
Применяют модели мира, отмечает эксперт, и «для создания интерактивного видео- и игрового контента». По предположению Никиты Сушко, так уже делают и в России: вероятно, появившиеся в «Шедевруме» и Kandinsky функции «оживления» изображений используют те же технологии, что и генерирующие 3D-пространства модели, такие как, например, уже упомянутая Genie.
Число специализированных для этого решений растет. В 2024–2025 годах были выложены в открытый доступ ряд моделей, генерирующих контролируемое игровое окружение. Это, в частности, Oasis (октябрь 2024 года), MineWorld (апрель 2025 года), Matrix-Game (июнь 2025 года). Постепенно продукты на основе моделей мира находят и коммерческое применение. В августе 2025 года была представлена бета-версия платформы Runway Game Worlds, которая с помощью моделей в реальном времени генерирует игровое окружение и персонажей со своими историями.
По мнению специалистов из французской компании Argo, генерируемые геймерами в играх данные являются перспективным материалом для обучения моделей мира, в частности архитектур JEPA. Они содержат примеры причинно-следственных отношений, позволяют обучаться фундаментальным представлениям о физике и социальных взаимодействиях, стратегическому мышлению.
Однако пока, по мнению Никиты Сушко, до полноценного использования моделей — генераторов миров, таких как Genie или Marble, в игровой индустрии далеко.

исследователь в области машинного обучения
Массовое внедрение моделей мира в конечные потребительские продукты, считает Алексей Староверов, «пока маловероятно». Эксперт указывает на ресурсоемкость моделей мира, которые требуют значительно больше вычислительных мощностей, «чем даже самые передовые LLM». «Сейчас сложно представить, как такие затраты могут окупиться в повседневных приложениях для обычных пользователей», — сомневается специалист. По мнению Никиты Сушко, модели мира станут «инструментами для конкретных прикладных задач».
В России, подчеркивает Алексей Староверов, «есть все необходимые компетенции для разработки собственных моделей мира, если возникнет такая стратегическая необходимость». Но, отмечает Никита Сушко, на это может еще потребоваться какое-то время.

исследователь в области машинного обучения
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.