Детский вопрос: что такое модели мира

2 октября, 13:01|

6233

«Модель мира станет ключевым компонентом будущих систем ИИ», — заявил французский ученый, лауреат премии Тьюринга, профессор Нью-Йоркского университета Ян Лекун, выступая 19 сентября 2025 года на симпозиуме консорциума Массачусетского технологического института по влиянию генеративного ИИ (MIT Generative AI Impact Consortium, MGAIC).

За последнее время компании из США и Китая разработали целый ряд подобных моделей. В течение 2025 года были представлены линейка моделей NVIDIA Cosmos (Cosmos Predict в январе, Cosmos Reason в мае, Cosmos Transfer в августе), обновленная версия модели V-JEPA (в июне), а также Genie 3 (в августе). В сентябре были показаны широкой общественности как минимум три модели мира: UnifoLM-WMA-0, Marble и Code World Model.

ICT.Moscow разобрался, почему с этой темой нередко связывают будущее искусственного интеллекта, и попросил экспертов высказаться об особенностях моделей мира, их востребованности, а также о перспективах применения технологии в России.

Представляя шахматную доску: чем являются модели мира

Понятие моделей мира (World Models) нельзя назвать новым в области глубокого обучения. В 2018 году Дэвид Ха совместно с Юргеном Шмидхубером обучил рекуррентную нейросеть создавать простые игровые окружения, такие, например, как гонки картинга. Созданная ими модель мира обучалась сжатому пространственному представлению и временной динамике игры. В понимании исследователей модель мира — это нейросеть, которая «без надзора формирует пространственное и временное представление об окружающей среде».

Этот мир может быть ограничен по объемности и описывать, например, всего лишь шахматную доску, отмечает исследователь в области машинного обучения и автор ряда научных статей Никита Сушко.

Двумя их (моделей мира — прим. ред) главными особенностями являются реактивность и работающие там законы мира.

Никита Сушко

исследователь в области машинного обучения

Некоторые специалисты отмечают, что модель мира может быть, по выражению Сушко, «свойством любой модели». В опубликованном в сентябре 2025 года препринте исследователи во главе с Джонатаном Ритченсом доказывают, что в любом способном обобщать ИИ-агенте содержится представление об окружающем его мире, т. е. модель мира. Как модель мира можно рассматривать и LLM, отмечает старший научный сотрудник группы «Воплощенные агенты» лаборатории когнитивных систем ИИ Института AIRI Алексей Староверов. Однако он подчеркивает, что сделать это можно «исключительно для текстового пространства».

Современные модели мира, отмечает эксперт, зачастую используют архитектуры, схожие с мультимодальными языковыми моделями. Для примера, модели мира NVIDIA, в частности Сosmos Predict, являются диффузионными трансформерами, как и значительная часть моделей для генерации видео и изображений. В основе некоторых других моделей мира лежит созданная Яном Лекуном в 2022 году архитектура JEPA (Joint Embedding Predictive Architecture). Модели такой архитектуры вместо обучения предсказанию следующего токена (как LLM) или пикселя (как модели генерации изображений) учатся предсказывать эмбеддинг (числовой вектор), содержащий описание абстрактного явления.

Однако, подчеркивает исследователь из Института AIRI, в отличие от LLM, у моделей мира «принципиально иная» цель.

Если LLM специализируется на обработке и генерации текста на основе статистических закономерностей, то модель мира стремится к имитации причинно-следственных связей и физических законов окружающей среды.

Алексей Староверов

cтарший научный сотрудник группы «Воплощенные агенты» лаборатории когнитивных систем ИИ Института AIRI

Такие модели, добавляет специалист, предсказывают «целую последовательность событий в интерактивной среде на основе текстового промпта и текущего состояния мира».

Думает как ребенок, играет как профи: в чем преимущества моделей мира

По мнению Яна Лекуна, у LLM глубокое понимание того, как устроен мир, отсутствует. «Ребенок четырех лет через зрение воспринял столько же данных, сколько и самая большая LLM», — указал исследователь из Франции.

Модели же мира, подчеркивал Лекун, подобно детям учатся пониманию физических, причинно-следственных связей через сенсорный опыт. Ученый выразил надежду, что такие модели могут стать основанием для систем ИИ, способных приспосабливаться к любым условиям и взаимодействовать с физическим миром в самых разных областях и сферах. Схожую с французским коллегой позицию занимает и Алексей Староверов, отмечающий, что LLM «не обладает пониманием физической реальности».

Устройства, например роботы, использующие модели мира, могут планировать свои действия перед тем, как их осуществить, подчеркнул руководитель научно-исследовательских работ IBM в Европе Хуан Бернабе-Морено. Производимая моделями в цифровых двойниках симуляция позволяет снизить риски и ускорить обучение таким задачам, как конвейерная сборка и работа на складе. Эта же способность помогает моделям мира обучаться быстрее на меньшем объеме данных. Так, одна из ранних моделей мира — IRIS — научилась играть сравнимо с лучшими игроками в компьютерные игры бенчмарка Atari 100k.

В то же время объем требуемых для обучения таких моделей данных остается значительным: для составления датасета для одной подобной модели компании Niantic Spatial потребовалось описать около 10 млн локаций игры Pokemon Go.

За рулем и в симуляции: что можно сделать с помощью моделей мира

В сентябре 2025 года вице-президент компании NVIDIA Рев Лебаредьян оценивал потенциальный объем рынка моделей мира в $100 трлн, «если нам удастся создать ИИ, который может понимать физический мир и действовать в нем». Использование моделей мира в системах физического ИИ — способных понимать и взаимодействовать с окружающим их реальным миром — видится одной из основных сфер их применения.

Алексей Староверов из Института AIRI называет самыми перспективными рыночными сегментами для внедрения моделей мира беспилотный транспорт и робототехнику.

В этих областях остро стоят проблемы нехватки обучающих данных и сложности валидации моделей в реальных условиях.

Алексей Староверов

cтарший научный сотрудник группы «Воплощенные агенты» лаборатории когнитивных систем ИИ Института AIRI

В беспилотных автомобилях модели мира уже работают. По данным проведенного в марте 2025 года специалистами из Хуачжунского университета науки и технологий и компании Baidu исследования, в мире насчитывалось почти 50 моделей, использовавшихся для подобных целей.

Разработчики британского стартапа Wayve, создавшие одну из моделей мира для автономного вождения, GAIA, поясняли, что такие решения позволяют беспилотному автомобилю предугадывать ситуацию на дороге и в соответствии с ней планировать свои действия. Генерация синтетических данных для обучения — одна из важнейших областей применения моделей мира, подчеркивает Алексей Староверов. Они могут создавать «огромные массивы разнообразных и, что особенно важно, редких, но критически значимых сценариев».

Я полагаю, что модели мира уже используются в прикладных продуктах. К примеру, роботы-доставщики «Яндекса», которые так бодро катаются по улицам Москвы, скорее всего, учились с помощью какой-то специализированной модели генерации видео, являющейся в некотором смысле моделью мира.

Никита Сушко

исследователь в области машинного обучения

Модели мира кажутся основой для одной из составляющих физического ИИ — воплощенного ИИ (Embodied AI), то есть систем искусственного интеллекта, непосредственно взаимодействующих с окружающим их миром. Так, модели мира использовались при обучении человекоподобного робота Optimus.

Модели мира, рассказывает Алексей Староверов из AIRI, помогают в планировании действий ИИ-агентам. Предсказывая развитие событий «на несколько секунд вперед», ИИ-агент заранее вырабатывает оптимальную стратегию поведения.

В опубликованном в июле 2025 года на arXiv препринте научной статьи на близкую тему выделяется три типа воплощенных ИИ-агентов (Embodied AI Agents). Виртуальные воплощенные агенты — 2D- или 3D-двойники роботов-андроидов — могут использоваться в качестве ИИ-психологов, участников виртуальных сред, аватаров при создании видеоконтента и игр. Воплощенные агенты могут внедряться и в носимые устройства. Так, ведется работа над созданием ИИ-агентов для умных очков. Подобные решения будут как ассистировать пользователям подобных гаджетов (подсказывать рецепты при готовке, давать инструкции по сборке мебели и т. п.), так и обучать их или помогать при восстановлении после травм и болезней. Наконец, предполагается использование ИИ-агентов как операторов роботов.

Также модели мира, рассказывает Алексей Староверов, используются для симуляции окружений, где валидируют и тестируют ИИ-системы.

Проводить опасные эксперименты в реальном мире (например, проверять реакцию беспилотника на внезапное появление пешехода) непрактично и рискованно. Модель мира позволяет безопасно и дешево протестировать поведение системы в тысячах таких сценариев с фотореалистичными данными.

Алексей Староверов

cтарший научный сотрудник группы «Воплощенные агенты» лаборатории когнитивных систем ИИ Института AIRI

Применяют модели мира, отмечает эксперт, и «для создания интерактивного видео- и игрового контента». По предположению Никиты Сушко, так уже делают и в России: вероятно, появившиеся в «Шедевруме» и Kandinsky функции «оживления» изображений используют те же технологии, что и генерирующие 3D-пространства модели, такие как, например, уже упомянутая Genie.

Число специализированных для этого решений растет. В 2024–2025 годах были выложены в открытый доступ ряд моделей, генерирующих контролируемое игровое окружение. Это, в частности, Oasis (октябрь 2024 года), MineWorld (апрель 2025 года), Matrix-Game (июнь 2025 года). Постепенно продукты на основе моделей мира находят и коммерческое применение. В августе 2025 года была представлена бета-версия платформы Runway Game Worlds, которая с помощью моделей в реальном времени генерирует игровое окружение и персонажей со своими историями.

По мнению специалистов из французской компании Argo, генерируемые геймерами в играх данные являются перспективным материалом для обучения моделей мира, в частности архитектур JEPA. Они содержат примеры причинно-следственных отношений, позволяют обучаться фундаментальным представлениям о физике и социальных взаимодействиях, стратегическому мышлению.

Однако пока, по мнению Никиты Сушко, до полноценного использования моделей — генераторов миров, таких как Genie или Marble, в игровой индустрии далеко.

Возможно, в будущем мы сможем создавать видеоигры, основанные на подобных Genie моделях, но пока что нам не хватает понимания работы нейросетей, чтобы делать это стабильно и качественно.

Никита Сушко

исследователь в области машинного обучения

Что ждет модели мира в России и в мире

Массовое внедрение моделей мира в конечные потребительские продукты, считает Алексей Староверов, «пока маловероятно». Эксперт указывает на ресурсоемкость моделей мира, которые требуют значительно больше вычислительных мощностей, «чем даже самые передовые LLM». «Сейчас сложно представить, как такие затраты могут окупиться в повседневных приложениях для обычных пользователей», — сомневается специалист. По мнению Никиты Сушко, модели мира станут «инструментами для конкретных прикладных задач».

В России, подчеркивает Алексей Староверов, «есть все необходимые компетенции для разработки собственных моделей мира, если возникнет такая стратегическая необходимость». Но, отмечает Никита Сушко, на это может еще потребоваться какое-то время.

Как только бизнес поймет, как можно извлечь выгоду из моделей мира, сразу же в топовых компаниях появятся магистральные проекты для создания таких проектов. Но пока что выгода неочевидна, так что центральной темой все еще являются языковые модели.

Никита Сушко

исследователь в области машинного обучения

Тематика:

#беспилотный_транспорт #видеоигры

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #ИИ-агент #робототехника #цифровые_двойники #3D

Компании:

#AIRI

Расскажите знакомым:

Материалы
по теме: