
Бенчмарк для LLM
Выложенный в открытый доступ бенчмарк HeroBench проверяет способность LLM к структурированному мышлению, обработке комплексного контекста, декомпозиции задач, долгосрочному планированию,
Решение базируется на среде Artifacts, MMORPG-игру-песочницу (Massively Multiplayer Online Кole-Playing Game, массовая многопользовательская ролевая онлайн-игра), где персонажей можно контролировать по API.
Датасет HeroBench включает в себя 844 промпта, содержащих информацию об окружающей среде и подразделенных на 90 уровней сложности, сгруппированных в 9 блоков для тестирования моделей. Задания для модели могут быть как более простыми (создать тот или иной предмет), так и более сложными (победить того или иного противника).
Бенчмарк HeroBench был представлен исследователями из Института AIRI и НИУ ВШЭ в октябре 2025 года.
Детский вопрос: что такое модели мира
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.