logo HeroBench

HeroBench

Бенчмарк для LLM

Описание:

Выложенный в открытый доступ бенчмарк HeroBench проверяет способность LLM к структурированному мышлению, обработке комплексного контекста, декомпозиции задач, долгосрочному планированию,

Решение базируется на среде Artifacts, MMORPG-игру-песочницу (Massively Multiplayer Online Кole-Playing Game, массовая многопользовательская ролевая онлайн-игра), где персонажей можно контролировать по API.

Датасет HeroBench включает в себя 844 промпта, содержащих информацию об окружающей среде и подразделенных на 90 уровней сложности, сгруппированных в 9 блоков для тестирования моделей. Задания для модели могут быть как более простыми (создать тот или иной предмет), так и более сложными (победить того или иного противника).

Бенчмарк HeroBench был представлен исследователями из Института AIRI и НИУ ВШЭ в октябре 2025 года.


Препринт на arXiv


👤 Петр Анохин

👤 Стефан Ребриков

👤 Роман Халиков

👤 Виктор Волков


logo HeroBench
Проект запущен:
2025
Последнее обновление:13.10.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.