
HeroBench
Бенчмарк для LLM
Выложенный в открытый доступ бенчмарк HeroBench проверяет способность LLM к структурированному мышлению, обработке комплексного контекста, декомпозиции задач, долгосрочному планированию.
Решение базируется на среде Artifacts, MMORPG-песочнице (Massively Multiplayer Online Кole-Playing Game, массовая многопользовательская ролевая онлайн-игра), где персонажей можно контролировать по API.
Датасет HeroBench включает в себя 844 промпта, содержащих информацию об окружающей среде и подразделенных на 90 уровней сложности, сгруппированных в 9 блоков для тестирования моделей. Задания для моделей могут быть как простыми (создать тот или иной предмет), так и более сложными (победить того или иного противника).
Бенчмарк HeroBench был представлен исследователями из Института AIRI и НИУ ВШЭ в октябре 2025 года.
