• лента
  • кейсы
  • московские решения
  • аналитика рынка
  • ICT.moscow об ИИ
  • презентации
  • подписка
  • материалы по теме
logo HeroBench

HeroBench

Бенчмарк для LLM

Описание:

Выложенный в открытый доступ бенчмарк HeroBench проверяет способность LLM к структурированному мышлению, обработке комплексного контекста, декомпозиции задач, долгосрочному планированию.

Решение базируется на среде Artifacts, MMORPG-песочнице (Massively Multiplayer Online Кole-Playing Game, массовая многопользовательская ролевая онлайн-игра), где персонажей можно контролировать по API.

Датасет HeroBench включает в себя 844 промпта, содержащих информацию об окружающей среде и подразделенных на 90 уровней сложности, сгруппированных в 9 блоков для тестирования моделей. Задания для моделей могут быть как простыми (создать тот или иной предмет), так и более сложными (победить того или иного противника).

Бенчмарк HeroBench был представлен исследователями из Института AIRI и НИУ ВШЭ в октябре 2025 года.


Препринт на arXiv


👤 Петр Анохин

👤 Стефан Ребриков

👤 Роман Халиков

👤 Виктор Волков


logo HeroBench
Проект запущен:
2025
Контакты:

Сайт:
38
Последнее обновление:14.10.2025
Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.