HeroBench на ICT.Moscow

HeroBench

Бенчмарк для LLM

Описание:

Выложенный в открытый доступ бенчмарк HeroBench проверяет способность LLM к структурированному мышлению, обработке комплексного контекста, декомпозиции задач, долгосрочному планированию.

Решение базируется на среде Artifacts, MMORPG-песочнице (Massively Multiplayer Online Кole-Playing Game, массовая многопользовательская ролевая онлайн-игра), где персонажей можно контролировать по API.

Датасет HeroBench включает в себя 844 промпта, содержащих информацию об окружающей среде и подразделенных на 90 уровней сложности, сгруппированных в 9 блоков для тестирования моделей. Задания для моделей могут быть как простыми (создать тот или иной предмет), так и более сложными (победить того или иного противника).

Бенчмарк HeroBench был представлен исследователями из Института AIRI и НИУ ВШЭ в октябре 2025 года.

Технологии:

#бенчмарк #искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source

Разработчик:

#AIRI #НИУ_ВШЭ

Проект запущен:

2025

Контакты:

Сайт:

Страница на GitHub

Последнее обновление:14.10.2025

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение