HeroBench на ICT.Moscow

SMART CITY MOSCOW ОБНОВЛЕНИЕ 2025SMART CITY MOSCOW 2025

156

HeroBench

Бенчмарк для LLM

Описание:

Бенчмарк HeroBench проверяет способность LLM к структурированному мышлению, обработке комплексного контекста, декомпозиции задач, долгосрочному планированию.

Решение базируется на среде Artifacts, MMORPG-песочнице (Massively Multiplayer Online Role-Playing Game, массовая многопользовательская ролевая онлайн-игра), где персонажей можно контролировать по API.

Датасет HeroBench включает в себя 844 промпта, содержащих информацию об окружающей среде и подразделенных на 90 уровней сложности, сгруппированных в 9 блоков для тестирования моделей. Задания для моделей могут быть как простыми (создать тот или иной предмет), так и более сложными (победить того или иного противника).

Бенчмарк был представлен исследователями из Института AIRI и НИУ ВШЭ в октябре 2025 года. Доступен как открытое ПО.

Репозиторий на GitHub

Участвует в спецпроектах ICT.Moscow:

Смотреть

Технологии:

#бенчмарк #искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source

Разработчик:

#AIRI #НИУ_ВШЭ

Проект запущен:

2025

Последнее обновление:11.11.2025

Материалы о разработчике

3 дек. 13:05

ICT.Moscow: 120 новых решений для ИИ-разработки представлено в России в 2025 году

ICT.Moscow

3 дек. 11:20

ВТБ: новые энергомощности для ЦОД могут обойтись в 6 трлн руб. до 2030 года

Коммерсант

1 дек. 15:04

В НИУ ВШЭ создан Институт робототехнических систем

НИУ ВШЭ

24 ноя. 12:08

В AIRI разработали фреймворк Maestro для создания и оркестрации ИИ-агентов

AIRI

19 ноя. 14:14

НИУ ВШЭ: ИИ-агенты, обогащение и интеграция данных вошли в число трендов 2026 года

НИУ ВШЭ

смотреть еще

Похожие проекты:

A-Vision

Большая мультимодальная модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

A-Vibe

Большая языковая модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

Бизнес.Локатор

ИИ-сервис для малого бизнеса

#искусственный_интеллект #нейросети #машинное_обучение #геоинформационные_системы #бизнес_аналитика #Билайн

Evolution Managed RAG

RAG-сервис

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Cloud #Сбербанк

смотреть еще

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение

HeroBench

cadrille

WEIRD

TLG

A-Vision

A-Vibe

Бизнес.Локатор

Evolution Managed RAG