
MERA Industrial
Отраслевой бенчмарк для больших языковых моделей
Бенчмарк предназначен для оценки работы больших языковых моделей в различных отраслях промышленности, в частности в сельском хозяйстве и медицине.
По состоянию на июнь 2025 года доступны три датасета для оценки знаний модели в различных сферах по подобию бенчмарка MMLU:
- ruTXTAgroBench состоит из 2935 оригинальных вопросов по различным аспектам агрономии.
- 1102 задания ruTXTAquaBench позволяют оценить знания модели, приобретенные в процессе предобучения в области аквакультуры.
- ruTXTMedQFundamental включает 270 вопросов и 30 тренировочных задач по 17 областям медицины, что, по мнению разработчиков, позволяет сопоставлять уровень знаний моделей с уровнем выпускника медицинского вуза.
Общая оценка модели считается по среднему результату решения задач.
Бенчмарк MERA Industrial был представлен Альянсом в области искусственного интеллекта в сотрудничестве со «Сколтехом», КубГАУ, НМИЦ им. В.А. Алмазова в июне 2025 года.
По заявлениям разработчиков, в будущем в открытый доступ будут выложены код и датасеты бенчмарка, а также станет доступным функционал для тестирования пользовательских моделей и самостоятельной оценки.
