logo MERA Industrial

MERA Industrial

Отраслевой бенчмарк для больших языковых моделей

Описание:

Бенчмарк предназначен для оценки работы больших языковых моделей в различных отраслях промышленности, в частности в сельском хозяйстве и медицине.

По состоянию на июнь 2025 года доступны три датасета для оценки знаний модели в различных сферах по подобию бенчмарка MMLU:

  • ruTXTAgroBench состоит из 2935 оригинальных вопросов по различным аспектам агрономии;
  • 1102 задания ruTXTAquaBench позволяют оценить знания модели, приобретенные в процессе предобучения в области аквакультуры;
  • ruTXTMedQFundamental включает 270 вопросов и 30 тренировочных задач по 17 областям медицины, что, по мнению разработчиков, позволяет сопоставлять уровень знаний моделей с уровнем выпускника медицинского вуза.

Общая оценка модели считается по среднему результату решения задач.

Специалисты из «Сколтеха», КубГАУ, НМИЦ им. В.А. Алмазова, РАНХиГС и ННГАСУ представили бенмарк MERA Industrial на площадке Альянса в области искусственного интеллекта в июне 2025 года.

По заявлениям разработчиков, в будущем в открытый доступ будут выложены код и датасеты бенчмарка, а также станет доступным функционал для тестирования пользовательских моделей и самостоятельной оценки.


Лидерборд


Участвует в спецпроектах ICT.Moscow:
logo MERA Industrial
Проект запущен:
2025
Сайт:
Последнее обновление:21.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.