• лента
  • кейсы
  • московские решения
  • аналитика рынка
  • ICT.moscow об ИИ
  • презентации
  • подписка
  • материалы по теме
logo MERA Industrial

MERA Industrial

Отраслевой бенчмарк для больших языковых моделей

Описание:

Бенчмарк предназначен для оценки работы больших языковых моделей в различных отраслях промышленности, в частности в сельском хозяйстве и медицине.

По состоянию на июнь 2025 года доступны три датасета для оценки знаний модели в различных сферах по подобию бенчмарка MMLU:

  • ruTXTAgroBench состоит из 2935 оригинальных вопросов по различным аспектам агрономии.
  • 1102 задания ruTXTAquaBench позволяют оценить знания модели, приобретенные в процессе предобучения в области аквакультуры.
  • ruTXTMedQFundamental включает 270 вопросов и 30 тренировочных задач по 17 областям медицины, что, по мнению разработчиков, позволяет сопоставлять уровень знаний моделей с уровнем выпускника медицинского вуза.

Общая оценка модели считается по среднему результату решения задач.

Бенчмарк MERA Industrial был представлен Альянсом в области искусственного интеллекта в сотрудничестве со «Сколтехом», КубГАУ, НМИЦ им. В.А. Алмазова в июне 2025 года.

По заявлениям разработчиков, в будущем в открытый доступ будут выложены код и датасеты бенчмарка, а также станет доступным функционал для тестирования пользовательских моделей и самостоятельной оценки.


Лидерборд


logo MERA Industrial
Проект запущен:
2025
Контакты:

Сайт:
971
Последнее обновление:16.06.2025
Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.