Альянс в сфере искусственного интеллекта запустил бенчмарк MERA Industrial для оценки больших языковых моделей в отраслях экономики. Пока доступны три задачи: две по сельскому хозяйству и одна по медицине.
Датасет ruTXTAgroBench предназначен для измерения профессиональных знаний модели в области агрономии, состоит из 2,9 тыс. оригинальных вопросов по агрономии. ruTXTAquaBench используется для измерения знаний в области аквакультуры, состоит из 1,1 тыс. заданий. Датасет ruTXTMedQFundamental охватывает 17 медицинских дисциплин, тест включает 270 вопросов и 30 тренировочных задач.
Датасеты полностью оригинальные и составлены на русском языке. Разработчики позиционируют MERA Industrial не только как инструмент для оценки LLM, но и как платформу для формулирования задач и кейсов, валидации заданий, использования готовых бенчмарков для выбора и внедрения LLM.
MERA Industrial создан при поддержке академического сообщества. В проекте приняли участие Сколковский институт науки и технологий, Кубанский государственный аграрный университет, Национальный медицинский исследовательский центр имени В.А. Алмазова, Российская академия народного хозяйства и государственной службы при президенте России, Нижегородский государственный архитектурно-строительный университет и другие.
Карточки решений:
Бенчмарк MERA был представлен в 2023 году. В числе его разработчиков — Сбербанк, MTS AI, Skoltech AI и НИУ ВШЭ. В 2024 году в бенчмарк добавили новые датасеты, поддержку API и особенностей SFT-моделей, а также обновленный лидерборд с системой фильтрации результатов.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.