logo MERA

MERA

Открытый бенчмарк для оценки больших языковых моделей

Описание:

MERA (Multimodal Evaluation for Russian-language Architectures) предназначен для оценки современных русскоязычных языковых моделей.

По задумке авторов бенчмарк должен решить проблемы предвзятости бенчмарков-предшественников, разработанных академической средой или компаниями.

В основе проекта заложена концепция единого независимого лидерборда с фиксированными, верифицированными экспертами задачами и стандартизированными конфигурациями промптов и параметров.

Кодовая база для оценки на бенчмарке MERA разработана на основе международного фреймворка LM Evaluation Harness. Первая версия бенчмарка работала с тремя группами задач: сложными (Problem Solving) для принятия решений, проверки на логику и причинно-следственные связи; экзаменационными (Exam); выявляющими наличие стереотипов и предвзятости (Ethics).

Проект анонсирован в конце 2023 года, его авторами стали Альянс в сфере искусственного интеллекта, SberDevices, Sber AI, MTS AI, НИУ ВШЭ и «Сколтех». В сентябре 2024 года опубликована обновленная версия — MERA v.1.2.0. Среди ее нововведений — возможность оценки ИИ-моделей по API, поддержка системных промптов — определяющих поведение инструкций, по которым можно понять, как дообучалась модель.


Репозиторий на GitHub

Датасеты на Hugging Face

Лидерборд

Пост об обновленной версии бенчмарка на Habr

Статья в научном журнале ACL Anthology


👤 Алена Феногенова


logo MERA
Проект запущен:
2023
Сайт:
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0