Открытый бенчмарк для оценки больших языковых моделей
MERA (Multimodal Evaluation for Russian-language Architectures) предназначен для оценки современных русскоязычных языковых моделей.
По задумке авторов бенчмарк должен решить проблемы предвзятости бенчмарков-предшественников, разработанных академической средой или компаниями.
В основе проекта заложена концепция единого независимого лидерборда с фиксированными, верифицированными экспертами задачами и стандартизированными конфигурациями промптов и параметров.
Кодовая база для оценки на бенчмарке MERA разработана на основе международного фреймворка LM Evaluation Harness. Первая версия бенчмарка работала с тремя группами задач: сложными (Problem Solving) для принятия решений, проверки на логику и причинно-следственные связи; экзаменационными (Exam); выявляющими наличие стереотипов и предвзятости (Ethics).
Проект анонсирован в конце 2023 года, его авторами стали Альянс в сфере искусственного интеллекта, SberDevices, Sber AI, MTS AI, НИУ ВШЭ и «Сколтех». В сентябре 2024 года опубликована обновленная версия — MERA v.1.2.0. Среди ее нововведений — возможность оценки ИИ-моделей по API, поддержка системных промптов — определяющих поведение инструкций, по которым можно понять, как дообучалась модель.
Пост об обновленной версии бенчмарка на Habr
Статья в научном журнале ACL Anthology
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.