MERA на ICT.Moscow

825

MERA

Открытый бенчмарк для оценки больших языковых моделей

Описание:

MERA (Multimodal Evaluation for Russian-language Architectures) предназначен для оценки современных русскоязычных языковых моделей.

По задумке авторов бенчмарк должен решить проблемы предвзятости бенчмарков-предшественников, разработанных академической средой или компаниями.

В основе проекта заложена концепция единого независимого лидерборда с фиксированными, верифицированными экспертами задачами и стандартизированными конфигурациями промптов и параметров.

Кодовая база для оценки на бенчмарке MERA разработана на основе международного фреймворка LM Evaluation Harness. Первая версия бенчмарка работала с тремя группами задач: сложными (Problem Solving) для принятия решений, проверки на логику и причинно-следственные связи; экзаменационными (Exam); выявляющими наличие стереотипов и предвзятости (Ethics).

Проект анонсирован в конце 2023 года, его авторами стали Альянс в сфере искусственного интеллекта, SberDevices, Sber AI, MTS AI, НИУ ВШЭ и «Сколтех». В сентябре 2024 года опубликована обновленная версия — MERA v.1.2.0. Среди ее нововведений — возможность оценки ИИ-моделей по API, поддержка системных промптов — определяющих поведение инструкций, по которым можно понять, как дообучалась модель.

Репозиторий на GitHub

Датасеты на Hugging Face

Лидерборд

Пост об обновленной версии бенчмарка на Habr

Статья в научном журнале ACL Anthology

👤 Мария Тихонова

👤 Алена Феногенова

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #бенчмарк #open_source

Разработчик:

#Альянс_в_сфере_искусственного_интеллекта #Сбербанк #МТС

Проект запущен:

2023

Сайт:

mera.a-ai.ru

Последнее обновление:10.02.2025

Материалы о разработчике

22 июля 14:17

«Сбер» выпустил ИИ-ассистента «Помощник туриста» для подбора маршрутов на Сахалине и Курильских островах

Сбербанк

22 июля 13:57

MWS Cloud запустила платформу хранения данных для обучения ИИ

МТС

18 июля 13:33

ИИ помог сэкономить банкам, операторам и ритейлерам до 3,5 млрд руб. в год

РБК

16 июля 17:00

Правительство Москвы и «Сбер» учредили премию Startup Summit Awards для участников технологического рынка

mos.ru

16 июля 12:42

MWS AI: 24% пользователей ГенИИ на работе беспокоятся о конфиденциальности данных

МТС

смотреть еще

Другие проекты разработчика:

Виртуальная инфраструктура с GPU

GPUaaS для высоконагруженных вычислений и машинного обучения

#облачные_технологии #облачный_сервис #IaaS #искусственный_интеллект #машинное_обучение #МТС

Клаудия

ИИ-ассистент

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Cloud #Сбербанк

Evolution AI Factory

Облачная платформа для создания ИИ-приложений

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #облачный_сервис #Сбербанк #Cloud

GigaStudio

Мультиагентная система для создания веб-приложений

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Сбербанк #СберТех

смотреть еще

Похожие проекты:

Виртуальная инфраструктура с GPU

GPUaaS для высоконагруженных вычислений и машинного обучения

#облачные_технологии #облачный_сервис #IaaS #искусственный_интеллект #машинное_обучение #МТС

Клаудия

ИИ-ассистент

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Cloud #Сбербанк

POLLUX

Бенчмарк для оценки способностей генеративных моделей

#бенчмарк #искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source

Лира

Программно-аппаратный комплекс для решения задач ИИ

#искусственный_интеллект #нейросети #машинное_обучение #Аквариус #ХайТэк

смотреть еще

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение