logo MERA Code

MERA Code

Бенчмарк для LLM

Описание:

Бенчмарк MERA Code позволяет оценить, насколько хорошо LLM справляются с задачами программирования, в том числе с учетом требований, сформулированных на русском языке.

Решение содержит 11 заданий в формате инструкций на 8 языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala. Каждый тест оформлен в виде фиксированного набора подобранных под задачу и корректный выбор ответа промптов, в среднем десяти, равномерно распределенных по каждой задаче.

Кодовая база для оценки MERA Code разработана на основе фреймворка LM Evaluation Harness. Бенчмарк делится на приватные и публичные задачи. Для того чтобы сделать результат публичным, пользователь должен отправить запрос на модерацию. Результаты тестирования отсортированы по общему среднему для задач показателю.

Бенмарк MERA Сode был представлен в рамках Альянса в сфере искусственного интеллекта разработчиками из Sber AI, MTS AI, Т-Банка, «Ростелекома» и «Сибирских нейросетей», в июле 2025 года. Частично доступен как открытое ПО.


Репозитории на GitVerse, GitHub и Hugging Face

Препринт на arXiv


👤 Алена Феногенова

👤 Артем Червяков

👤 Александр Харитонов

👤 Артем Завгороднев

👤 Дмитрий Воробьев


Участвует в спецпроектах ICT.Moscow:
logo MERA Code
Проект запущен:
2025
Сайт:
Последнее обновление:21.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.