• лента
  • кейсы
  • московские решения
  • аналитика рынка
  • ICT.moscow об ИИ
  • презентации
  • подписка
  • материалы по теме
logo MERA Code

MERA Code

Бенчмарк для LLM

Описание:

Бенчмарк MERA Code позволяет оценить, насколько хорошо LLM справляются с задачами программирования, в том числе с учётом требований, сформулированных на русском языке.

Решение содержит 11 заданий в формате инструкций на 8 языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala. Каждый тест оформлен в виде фиксированного набора подобранных под задачу и корректный выбор ответа промптов, в среднем десяти, равномерно распределённых по каждой задаче.

Кодовая база для оценки MERA Code разработана на основе фреймворка LM Evaluation Harness. Бенчмарк делится на приватные и публичные, выложенные в открытый доступ, задачи. Для того, чтобы сделать результат публичным, пользователь должен отправить запрос на модерацию. Результаты тестирования отсортированы по общему среднему за задачи показателю.

Бенмарк MERA Сode был представлен разработчиками из Альянса в сфере искусственного интеллекта, в том числе Sber AI, MTS AI, Т-Банка, «Ростелекома» и «Сибирских нейросетей» в июле 2025 года.


Репозиторий на GitHub

Репозиторий на GitVerse

Репозиторий на Hugging Face

Препринт на arXiv


👤 Алена Феногенова

👤 Артем Червяков

👤 Александр Харитонов

👤 Артем Завгороднев

👤 Дмитрий Воробьев


logo MERA Code
Проект запущен:
2025
Контакты:

Сайт:
31
Последнее обновление:14.10.2025
Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.