
MERA Code
Бенчмарк для LLM
Бенчмарк MERA Code позволяет оценить, насколько хорошо LLM справляются с задачами программирования, в том числе с учётом требований, сформулированных на русском языке.
Решение содержит 11 заданий в формате инструкций на 8 языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala. Каждый тест оформлен в виде фиксированного набора подобранных под задачу и корректный выбор ответа промптов, в среднем десяти, равномерно распределённых по каждой задаче.
Кодовая база для оценки MERA Code разработана на основе фреймворка LM Evaluation Harness. Бенчмарк делится на приватные и публичные, выложенные в открытый доступ, задачи. Для того, чтобы сделать результат публичным, пользователь должен отправить запрос на модерацию. Результаты тестирования отсортированы по общему среднему за задачи показателю.
Бенмарк MERA Сode был представлен разработчиками из Альянса в сфере искусственного интеллекта, в том числе Sber AI, MTS AI, Т-Банка, «Ростелекома» и «Сибирских нейросетей» в июле 2025 года.
