

Бенчмарк для LLM
Бенчмарк MERA Code позволяет оценить, насколько хорошо LLM справляются с задачами программирования, в том числе с учетом требований, сформулированных на русском языке.
Решение содержит 11 заданий в формате инструкций на 8 языках программирования: Python, Java, C#, JavaScript, Go, C, C++ и Scala. Каждый тест оформлен в виде фиксированного набора подобранных под задачу и корректный выбор ответа промптов, в среднем десяти, равномерно распределенных по каждой задаче.
Кодовая база для оценки MERA Code разработана на основе фреймворка LM Evaluation Harness. Бенчмарк делится на приватные и публичные задачи. Для того чтобы сделать результат публичным, пользователь должен отправить запрос на модерацию. Результаты тестирования отсортированы по общему среднему для задач показателю.
Бенмарк MERA Сode был представлен в рамках Альянса в сфере искусственного интеллекта разработчиками из Sber AI, MTS AI, Т-Банка, «Ростелекома» и «Сибирских нейросетей», в июле 2025 года. Частично доступен как открытое ПО.
Репозитории на GitVerse, GitHub и Hugging Face

Команда MERA представила бенчмарк MERA Multi для мультимодальных моделей на русском языке
Альянс в сфере искусственного интеллекта
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.