

Бенчмарк для оценки генерирующих код моделей
SWE-MERA оценивает модели для написания программного кода с помощью 2,7 тыс. задач (Issue), взятых из репозиториев GitHub.
В SWE-MERA в автоматическом режиме на ежемесячной основе добавляются новые 250 примеров задач из активных репозиториев. У пользователя есть возможность выбрать задачи из разных временных периодов, что упрощает выявление моделей, затронутых контаминацией данных (случаев, когда для обучения нейросетей используются данные, применяемые в том или ином бенчмарке).
Задания выбираются из репозиториев с как минимум 10 звездами и 10 форками. Из выборки исключаются репозитории, которые невозможно автоматически протестировать. Для репозитория создаются две копии — до закрытия задачи и после. В результате задача для модели состоит из состояния репозитория перед возникновением задачи, текста задачи и набора юнит-тестов для репозитория, где задача уже решена. Модель должна сгенерировать изменения в один или несколько файлов в репозитории, чтобы указанная проблема была успешно разрешена.
Оценка производится с помощью фреймворка Aider, позволяющего использовать модель как ИИ-агента. Испытуемой LLM дается шесть попыток на исправление проблемы. Если модель справляется раньше, то фреймворк представляет ей следующую задачу. В бенчмарке используются две метрики. Одна оценивает, была ли успешной первая попытка решения задачи, другая показывает, были ли успешны какие-либо из шести попыток.
Разработчики из Sber AI и MWS AI при содействии ученых из Университета ИТМО представили бенчмарк SWE-MERA на площадке Альянса в сфере искусственного интеллекта в сентябре 2025 года. Доступен как открытое ПО.
Инструкция по проведению тестирования на бенчмарке
Репозиторий для запуска и сбора задач на GitHub

Команда MERA представила бенчмарк MERA Multi для мультимодальных моделей на русском языке
Альянс в сфере искусственного интеллекта
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.