logo SWE-MERA

SWE-MERA

Бенчмарк для оценки генерирующих код моделей

Описание:

SWE-MERA оценивает модели для написания программного кода с помощью 2,7 тыс. задач (Issue), взятых из репозиториев GitHub.

В SWE-MERA в автоматическом режиме на ежемесячной основе добавляются новые 250 примеров задач из активных репозиториев. У пользователя есть возможность выбрать задачи из разных временных периодов, что упрощает выявление моделей, затронутых контаминацией данных (случаев, когда для обучения нейросетей используются данные, применяемые в том или ином бенчмарке).

Задания выбираются из репозиториев с как минимум 10 звездами и 10 форками. Из выборки исключаются репозитории, которые невозможно автоматически протестировать. Для репозитория создаются две копии — до закрытия задачи и после. В результате задача для модели состоит из состояния репозитория перед возникновением задачи, текста задачи и набора юнит-тестов для репозитория, где задача уже решена. Модель должна сгенерировать изменения в один или несколько файлов в репозитории, чтобы указанная проблема была успешно разрешена.

Оценка производится с помощью фреймворка Aider, позволяющего использовать модель как ИИ-агента. Испытуемой LLM дается шесть попыток на исправление проблемы. Если модель справляется раньше, то фреймворк представляет ей следующую задачу. В бенчмарке используются две метрики. Одна оценивает, была ли успешной первая попытка решения задачи, другая показывает, были ли успешны какие-либо из шести попыток.

Разработчики из Sber AI и MWS AI при содействии ученых из Университета ИТМО представили бенчмарк SWE-MERA на площадке Альянса в сфере искусственного интеллекта в сентябре 2025 года. Доступен как открытое ПО.


Инструкция по проведению тестирования на бенчмарке

Датасет на Hugging Face

Репозиторий для запуска и сбора задач на GitHub

Лидерборд

Препринт на arXiv


👤 Павел Адаменко

👤 Валентин Малых


Участвует в спецпроектах ICT.Moscow:
logo SWE-MERA
Проект запущен:
2025
Последнее обновление:21.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.