logo RealCode_eval

RealCode_eval

Бенчмарк для оценки генерации кода

Описание:

Общедоступный бенчмарк позволяет проверить, насколько хорошо большие языковые модели генерируют программный код в условиях реальной разработки.

Выложенный в открытый доступ RealCode_eval представляет собой датасет из 219 функций языка Python, опубликованных в 22 репозиториях, выложенных на GitHub с июня по август 2023 года. В целях создания необходимых условий для каждого репозитория используется общедоступная система Conda. Модель должна написать функцию, которая декларирована в одном из репозиториев. Сгенерированное тело функции подставляется в файл, и запускаются тесты репозитория. После этого сравнивается количество пройденных тестов между сгенерированным и настоящим телом функции. Для оценки используется метрика Pass@k.

RealCode_eval был представлен специалистами команды NLP Core R&D SberDevices в декабре 2023 года.


Репозиторий на GitHub


👤 Денис Кокосинский


logo RealCode_eval
Проект запущен:
2023
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0