RealCode_eval на ICT.Moscow

432

RealCode_eval

Бенчмарк для оценки генерации кода

Описание:

Общедоступный бенчмарк позволяет проверить, насколько хорошо большие языковые модели генерируют программный код в условиях реальной разработки.

Выложенный в открытый доступ RealCode_eval представляет собой датасет из 219 функций языка Python, опубликованных в 22 репозиториях, выложенных на GitHub с июня по август 2023 года. В целях создания необходимых условий для каждого репозитория используется общедоступная система Conda. Модель должна написать функцию, которая декларирована в одном из репозиториев. Сгенерированное тело функции подставляется в файл, и запускаются тесты репозитория. После этого сравнивается количество пройденных тестов между сгенерированным и настоящим телом функции. Для оценки используется метрика Pass@k.

RealCode_eval был представлен специалистами команды NLP Core R&D SberDevices в декабре 2023 года.

Репозиторий на GitHub

👤 Денис Кокосинский

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #бенчмарк #open_source

Разработчик:

#Сбербанк

Проект запущен:

2023

Сайт:

Страница на GitHub

Последнее обновление:19.11.2024

Материалы о разработчике

7 окт. 15:19

РАЦИО назвала инвестиции крупных компаний в R&D-центры одним из трендов EdTech III квартала 2025 года

Ассоциация цифровых инноваций в образовании

2 окт. 12:13

«Сбер» и «Операционное совершенство» внедрят оркестратор ИИ-агентов в платформу для горной добычи OES

Сбербанк

30 сен. 14:26

«Сбер» выложил в открытый доступ модели Giga-Embeddings и Kandinsky Video Lite

Сбербанк

26 сен. 13:22

В «Сбере» и ИБП РАН разработали подход к дизайну нанотел с применением ИИ для лечения онкологии

Сбербанк

26 сен. 10:22

«Сбер» запустил бета-тестирование функции для создания презентаций в GigaChat

Сбербанк

смотреть еще

Другие проекты разработчика:

SWE-MERA

Бенчмарк для оценки генерирующих код моделей

#бенчмарк #искусственный_интеллект #генеративный_ИИ #ИИ-агент #нейросети #машинное_обучение #open_source #Альянс_в_сфере_искусственного_интеллекта #МТС #Университет_ИТМО #Сбербанк

GigaAgent

ИИ-агент

#искусственный_интеллект #генеративный_ИИ #ИИ-агент #нейросети #машинное_обучение #open_source #Сбербанк

HuBERT-CTC

Метод предобучения моделей распознавания речи

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #распознавание_речи #open_source #Сбербанк #SberDevices

Evolution AI Agents

Сервис для создания ИИ-агентов

#искусственный_интеллект #генеративный_ИИ #ИИ-агент #нейросети #машинное_обучение #Сбербанк #Cloud

смотреть еще

Похожие проекты:

SWE-MERA

Бенчмарк для оценки генерирующих код моделей

ИИ-агенты данных

Набор ИИ-агентов для работы с большими данными

#искусственный_интеллект #генеративный_ИИ #ИИ-агент #нейросети #машинное_обучение #большие_данные #BI #базы_данных #Т1

GigaAgent

ИИ-агент

#искусственный_интеллект #генеративный_ИИ #ИИ-агент #нейросети #машинное_обучение #open_source #Сбербанк

AlpinaGPT

MLaaS-платформа

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #инфраструктура #Альпина

смотреть еще

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение