ruIFEval на ICT.Moscow

ИБ В РОССИИ: БАЗА ЗНАНИЙИБ В РОССИИ: БАЗА ЗНАНИЙ

ruIFEval

Бенчмарк для оценки больших языковых моделей

Описание:

Выложенное в общий доступ решение оценивает способность больших языковых моделей следовать поддающимся объективной проверке соответствия инструкциям на естественном языке. Разработчики ожидают, что использование ruIFEval повысит быстроту, ясность и объективность автоматической оценки моделей.

Бенчмарк представляет собой адаптацию кода и датасета теста IFEval под особенности русского языка. Его разработчики из Google выделили 25 типов инструкций и создали около 500 промптов, каждый из которых содержит одно или несколько заданий. Российский бенчмарк включает 541 подобный промпт.

ruIFEval был представлен командой NLP Core R&D SberDevices в марте 2024 года.

Репозиторий на GitHub

👤 Алексей Хорошилов

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #бенчмарк #open_source

Разработчик:

#Сбербанк

Проект запущен:

2024

Контакты:

Сайт:

Страница на GitHub

146

Последнее обновление:19.11.2024

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение

Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0