logo ruIFEval

ruIFEval

Бенчмарк для оценки больших языковых моделей

Описание:

Выложенное в общий доступ решение оценивает способность больших языковых моделей следовать поддающимся объективной проверке соответствия инструкциям на естественном языке. Разработчики ожидают, что использование ruIFEval повысит быстроту, ясность и объективность автоматической оценки моделей.

Бенчмарк представляет собой адаптацию кода и датасета теста IFEval под особенности русского языка. Его разработчики из Google выделили 25 типов инструкций и создали около 500 промптов, каждый из которых содержит одно или несколько заданий. Российский бенчмарк включает 541 подобный промпт.

ruIFEval был представлен командой NLP Core R&D SberDevices в марте 2024 года.


Репозиторий на GitHub


👤 Алексей Хорошилов


logo ruIFEval
Проект запущен:
2024
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0