logo ruIFEval

ruIFEval

Бенчмарк для оценки больших языковых моделей

Описание:

Решение оценивает способность больших языковых моделей следовать поддающимся объективной проверке соответствия инструкциям на естественном языке. Разработчики ожидают, что использование ruIFEval повысит быстроту, ясность и объективность автоматической оценки моделей.

Бенчмарк представляет собой адаптацию под особенности русского языка кода и датасета теста IFEval. Исходный тест содержал около 500 промптов, а российский бенчмарк включает 541 подобный промпт.

ruIFEval был представлен командой NLP Core R&D SberDevices в марте 2024 года. Доступен как открытое ПО.


Репозиторий на GitHub


👤 Алексей Хорошилов


Участвует в спецпроектах ICT.Moscow:
logo ruIFEval
Проект запущен:
2024
Последнее обновление:13.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.