

Бенчмарк для оценки больших языковых моделей
Решение оценивает способность больших языковых моделей следовать поддающимся объективной проверке соответствия инструкциям на естественном языке. Разработчики ожидают, что использование ruIFEval повысит быстроту, ясность и объективность автоматической оценки моделей.
Бенчмарк представляет собой адаптацию под особенности русского языка кода и датасета теста IFEval. Исходный тест содержал около 500 промптов, а российский бенчмарк включает 541 подобный промпт.
ruIFEval был представлен командой NLP Core R&D SberDevices в марте 2024 года. Доступен как открытое ПО.

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.