ruIFEval
Бенчмарк для оценки больших языковых моделей
Выложенное в общий доступ решение оценивает способность больших языковых моделей следовать поддающимся объективной проверке соответствия инструкциям на естественном языке. Разработчики ожидают, что использование ruIFEval повысит быстроту, ясность и объективность автоматической оценки моделей.
Бенчмарк представляет собой адаптацию кода и датасета теста IFEval под особенности русского языка. Его разработчики из Google выделили 25 типов инструкций и создали около 500 промптов, каждый из которых содержит одно или несколько заданий. Российский бенчмарк включает 541 подобный промпт.
ruIFEval был представлен командой NLP Core R&D SberDevices в марте 2024 года.