Бенчмарк для оценки больших языковых моделей
Выложенное в общий доступ решение оценивает способность больших языковых моделей следовать поддающимся объективной проверке соответствия инструкциям на естественном языке. Разработчики ожидают, что использование ruIFEval повысит быстроту, ясность и объективность автоматической оценки моделей.
Бенчмарк представляет собой адаптацию кода и датасета теста IFEval под особенности русского языка. Его разработчики из Google выделили 25 типов инструкций и создали около 500 промптов, каждый из которых содержит одно или несколько заданий. Российский бенчмарк включает 541 подобный промпт.
ruIFEval был представлен командой NLP Core R&D SberDevices в марте 2024 года.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.