RussianSuperGLUE
Бенчмарк для оценки понимания моделями русского языка
Созданный по методологии GLUE (General Language Understanding Evaluation) общедоступный бенчмарк предназначен для оценки обработки естественного русского языка моделями.
RussianSuperGLUE состоит из четырех компонентов: тестирования навыков нейросетей, тестирования уровня человека для сравнения, оценки существующих моделей и инструментов помощи в оценке своей модели. По задумке создателей бенчмарк призван стать общедоступным рейтингом русскоязычных NLP-моделей (обрабатывающих естественный язык), а также помочь специалистам в области Data Science понять, в каких именно задачах хороша та или иная нейросеть.
Разработчики на основе открытых источников создали девять наборов тестов — на понимание смысла текста, на целеполагание (понимание сути ситуации в тексте и ее причины), определение причинно-следственной связи, извлечение имплицитной (закрепленной в тексте логически) информации, а также на энциклопедические знания.
Для того чтобы попасть на лидерборд, создатель модели по инструкции должен загрузить датасеты тестов и при обучении получить результаты от нейросети. При загрузке результатов на сайт также должна быть представлена ссылка на модель для ее верификации.
Проект был представлен специалистами из SberDevices совместно с коллегами из Huawei и НИУ ВШЭ в сентябре 2020 года.