logo RussianSuperGLUE

RussianSuperGLUE

Бенчмарк для оценки понимания моделями русского языка

Описание:

Созданный по методологии GLUE (General Language Understanding Evaluation) общедоступный бенчмарк предназначен для оценки обработки естественного русского языка моделями.

RussianSuperGLUE состоит из четырех компонентов: тестирования навыков нейросетей, тестирования уровня человека для сравнения, оценки существующих моделей и инструментов помощи в оценке своей модели. По задумке создателей бенчмарк призван стать общедоступным рейтингом русскоязычных NLP-моделей (обрабатывающих естественный язык), а также помочь специалистам в области Data Science понять, в каких именно задачах хороша та или иная нейросеть.

Разработчики на основе открытых источников создали девять наборов тестов — на понимание смысла текста, на целеполагание (понимание сути ситуации в тексте и ее причины), определение причинно-следственной связи, извлечение имплицитной (закрепленной в тексте логически) информации, а также на энциклопедические знания.

Для того чтобы попасть на лидерборд, создатель модели по инструкции должен загрузить датасеты тестов и при обучении получить результаты от нейросети. При загрузке результатов на сайт также должна быть представлена ссылка на модель для ее верификации.

Проект был представлен специалистами из SberDevices совместно с коллегами из Huawei и НИУ ВШЭ в сентябре 2020 года.


Репозиторий на GitHub

Статья в сборнике материалов конференции по эмпирическим методам обработки естественного языка EMNLP 2020

Лидерборд


👤 Мария Тихонова

👤 Татьяна Шаврина

👤 Алена Феногенова


logo RussianSuperGLUE
Проект запущен:
2020
Последнее обновление:12.02.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.