
Бенчмарк для оценки понимания моделями русского языка
Созданный по методологии GLUE (General Language Understanding Evaluation) общедоступный бенчмарк предназначен для оценки обработки естественного русского языка моделями.
RussianSuperGLUE состоит из четырех компонентов: тестирования навыков нейросетей, тестирования уровня человека для сравнения, оценки существующих моделей и инструментов помощи в оценке своей модели. По задумке создателей бенчмарк призван стать общедоступным рейтингом русскоязычных NLP-моделей (обрабатывающих естественный язык), а также помочь специалистам в области Data Science понять, в каких именно задачах хороша та или иная нейросеть.
Разработчики на основе открытых источников создали девять наборов тестов — на понимание смысла текста, на целеполагание (понимание сути ситуации в тексте и ее причины), определение причинно-следственной связи, извлечение имплицитной (закрепленной в тексте логически) информации, а также на энциклопедические знания.
Для того чтобы попасть на лидерборд, создатель модели по инструкции должен загрузить датасеты тестов и при обучении получить результаты от нейросети. При загрузке результатов на сайт также должна быть представлена ссылка на модель для ее верификации.
Проект был представлен специалистами из SberDevices совместно с коллегами из Huawei и НИУ ВШЭ в сентябре 2020 года.
Подборка решений: MLOps и LLMOps
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.