logo RuSentEval

RuSentEval

Бенчмарк для оценки эмбеддингов на русском языке

Описание:

Выложенный в общий доступ бенчмарк тестирует текстовые эмбеддинги — векторные представления текстов — и эмбеддеры, модели, позволяющие их строить, на русском и английском языках.

RuSentEval выявляет, какими лингвистическими свойствами обладают эмбеддинги при работе с русским и английским языками.

Он включает в себя 14 заданий по различным лингвистическим явлениям — от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего и сказуемого). Каждое задание состоит из 100 тыс. предложений обучающего набора и десяти тысяч предложений набора для валидации.

Посвященный RuSentEval препринт был опубликован специалистами из НИУ ВШЭ и «Сбера» на arXiv в феврале 2021 года.


Датасет


👤 Владислав Михайлов


logo RuSentEval
Проект запущен:
2020
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.