• лента
  • кейсы
  • московские решения
  • аналитика рынка
  • ICT.moscow об ИИ
  • презентации
  • подписка
  • материалы по теме
logo RuSentEval

RuSentEval

Бенчмарк для оценки эмбеддингов на русском языке

Описание:

Выложенный в общий доступ бенчмарк тестирует текстовые эмбеддинги — векторные представления текстов — и эмбеддеры, модели, позволяющие их строить, на русском и английском языках.

RuSentEval выявляет, какими лингвистическими свойствами обладают эмбеддинги при работе с русским и английским языками.

Он включает в себя 14 заданий по различным лингвистическим явлениям — от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего и сказуемого). Каждое задание состоит из 100 тыс. предложений обучающего набора и десяти тысяч предложений набора для валидации.

Посвященный RuSentEval препринт был опубликован специалистами из НИУ ВШЭ и «Сбера» на arXiv в феврале 2021 года.


Датасет


👤 Владислав Михайлов


logo RuSentEval
Проект запущен:
2020
Контакты:

Сайт:
148
Последнее обновление:19.11.2024
Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0