RuSentEval на ICT.Moscow

RuSentEval

Бенчмарк для оценки эмбеддингов на русском языке

Описание:

Выложенный в общий доступ бенчмарк тестирует текстовые эмбеддинги — векторные представления текстов — и эмбеддеры, модели, позволяющие их строить, на русском и английском языках.

RuSentEval выявляет, какими лингвистическими свойствами обладают эмбеддинги при работе с русским и английским языками.

Он включает в себя 14 заданий по различным лингвистическим явлениям — от поверхностных (число слов в предложении) до синтаксических (глубина синтаксического дерева) и семантических (число и род подлежащего и сказуемого). Каждое задание состоит из 100 тыс. предложений обучающего набора и десяти тысяч предложений набора для валидации.

Посвященный RuSentEval препринт был опубликован специалистами из НИУ ВШЭ и «Сбера» на arXiv в феврале 2021 года.

Датасет

👤 Владислав Михайлов

Технологии:

#искусственный_интеллект #нейросети #машинное_обучение #бенчмарк #open_source

Разработчик:

#ВШЭ #Сбербанк

Проект запущен:

2020

Контакты:

Сайт:

Страница на GitHub

148

Последнее обновление:19.11.2024

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение

Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0