logo ruMTEB

ruMTEB

Бенчмарк для оценки русскоязычных эмбеддеров

Описание:

Выложенный в общий доступ бенчмарк ruMTEB (Massive Text Embedding Benchmark) предназначен для проверки текстовых эмбеддингов — векторных представлений текстов — и эмбеддеров, моделей (чаще всего трансформеров), позволяющих их строить. Он был представлен командой программистов из SberDevices в июле 2024 года и призван расширить набор русскоязычных бенчмарков для данного класса моделей.

В ruMTEB входят 23 задания: 6 мультиязычных наборов данных из оригинального бенчмарка MTEB и 17 русскоязычных заданий, приведенных в соответствие с его форматом. Последние представляют собой датасеты, проверенные научным сообществом. Разработчики разделяют эти наборы на семь категорий: для задач на классификацию предложений или коротких текстов, на определение пар последних, на типизацию текстовых фрагментов с предсказанием нескольких классов для каждого примера, на кластеризацию текстов, на определение семантической близости и на задачу информационного поиска.

Кодовая база для оценки на русскоязычных датасетах интегрирована в оригинальный фреймворк MTEB. После его запуска для оценки эмбеддера будет достаточно подать на вход список задач из ruMTEB. Результаты каждого задания будут записаны в отдельный файл в формате .json.

По состоянию на октябрь 2024 года наилучшие результаты показывают версии созданного Microsoft эмбеддера E5 и созданная Deep VK модель глубокого обучения USER (Universal Sentence Encoder for Russian).


Датасеты на Hugging Face

Лидерборд


👤 Мария Тихонова


logo ruMTEB
Проект запущен:
2024
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0