Бенчмарк для оценки русскоязычных эмбеддеров
Выложенный в общий доступ бенчмарк ruMTEB (Massive Text Embedding Benchmark) предназначен для проверки текстовых эмбеддингов — векторных представлений текстов — и эмбеддеров, моделей (чаще всего трансформеров), позволяющих их строить. Он был представлен командой программистов из SberDevices в июле 2024 года и призван расширить набор русскоязычных бенчмарков для данного класса моделей.
В ruMTEB входят 23 задания: 6 мультиязычных наборов данных из оригинального бенчмарка MTEB и 17 русскоязычных заданий, приведенных в соответствие с его форматом. Последние представляют собой датасеты, проверенные научным сообществом. Разработчики разделяют эти наборы на семь категорий: для задач на классификацию предложений или коротких текстов, на определение пар последних, на типизацию текстовых фрагментов с предсказанием нескольких классов для каждого примера, на кластеризацию текстов, на определение семантической близости и на задачу информационного поиска.
Кодовая база для оценки на русскоязычных датасетах интегрирована в оригинальный фреймворк MTEB. После его запуска для оценки эмбеддера будет достаточно подать на вход список задач из ruMTEB. Результаты каждого задания будут записаны в отдельный файл в формате .json.
По состоянию на октябрь 2024 года наилучшие результаты показывают версии созданного Microsoft эмбеддера E5 и созданная Deep VK модель глубокого обучения USER (Universal Sentence Encoder for Russian).
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.