ruMTEB на ICT.Moscow

1219

ruMTEB

Бенчмарк для оценки русскоязычных эмбеддеров

Описание:

Бенчмарк ruMTEB (Massive Text Embedding Benchmark) предназначен для проверки текстовых эмбеддингов — векторных представлений текстов — и эмбеддеров, моделей (чаще всего трансформеров), позволяющих их строить.

В ruMTEB входят 23 задания: 6 мультиязычных наборов данных из оригинального бенчмарка MTEB и 17 русскоязычных заданий, приведенных в соответствие с его форматом. Последние представляют собой датасеты, проверенные научным сообществом. Разработчики разделяют эти наборы на семь категорий: для задач на классификацию предложений или коротких текстов, на определение пар последних, на типизацию текстовых фрагментов с предсказанием нескольких классов для каждого примера, на кластеризацию текстов, на определение семантической близости и на задачу информационного поиска.

Кодовая база для оценки на русскоязычных датасетах интегрирована в оригинальный фреймворк MTEB. После его запуска для оценки эмбеддера будет достаточно подать на вход список задач из ruMTEB. Результаты каждого задания будут записаны в отдельный файл в формате .json.

По состоянию на октябрь 2024 года наилучшие результаты показывают версии созданного Microsoft эмбеддера E5 и созданная Deep VK модель глубокого обучения USER (Universal Sentence Encoder for Russian).

Бенчмарк был представлен командой программистов из SberDevices в июле 2024 года. Доступен как открытое ПО.

Репозиторий на Hugging Face

Участвует в спецпроектах ICT.Moscow:

Смотреть

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #бенчмарк #open_source

Разработчик:

#Сбербанк

Проект запущен:

2024

Последнее обновление:13.11.2025

Материалы о разработчике

3 дек. 13:05

ICT.Moscow: 120 новых решений для ИИ-разработки представлено в России в 2025 году

ICT.Moscow

25 ноя. 15:38

«Сбер»: развитие ИИ потребует 45 трлн руб. инвестиций в энергетику за 16 лет

Reuters

24 ноя. 12:08

В AIRI разработали фреймворк Maestro для создания и оркестрации ИИ-агентов

AIRI

20 ноя. 15:35

«Сбер» представил телевизоры с ИИ-помощником, антропоморфного робота «Грин» и обновил медицинского ассистента GigaDoc

Сбербанк

20 ноя. 14:29

«Сбер» выложил в открытый доступ MoE-модели GigaChat 3 Ultra Preview и Lightning

Сбербанк

смотреть еще

Другие проекты разработчика:

Evolution Managed RAG

RAG-сервис

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Cloud #Сбербанк

DRAGON

Бенчмарк для RAG-систем

#бенчмарк #искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Сбербанк #Университет_ИТМО

Evolution Notebooks

Сервис для работы специалистов по машинному обучению

#искусственный_интеллект #нейросети #машинное_обучение #разработка #Cloud #Сбербанк

Evolution ML Finetuning

Сервис для тонкой настройки LLM

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #облачный_сервис #Cloud #Сбербанк

смотреть еще

Похожие проекты:

A-Vision

Большая мультимодальная модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

A-Vibe

Большая языковая модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

Бизнес.Локатор

ИИ-сервис для малого бизнеса

#искусственный_интеллект #нейросети #машинное_обучение #геоинформационные_системы #бизнес_аналитика #Билайн

Evolution Managed RAG

RAG-сервис

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Cloud #Сбербанк

смотреть еще

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение