

Бенчмарк для оценки эмбеддингов научных текстов
Бенчмарк ruSciBench оценивает качество эмбеддингов (семантических векторных представлений) научных текстов.
Проект является эволюционным развитием бенчмарка ruSciDocs, созданного тему же разработчиками. Набор данных в ruSciBench значительно больше. Кроме того, он дает возможность тестировать сохранение эмбеддерами (создающими эмбеддинги моделями) семантики при смене языка.
Датасет бенчмарка состоит из около 194 тыс. сочетаний названий и аннотаций статей на русском языке и 182,4 тыс. — на английском. Для каждой статьи известна рубрика классификации ОЭСР (Организация экономического сотрудничества и развития) и ГРНТИ (Государственный рубрикатор научно-технической информации).
В ruSciBench входят задачи двух типов: классификации и поиска перевода. Первые построены по примеру задач MAG и MeSH бенчмарка SciDocs. 90% датасета используются для обучения классификатора на базе метода LinearSVC, использующего эмбеддинги как векторы признаков, 10% — для оценки точности его эмбеддингов. Всего таких задач шесть в зависимости от рубрики и языка, с которым работает испытуемая модель (только русский, только английский или оба языка).
Задачи поиска перевода оценивают способность модели отражать в эмбеддингах смысл сказанного вне зависимости от языка текста. Для этого сравнивается близость эмбеддинга аннотации на русском с таким же на английском: чем ближе они, тем лучше оценка модели. Получаются две метрики: поиск русской аннотации по английской и английской по русской. В качестве метрики возвращается доля статей, где поиск был выполнен успешно.
Проект представлен исследователями из Лаборатории машинного обучения и семантического анализа Института искусственного интеллекта МГУ им. М.В. Ломоносова в декабре 2023 года. Доступен как открытое ПО.
Репозитории на GitHub, Hugging Face
Пример оценки на бенчмарке в Google Colab

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.