logo ruSciBench

ruSciBench

Бенчмарк для оценки эмбеддингов научных текстов

Описание:

Выложенный в общий доступ бенчмарк ruSciBench оценивает качество эмбеддингов — семантических векторных представлений — научных текстов.

Проект представлен исследователями из Лаборатории машинного обучения и семантического анализа Института искусственного интеллекта МГУ им. М.В. Ломоносова в декабре 2023 года. Он является эволюционным развитием бенчмарка ruSciDocs, созданного той же командой. Набор данных в ruSciBench значительно больше. Кроме того, он дает возможность тестировать сохранение эмбеддерами (создающими эмбеддинги моделями) семантики при смене языка.

Датасет выложенного в открытый доступ бенчмарка состоит из около 194 тыс. сочетаний названий и аннотаций статей на русском языке и 182,4 тыс. — на английском. Для каждой статьи известна рубрика классификации ОЭСР (Организация экономического сотрудничества и развития) и ГРНТИ (Государственный рубрикатор научно-технической информации).

В ruSciBench входят задачи двух типов: классификации и поиска перевода. Первые построены по примеру задач MAG и MeSH бенчмарка SciDocs. 90% датасета используются для обучения классификатора на базе метода LinearSVC, использующего эмбеддинги как векторы признаков, 10% — для оценки точности его эмбеддингов. Всего таких задач шесть в зависимости от рубрики и языка, с которым работает испытуемая модель (только русский, только английский или оба языка).

Задачи поиска перевода оценивают способность модели отражать в эмбеддингах смысл сказанного вне зависимости от языка текста. Для этого сравнивается близость эмбеддинга аннотации на русском с таким же на английском: чем ближе они, тем лучше оценка модели. Получаются две метрики: поиск русской аннотации по английской и английской по русской. В качестве метрики возвращается доля статей, где поиск был выполнен успешно.


Репозиторий на GitHub

Датасет на Hugging Face

Пример оценки на бенчмарке в Google Colab


👤 Алексей Ватолин

👤 Николай Герасименко


logo ruSciBench
Проект запущен:
2023
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0