Бенчмарк для оценки эмбеддингов научных текстов
Выложенный в общий доступ бенчмарк ruSciBench оценивает качество эмбеддингов — семантических векторных представлений — научных текстов.
Проект представлен исследователями из Лаборатории машинного обучения и семантического анализа Института искусственного интеллекта МГУ им. М.В. Ломоносова в декабре 2023 года. Он является эволюционным развитием бенчмарка ruSciDocs, созданного той же командой. Набор данных в ruSciBench значительно больше. Кроме того, он дает возможность тестировать сохранение эмбеддерами (создающими эмбеддинги моделями) семантики при смене языка.
Датасет выложенного в открытый доступ бенчмарка состоит из около 194 тыс. сочетаний названий и аннотаций статей на русском языке и 182,4 тыс. — на английском. Для каждой статьи известна рубрика классификации ОЭСР (Организация экономического сотрудничества и развития) и ГРНТИ (Государственный рубрикатор научно-технической информации).
В ruSciBench входят задачи двух типов: классификации и поиска перевода. Первые построены по примеру задач MAG и MeSH бенчмарка SciDocs. 90% датасета используются для обучения классификатора на базе метода LinearSVC, использующего эмбеддинги как векторы признаков, 10% — для оценки точности его эмбеддингов. Всего таких задач шесть в зависимости от рубрики и языка, с которым работает испытуемая модель (только русский, только английский или оба языка).
Задачи поиска перевода оценивают способность модели отражать в эмбеддингах смысл сказанного вне зависимости от языка текста. Для этого сравнивается близость эмбеддинга аннотации на русском с таким же на английском: чем ближе они, тем лучше оценка модели. Получаются две метрики: поиск русской аннотации по английской и английской по русской. В качестве метрики возвращается доля статей, где поиск был выполнен успешно.
Пример оценки на бенчмарке в Google Colab
Мониторинг 5G/6G: главное за май–июнь
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.