SciRus-tiny
Нейросеть-эмбеддер
Модель трансформерной архитектуры RoBERTa с 23 млн параметров для получения эмбеддингов (семантических векторных представлений) научных текстов размерностью 312. Размер словаря модели-эмбеддера составляет более 50 тыс. токенов, а максимальная длина контекста — 2 тысячи.
SciRus-tiny была обучена на наборе данных, состоящем из аннотаций научных статей в библиотеке elibrary.ru. Исследователи ставили перед собой задачу обучить модель обращать внимание на смысл текста вне зависимости от языка, на котором он написан, и учитывать при этом научную тематику текстов.
SciRus-tiny вместе с бенчмарком ruSciBench была представлена исследователями из лаборатории «Машинное обучение и семантический анализ» Института искусственного интеллекта МГУ им. М.В. Ломоносова в декабре 2023 года. В июне 2024 года нейросеть была внедрена в поисковую систему научной электронной библиотеки elibrary.ru.
По заявлениям разработчиков, в будущем планируется разработка аналогичных моделей с большим количеством параметров.