
Модель-эмбеддер
Выложенная в общий доступ модель USER (Universal Sentence Encoder for Russian) предназначена для получения эмбеддингов (векторных представлений) предложений и параграфов из текстов на русском языке. Разработчики дообучили на русскоязычной части датасета mMARCO две модели, а затем объединили их с помощью метода LM-Cocktail.
Модель была представлена разработчиками из VK в декабре 2024 года. В апреле 2025 года была выпущена обновленная версия модели USER2, обученная на основе модели-кодировщика RuModernBERT. Модель поддерживает длинный контект (до 8192 токенов) и существует в двух версиях двух версиях: USER2-base и USER2-small размерами в 149 и 34,4 млн параметров соответственно.
Разработчики подчеркивают что модели поддерживают подход матрешечное обучение представлений (Matryoshka Representation Learning, MRL), позволяющий уменьшать размер эмбеддинга с минимальными потерями в качестве.
Подборка решений: MLOps и LLMOps
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.