VK выложила в открытый доступ модель RuModernBERT, предназначенную для обработки естественного русского языка. Она способна понимать длинные тексты без разделения на части и функционирует без внешних API для снижения нагрузки на инфраструктуру.
Разработчики смогут применять ее для решения задач, связанных с обработкой текста, включая извлечение необходимой информации, анализ эмоциональной окраски высказываний, проведение поисков и ранжирование результатов в различных приложениях и сервисах.
Модель RuModernBERT была обучена на 2 трлн токенов данных на русском, английском языках и коде с максимальной длиной контекста более 8,19 тыс. токенов. Источниками данных служили разнообразные материалы: книги, статьи, публикации и комментарии в соцсетях, благодаря чему модель хорошо адаптируется к современному языку и учитывает особенности живой речи.
Доступны две версии модели: полная версия с 150 млн параметров и облегченная версия с 35 млн параметров.
Карточки решений:
RuModernBERT
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.