logo POLLUX

POLLUX

Бенчмарк для оценки способностей генеративных моделей

Описание:

Бенчмарк POLLUX предназначен для оценки генеративных способностей больших языковых моделей на русском языке.

Он включает в себя 2,1 тыс. написанных экспертами промптов по 35 группам различных генеративных задач и 11,5 тыс. ответов, сгенерированных LLM при выполнении этих инструкций. Также POLLUX содержит 471,5 тыс. точечных и 161 тыс. агрегированных экспертных оценок по 66 критериям.

Кроме того, для задачи автоматической оценки исследователи на синтетических данных дообучили модели T-Lite и T-Pro. По заданной инструкции и ответу LLM на нее нейросети оценивают качество получившегося текста.

Бенчмарк POLLUX был представлен специалистами из «Сбера» в июне 2025 года. Доступен как открытое ПО.


Лидерборд на LLM Arena

Репозиторий на GitHub

Репозиторий моделей-оценщиков на Hugging Face

Страница на GitHub Pages

Препринт на arXiv


👤 Николай Мартынов

👤 Даниил Астафуров

👤 Ульяна Исаева


Участвует в спецпроектах ICT.Moscow:
logo POLLUX
Проект запущен:
2025
Последнее обновление:11.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.