
POLLUX
Бенчмарк для оценки способностей генеративных моделей
Выложенный в открытый доступ бенчмарк POLLUX предназначен для оценки генеративных способностей больших языковых моделей (LLM) на русском языке.
Он включает в себя 2,1 тыс. написанных экспертами промптов по 35 группам различных генеративных задач и 11, 5 тыс. ответов, сгенерированных LLM при выполнении этих инструкций. Также POLLUX содержит 471,5 тыс. точечных и 161 тыс. агрегированных экспертных оценок по 66 критериям.

Кроме того, для задачи автоматической оценки исследователи на синтетических данных дообучили модели T-Lite и T-Pro. По заданной инструкции и ответу LLM на нее нейросети оценивают качество получившегося текста.
Бенчмарк POLLUX был представлен специалистами из «Сбера» в июне 2025 года.
Репозиторий моделей-оценщиков на Hugging Face
