logo simple-evals-ru

simple-evals-ru

Бенчмарк для больших языковых моделей

Описание:

simple-evals-ru применим для оценки качества работающих на русском больших языковых моделей.

Оценка производится с помощью содержащихся в популярных англоязычных бенчмарках (MGSM, MATH, HumanEval, MBPP, BBH, MMLU-Pro, QPQA) заданий по математике, программированию и логике.

В simple-evals-ru сравнивается как средний результат решения задач, так и цена за использование 1 млн токенов для каждой из моделей.

Бенчмарк был представлен «Лабораторией анализа данных Александра Кукушкина» в феврале 2025 года. Доступен как открытое ПО.


Репозиторий на GitHub


👤 Александр Кукушкин


Участвует в спецпроектах ICT.Moscow:
logo simple-evals-ru
Проект запущен:
2025
Последнее обновление:11.11.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.