logo simple-evals-ru

simple-evals-ru

Бенчмарк для больших языковых моделей

Описание:

Выложенный в открытый доступ бенчмарк simple-evals-ru призван помочь оценить качество работающих на русском больших языковых моделей.

Оценка производится с помощью содержащихся в популярных англоязычных бенчмарках (MGSM, MATH, HumanEval, MBPP, BBH, MMLU-Pro, QPQA) заданий по математике, программированию и логике.

В simple-evals-ru сравнивается как средний результат решения задач, так и цена за использование 1 млн токенов для каждой из моделей.

Бенчмарк был представлен «Лабораторией анализа данных Александра Кукушкина» в феврале 2025 года.


👤 Александр Кукушкин


logo simple-evals-ru
Проект запущен:
2025
Последнее обновление:29.05.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.