
Бенчмарк для больших языковых моделей
Выложенный в открытый доступ бенчмарк simple-evals-ru призван помочь оценить качество работающих на русском больших языковых моделей.
Оценка производится с помощью содержащихся в популярных англоязычных бенчмарках (MGSM, MATH, HumanEval, MBPP, BBH, MMLU-Pro, QPQA) заданий по математике, программированию и логике.
В simple-evals-ru сравнивается как средний результат решения задач, так и цена за использование 1 млн токенов для каждой из моделей.
Бенчмарк был представлен «Лабораторией анализа данных Александра Кукушкина» в феврале 2025 года.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.