Бенчмарк для русскоязычных больших языковых моделей
Полностью открытый SBS-бенчмарк (Side by Side) может использоваться для тестирования общедоступных больших русскоязычных языковых моделей.
В RuArenaGeneral без участия человека оценивается поединок — генерация параллельных ответов на заданный промпт — прошедших тонкую настройку больших языковых моделей.
В его основе лежит бенчмарк LMSYS Arena-Hard-Auto. Однако в отличие от оригинальной версии в качестве судьи в RuArenaGeneral выступает большая языковая модель OpenAI GPT-4o. Благодаря этому оценки бенчмарка хорошо коррелируют с рейтингом Chatbot Arena. Разработчики могут получить оценку RuArenaGeneral в течение часа. Для тестирования применяется фиксированный набор из 500 промптов, разбитый по 50 темам. Ответы оцениваемой модели сравниваются с результатами модели OpenAI GPT-3.5 Turbo. Чтобы исключить предвзятость судьи, каждое сравнение делается два раза — ответы моделей переставляются местами.О создании бенчмарка разработчики из Vikhr Models сообщили в августе 2024 года.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.