RuArenaGeneral на ICT.Moscow

ИБ В РОССИИ: БАЗА ЗНАНИЙИБ В РОССИИ: БАЗА ЗНАНИЙ

568

RuArenaGeneral

Бенчмарк для русскоязычных больших языковых моделей

Описание:

Бенчмарк типа SBS (Side by Side) может использоваться для тестирования общедоступных больших русскоязычных языковых моделей.

В RuArenaGeneral без участия человека оценивается поединок — генерация параллельных ответов на заданный промпт — прошедших тонкую настройку больших языковых моделей.

В его основе лежит бенчмарк LMSYS Arena-Hard-Auto. Однако в отличие от оригинальной версии в качестве судьи в RuArenaGeneral выступает большая языковая модель OpenAI GPT-4o. Благодаря этому оценки бенчмарка хорошо коррелируют с рейтингом Chatbot Arena. Разработчики могут получить оценку RuArenaGeneral в течение часа. Для тестирования применяется фиксированный набор из 500 промптов, разбитый по 50 темам. Ответы оцениваемой модели сравниваются с результатами модели OpenAI GPT-3.5 Turbo. Чтобы исключить предвзятость судьи, каждое сравнение делается два раза — ответы моделей переставляются местами.

О создании бенчмарка разработчики из Vikhr Models сообщили в августе 2024 года. Доступен как открытое ПО.

Репозитории на GitHub, Hugging Face

Страница в Google Colab

👤 Александр Николич

Участвует в спецпроектах ICT.Moscow:

Смотреть

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #бенчмарк #open_source

Разработчик:

#Vikhr_Models

Проект запущен:

2024

Последнее обновление:13.11.2025

Материалы о разработчике

27 янв. 09:45

Подборка решений: инструменты Open Source для разработчиков ИИ

ICT.Moscow

Другие проекты разработчика:

Vistral

Большая языковая модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Vikhr_Models

Vikhr Borealis

Большая языковая модель c возможностью распознавания речи

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #распознавание_речи #open_source #Vikhr_Models

DeathMath

Бенчмарк для больших языковых моделей

#бенчмарк #искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Vikhr_Models

Vikhr Salt

Большая мультимодальная модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #распознавание_речи #open_source #Vikhr_Models

смотреть еще

Похожие проекты:

A-Vision

Большая мультимодальная модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

A-Vibe

Большая языковая модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

Бизнес.Локатор

ИИ-сервис для малого бизнеса

#искусственный_интеллект #нейросети #машинное_обучение #геоинформационные_системы #бизнес_аналитика #Билайн

Evolution Managed RAG

RAG-сервис

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Cloud #Сбербанк

смотреть еще

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение