logo LLM Arena

LLM Arena

Бенчмарк для оценки больших языковых моделей

Описание:

При разработке общедоступного бенчмарка LLM Arena команда энтузиастов ставила перед собой задачу создать объективный, открытый и актуальный рейтинг больших языковых моделей на русском языке.

Бенчмарк является адаптацией разработанной исследовательской организацией LMSYS платформы ChatbotArena для работы с русскоязычными моделями. Пользователь LLM Arena в режиме реального времени тестирует две русскоязычные большие языковые модели. Он вводит запрос, сравнивает ответы моделей на него и выбирает лучший по его мнению. Существуют режимы сравнения как случайных моделей, так и выбранных пользователем. Это обеспечивает объективный рейтинг качества генеративных нейросетей на русском языке. Пользователь может поделиться логами своих чатов.

Парные сравнения пользователей собираются и ранжируются с помощью вероятностной модели Брэдли — Терри. Для подсчета рейтинга больших языковых моделей используется коэффициент Эло.

Платформа была представлена в июле 2024 года. По заявлениям разработчиков, в ближайшем будущем на платформе планируется внедрение новых функций для оценки качества ответов по различным категориям запросов, включая написание кода, решение сложных вопросов и поддержку длинного контекста беседы. Также анонсировалось появление в LLM Arena мультимодальных задач, таких как понимание изображений и генерация видео по тексту.


Лидерборд на Hugging Face


👤 Роман Куцев


logo LLM Arena
Проект запущен:
2024
Сайт:
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0