Бенчмарк для оценки больших языковых моделей
При разработке общедоступного бенчмарка LLM Arena команда энтузиастов ставила перед собой задачу создать объективный, открытый и актуальный рейтинг больших языковых моделей на русском языке.
Бенчмарк является адаптацией разработанной исследовательской организацией LMSYS платформы ChatbotArena для работы с русскоязычными моделями. Пользователь LLM Arena в режиме реального времени тестирует две русскоязычные большие языковые модели. Он вводит запрос, сравнивает ответы моделей на него и выбирает лучший по его мнению. Существуют режимы сравнения как случайных моделей, так и выбранных пользователем. Это обеспечивает объективный рейтинг качества генеративных нейросетей на русском языке. Пользователь может поделиться логами своих чатов.
Парные сравнения пользователей собираются и ранжируются с помощью вероятностной модели Брэдли — Терри. Для подсчета рейтинга больших языковых моделей используется коэффициент Эло.
Платформа была представлена в июле 2024 года. По заявлениям разработчиков, в ближайшем будущем на платформе планируется внедрение новых функций для оценки качества ответов по различным категориям запросов, включая написание кода, решение сложных вопросов и поддержку длинного контекста беседы. Также анонсировалось появление в LLM Arena мультимодальных задач, таких как понимание изображений и генерация видео по тексту.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.