LLM Arena на ICT.Moscow

1463

LLM Arena

Бенчмарк для оценки больших языковых моделей

Описание:

При разработке общедоступного бенчмарка LLM Arena команда энтузиастов ставила перед собой задачу создать объективный, открытый и актуальный рейтинг больших языковых моделей на русском языке.

Бенчмарк является адаптацией разработанной исследовательской организацией LMSYS платформы Chatbot Arena для работы с русскоязычными моделями. Пользователь LLM Arena в режиме реального времени тестирует две русскоязычные большие языковые модели. Он вводит запрос, сравнивает ответы моделей на него и выбирает лучший по его мнению. Существуют режимы сравнения как случайных моделей, так и выбранных пользователем. Это обеспечивает объективный рейтинг качества генеративных нейросетей на русском языке. Пользователь может поделиться логами своих чатов.

Парные сравнения пользователей собираются и ранжируются с помощью вероятностной модели Брэдли — Терри. Для подсчета рейтинга больших языковых моделей используется коэффициент Эло.

Платформа была представлена в июле 2024 года. По заявлениям разработчиков, в ближайшем будущем на платформе планируется внедрение новых функций для оценки качества ответов по различным категориям запросов, включая написание кода, решение сложных вопросов и поддержку длинного контекста беседы. Также анонсировалось появление в LLM Arena мультимодальных задач, таких как понимание изображений и генерация видео по тексту.

Лидерборд на Hugging Face

👤 Роман Куцев

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #бенчмарк #open_source #бенчмарк

Разработчик:

#LLM_Arena

Проект запущен:

2024

Сайт:

llmarena.ru

Последнее обновление:17.09.2025

Другие проекты разработчика:

VseLLM

Агрегатор LLM

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #LLM_Arena

смотреть еще

Похожие проекты:

A-Vision

Большая мультимодальная модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

A-Vibe

Большая языковая модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

Бизнес.Локатор

ИИ-сервис для малого бизнеса

#искусственный_интеллект #нейросети #машинное_обучение #геоинформационные_системы #бизнес_аналитика #Билайн

Evolution Managed RAG

RAG-сервис

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Cloud #Сбербанк

смотреть еще

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение