424
В России запустили платформу LLM Arena для оценки качества больших языковых моделей
Краудсорсинговая платформа LLM Arena позволяет оценить нейросети как от российских компаний, так и от зарубежных разработчиков. Она работает по принципу международного рейтинга LMSYS Chatbot Arena и позволяет тестировать нейросети и оценивать их ответы на основании пользовательских задач.
Проект реализован Романом Куцевым в сотрудничестве с экспертами по нейросетям и бывшими разработчиками TrainingData. «Наша цель — создать объективный, открытый и актуальный рейтинг языковых моделей на русском языке. Тестировать российские LLM на родном языке на реальных задачах было сложно, поэтому мы решили создать свою платформу, чтобы пользователи могли сравнивать модели и делать выводы», — говорит основатель LLM Arena Роман Куцев.
В будущем на платформе планируется внедрение новых функций для оценки качества ответов по различным категориям запросов, включая написание кода, решение сложных вопросов и поддержку длинного контекста беседы. Также будут введены мультимодальные задачи, такие как понимание изображений и генерация видео по тексту.
🔗 Источник: https://t.me/tdailyru/2491
Краудсорсинговая платформа LLM Arena позволяет оценить нейросети как от российских компаний, так и от зарубежных разработчиков. Она работает по принципу международного рейтинга LMSYS Chatbot Arena и позволяет тестировать нейросети и оценивать их ответы на основании пользовательских задач.
Проект реализован Романом Куцевым в сотрудничестве с экспертами по нейросетям и бывшими разработчиками TrainingData. «Наша цель — создать объективный, открытый и актуальный рейтинг языковых моделей на русском языке. Тестировать российские LLM на родном языке на реальных задачах было сложно, поэтому мы решили создать свою платформу, чтобы пользователи могли сравнивать модели и делать выводы», — говорит основатель LLM Arena Роман Куцев.
В будущем на платформе планируется внедрение новых функций для оценки качества ответов по различным категориям запросов, включая написание кода, решение сложных вопросов и поддержку длинного контекста беседы. Также будут введены мультимодальные задачи, такие как понимание изображений и генерация видео по тексту.
🔗 Источник: https://t.me/tdailyru/2491