logo rulm-sbs2

rulm-sbs2

Бенчмарк для оценки языковых моделей

Описание:

Выложенный в общий доступ Лабораторией анализа данных Александра Кукушкина бенчмарк помогает в оценке русскоязычных больших языковых моделей, являющихся аналогами моделей OpenAI ChatGPT.

По принципу работы rulm-sbs2 похож на бенчмарки AlpacaEval и MT-Bench. Судья (большая языковая модель OpenAI GPT4) оценивает по десятибалльной шкале ответы двух моделей —испытуемой и базовой (OpenAI GPT-3.5 Turbo) — на 500 заданий из более чем 15 категорий. Испытания взяты из открытых датасетов Alpaca и Vicuna, а также частично почерпнуты из заданий бенчмарка Chatbot Arena.

Для исключения предвзятости оценки судьи каждое сравнение делается два раза с последующей перестановкой ответов моделей. После этого получившиеся дельты оценок для каждой модели складываются, и полученное число делится на количество заданий.

Бенчмарк был представлен в сентябре 2023 года.


👤 Александр Кукушкин


logo rulm-sbs2
Проект запущен:
2023
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0