logo ruMT-Bench

ruMT-Bench

Бенчмарк для оценки больших языковых моделей

Описание:

С помощью общедоступного бенчмарка ruMT-Bench можно оценить выравнивание (Alignment) поведения ИИ-ассистентов.

В ruMT-Bench, представляющем собой адаптацию на русский язык бенчмарка MT-Bench, большая языковая модель OpenAI GPT-4 оценивает по десятибалльной шкале испытуемые модели по 160 вопросам в восьми категориях. В качестве контрольной модели используется GPT-3.5 Turbo.

Для того чтобы оценить с помощью бенчмарка свою модель, надо сгенерировать в ней ответы на вопросы ruMT-Bench и загрузить их посредством платформы FastChat, после чего судья даст свою оценку — как в парном сравнении, так и по отдельности. Для некоторых сложных задач, требующих точного ответа, в промпт судьи включается эталонный ответ, который помогает оценить решения модели.

Бенчмарк был представлен командой разработчиков NLP Core R&D SberDevices в марте 2024 года.


Датасет на Hugging Face

Страница на Google Colab


logo ruMT-Bench
Проект запущен:
2024
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0