Бенчмарк для оценки больших языковых моделей
С помощью общедоступного бенчмарка ruMT-Bench можно оценить выравнивание (Alignment) поведения ИИ-ассистентов.
В ruMT-Bench, представляющем собой адаптацию на русский язык бенчмарка MT-Bench, большая языковая модель OpenAI GPT-4 оценивает по десятибалльной шкале испытуемые модели по 160 вопросам в восьми категориях. В качестве контрольной модели используется GPT-3.5 Turbo.
Для того чтобы оценить с помощью бенчмарка свою модель, надо сгенерировать в ней ответы на вопросы ruMT-Bench и загрузить их посредством платформы FastChat, после чего судья даст свою оценку — как в парном сравнении, так и по отдельности. Для некоторых сложных задач, требующих точного ответа, в промпт судьи включается эталонный ответ, который помогает оценить решения модели.
Бенчмарк был представлен командой разработчиков NLP Core R&D SberDevices в марте 2024 года.
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.