rulm-sbs2 на ICT.Moscow

310

rulm-sbs2

Бенчмарк для оценки языковых моделей

Описание:

Бенчмарк помогает в оценке русскоязычных больших языковых моделей, являющихся аналогами моделей OpenAI ChatGPT.

По принципу работы rulm-sbs2 похож на бенчмарки AlpacaEval и MT-Bench. Судья (большая языковая модель OpenAI GPT4) оценивает по десятибалльной шкале ответы двух моделей —испытуемой и базовой (OpenAI GPT-3.5 Turbo) на 500 заданий из более чем 15 категорий. Испытания взяты из открытых датасетов Alpaca и Vicuna, а также частично почерпнуты из заданий бенчмарка Chatbot Arena.

Для исключения предвзятости оценки судьи каждое сравнение делается два раза с последующей перестановкой ответов моделей. После этого получившиеся дельты оценок для каждой модели складываются, и полученное число делится на количество заданий.

Бенчмарк был представлен Лабораторией анализа данных Александра Кукушкина в сентябре 2023 года. Доступен как открытое ПО.

Репозиторий на GitHub

👤 Александр Кукушкин

Участвует в спецпроектах ICT.Moscow:

Смотреть

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #бенчмарк #open_source

Разработчик:

#Лаборатория_анализа_данных_Александра_Кукушкина

Проект запущен:

2023

Последнее обновление:13.11.2025

Другие проекты разработчика:

simple-evals-ru

Бенчмарк для больших языковых моделей

#бенчмарк #искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Лаборатория_анализа_данных_Александра_Кукушкина

Natasha

Библиотека для обработки естественного русского языка

#искусственный_интеллект #нейросети #машинное_обучение #open_source #Лаборатория_анализа_данных_Александра_Кукушкина

смотреть еще

Похожие проекты:

A-Vision

Большая мультимодальная модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

A-Vibe

Большая языковая модель

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #open_source #Avito

Бизнес.Локатор

ИИ-сервис для малого бизнеса

#искусственный_интеллект #нейросети #машинное_обучение #геоинформационные_системы #бизнес_аналитика #Билайн

Evolution Managed RAG

RAG-сервис

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #Cloud #Сбербанк

смотреть еще

Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение