logo Шлепа

Шлепа

Бенчмарк для оценки русскоязычных больших языковых моделей

Описание:

С помощью общедоступного бенчмарка «Шлепа» можно проверить то, насколько хорошо большие языковые модели могут учитывать в своей работе русскоязычный контекст: информацию о культуре и законах России.

В него входят наборы данных с российскими законами, русскоязычными книгами, музыкой и фильмами, а также русифицированный датасет MMLU для проверки знаний нейросети, приобретенных в процессе предобучения. Модели проверяются с помощью задач на многовариантный выбор (Multiple Choice), которые генерируются из датасетов нейросетью OpenAI GPT-4. В первых четырех случаях на выбор предоставляется 12 ответов, в случае MMLUpro-ru — 10.

Проект представлен командой Vikhr Models в сентябре 2024 года.


Лидерборд


👤 Александр Николич


logo Шлепа
Проект запущен:
2024
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0