logo LIBRA

LIBRA

Бенчмарк для русскоязычных больших языковых моделей

Описание:

Выложенный в общий доступ LIBRA (Long Input Benchmark for Russian Analysis) помогает оценить способности языковой модели оперировать длинным контекстом: резюмировать, вычленять основные идеи текста, проводить реляционную операцию с объемной таблицей.

Задачи бенчмарка подразделены на четыре группы сложности. Датасеты в первой предназначены для оценки работы по поиску короткого важного фрагмента в большом нерелевантном тексте, во второй — по поиску ответа на вопрос, в третьей — по поиску ответа, распределенного среди нескольких релевантных фрагментов. Четвертая же группа наборов данных требует от модели понимания всего контекста, а также решения математических задач.

Тесты проводятся в формате Zero-shot, при котором модели даются задачи, ранее не использовавшиеся при обучении. Это, по словам исследователей, позволяет избежать выходов за пределы допустимой длины контекста.

Разработчики отмечают, что пользователи бенчмарка при тестировании моделей могут использовать как созданные ими промпты, так и свои собственные наборы инструкций.

LIBRA представлен в августе 2024 года разработчиками из AIRI, ecom.tech, SberDevices и МФТИ.


Репозиторий на GitHub

Датасет на Hugging Face

Лидерборд


👤 Игорь Чурин


logo LIBRA
Проект запущен:
2024
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0