logo BABILong

BABILong

Бенчмарк для больших языковых моделей

Описание:

Выложенный в общий доступ бенчмарк BABILong (Benchmark for Artificial Intelligence for Long-context Evaluation) может использоваться для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах.

В основе бенчмарка лежит тест «Иголка в стоге сена» (Needle in a Haystack), созданный в ноябре 2023 года. В нем в объемный текст — «сено» — вставляется случайный факт, «иголка». От большой языковой модели требуется ответить на вопрос об этом факте, используя только контекст. Она должна сначала отличить предложения, относящиеся к исходной задаче, затем запомнить их и впоследствии применить для генерации правильного решения. Схожесть ответа c эталонным оценивается еще одним запросом к модели.

В качестве «иголки» в BABILong выступает синтетический бенчмарк bAbI, который содержит 20 задач для оценки основных аспектов рассуждения по заданной несколькими фактами ситуации. Таким образом проверяется способность модели не только находить факты, но и оперировать ими. В качестве большого текста в бенчмарке задействованы книги из набора данных PG19.

В своей научной работе исследователи на примере бенчмарка показали перспективность донастройки больших языковых моделей с целью использования последними рекуррентной памяти для обработки очень длинных текстов. В то время как применяющие подход поисковой дополненной генерации (RAG) модели GPT-4 и Mistral не смогли выполнить задачи BABILong, когда количество отвлекающего текста было чрезвычайно велико, рекуррентные модели, дообученные на базе OpenAI GPT-2, показали, как утверждают ученые, хорошие результаты на последовательностях длиной до 16 тыс. токенов.

BABILong был представлен исследователями из AIRI и МФТИ в феврале 2024 года. В ноябре разработчики обновили требования к используемому для работы с бенчмарком программному обеспечению.


Репозиторий на GitHub


👤 Юрий Куратов


logo BABILong
Проект запущен:
2024
Последнее обновление:19.11.2024
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0