Бенчмарк для больших языковых моделей
Выложенный в общий доступ бенчмарк BABILong (Benchmark for Artificial Intelligence for Long-context Evaluation) может использоваться для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах.
В основе бенчмарка лежит тест «Иголка в стоге сена» (Needle in a Haystack), созданный в ноябре 2023 года. В нем в объемный текст — «сено» — вставляется случайный факт, «иголка». От большой языковой модели требуется ответить на вопрос об этом факте, используя только контекст. Она должна сначала отличить предложения, относящиеся к исходной задаче, затем запомнить их и впоследствии применить для генерации правильного решения. Схожесть ответа c эталонным оценивается еще одним запросом к модели.
В качестве «иголки» в BABILong выступает синтетический бенчмарк bAbI, который содержит 20 задач для оценки основных аспектов рассуждения по заданной несколькими фактами ситуации. Таким образом проверяется способность модели не только находить факты, но и оперировать ими. В качестве большого текста в бенчмарке задействованы книги из набора данных PG19.
В своей научной работе исследователи на примере бенчмарка показали перспективность донастройки больших языковых моделей с целью использования последними рекуррентной памяти для обработки очень длинных текстов. В то время как применяющие подход поисковой дополненной генерации (RAG) модели GPT-4 и Mistral не смогли выполнить задачи BABILong, когда количество отвлекающего текста было чрезвычайно велико, рекуррентные модели, дообученные на базе OpenAI GPT-2, показали, как утверждают ученые, хорошие результаты на последовательностях длиной до 16 тыс. токенов.
BABILong был представлен исследователями из AIRI и МФТИ в феврале 2024 года. В ноябре разработчики обновили требования к используемому для работы с бенчмарком программному обеспечению.
Мониторинг 5G/6G: главное за май–июнь
ICT.Moscow
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.