

Бенчмарк для RAG-систем
DRAGON (Dynamic RAG On News Benchmark) может быть применим в оценке систем генерации с дополненной выборкой (RAG, Retrieval-Augmented Generation).
Бенчмарк является динамическим — датасеты для него периодически обновляются, что позволяет им не попадать в данные для обучения моделей.
В качестве источника для DRAGON используются публикации российских новостных порталов. С помощью модели Llama 3.3 из них извлекаются графы знаний, которые содержат данные о субъекте, объекте и отношениях между ними.
На их основе после проверки на корректность и качество генерации отбираются 600 пар вопросов и ответов, распределенных по четырем количественно равным категориям: Simple (описывающие единственный факт), Set (c одним и тем же отношением, но повторяющимися субъектами или объектами), Conditional (с двумя отношениями) и Multi-Hop (с цепочками отношений).
Оценка RAG-систем производится на основании среднего показателя по трем метрикам. ROUGE-L измеряет качество генерации, Substring Matching помогает выявить, насколько ключевые данные из ответа-образца представлены в сгенерированном ответе, а Judge Score является оценкой модели-судьи POLLUX. Также в итоговую оценку входят измерения качества извлечения используемых RAG-системами моделей-эмбеддеров (создающих векторные представления текстов).
Бенчмарк DRAGON был представлен исследователями из Sber AI и Университета ИТМО в июле 2025 года. Доступен как открытое ПО.
Архивные датасеты бенчмарка на Hugging Face (очищенные новостные документы, вопросы по ним, ответы на вопросы)

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.