Фреймворк для оценки систем генерации с дополненной выборкой
Выложенный в общий доступ фреймворк RURAGE (Robust Universal RAG Evaluation) призван помочь в оценке систем RAG (Retrieval Augmented Generation, системы генерации с дополненной выборкой). Он представляет собой ансамбль различных метрик, в частности ROUGE, BLEU, Bigram, Unigram. Кроме того, с помощью моделей-трансформеров выявляются задачи автоматического определения логической связи между текстами NLI (Natural Language Inference) и коэффициент Отиаи (мера сходства).
Разработчики предупреждают: для тестирования с помощью RURAGE необходимо использовать Gold Set (выборка тщательно размеченных данных) с эталонными ответами. Это позволяет почти в два раза повысить полезность детерминированных метрик.
Фреймворк был представлен MTS AI на конференции PyСon Russia 2024. Разработчики анонсировали, что в будущем в RURAGE будет добавлена опция автоматического расчета неопределенности (Uncertainty Еstimation) на основе фреймворка LM-Polygraph.
Презентация RURAGE на PyCon Russia 2024
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.