TAPE
Бенчмарк для оценки понимания моделями русского языка
Разработанный специалистами из SberDevices, НИУ ВШЭ и Huawei общедоступный бенчмарк TAPE (Text Attack and Perturbation Evaluation) оценивает способность моделей машинного обучения в форматах Few-shot и Zero-shot обрабатывать русский естественный язык. Он был представлен в декабре 2022 года и ставит своей целью проверить способности моделей к построению логических суждений и многоаспектной оценке этических ситуаций.
В бенчмарк входят шесть наборов данных: для оценки разрешения кореференции в текстах со сложными синтаксическими связями (Winograd), здравого смысла и знаний о мире (тесты на выбор правильного ответа — RuOpenBookQA и RuWorldTree, а также на поиск открытого ответа на вопрос с опорой на логику и общие знания о мире — CheGeKa), способности агрегировать факты из нескольких тематически связанных текстов (MultiQ), а также для интерпретации ситуаций в тексте с точки зрения этики.
Каждый датасет состоит из обучающей и тестовой выборок, где каждому примеру присвоен индекс эпизода — набор из примеров с правильными ответами из обучающей выборки и одного тестового примера, к которому применяются состязательные атаки и трансформации.
Для оценки устойчивости моделей к шуму — робастности — используется фреймворк RuTransform, поддерживающий два вида атак и трансформаций: на уровне слов (опечатки и замена слов на эмодзи) и на уровне предложений (перестановка или удаление слов, парафраз и добавление предложения в конец текста). Для многосторонней оценки моделей в бенчмарке применяются субпопуляции — подмножества тестовых данных, объединенные каким-либо условием.