• лента
  • кейсы
  • московские решения
  • аналитика рынка
  • ICT.moscow об ИИ
  • презентации
  • подписка
  • материалы по теме
logo TAPE

TAPE

Бенчмарк для оценки понимания моделями русского языка

Описание:

Разработанный специалистами из SberDevices, НИУ ВШЭ и Huawei общедоступный бенчмарк TAPE (Text Attack and Perturbation Evaluation) оценивает способность моделей машинного обучения в форматах Few-shot и Zero-shot обрабатывать русский естественный язык. Он был представлен в декабре 2022 года и ставит своей целью проверить способности моделей к построению логических суждений и многоаспектной оценке этических ситуаций.

В бенчмарк входят шесть наборов данных: для оценки разрешения кореференции в текстах со сложными синтаксическими связями (Winograd), здравого смысла и знаний о мире (тесты на выбор правильного ответа — RuOpenBookQA и RuWorldTree, а также на поиск открытого ответа на вопрос с опорой на логику и общие знания о мире — CheGeKa), способности агрегировать факты из нескольких тематически связанных текстов (MultiQ), а также для интерпретации ситуаций в тексте с точки зрения этики.

Каждый датасет состоит из обучающей и тестовой выборок, где каждому примеру присвоен индекс эпизода — набор из примеров с правильными ответами из обучающей выборки и одного тестового примера, к которому применяются состязательные атаки и трансформации.

Для оценки устойчивости моделей к шуму — робастности — используется фреймворк RuTransform, поддерживающий два вида атак и трансформаций: на уровне слов (опечатки и замена слов на эмодзи) и на уровне предложений (перестановка или удаление слов, парафраз и добавление предложения в конец текста). Для многосторонней оценки моделей в бенчмарке применяются субпопуляции — подмножества тестовых данных, объединенные каким-либо условием.


Репозиторий на GitHub

Датасеты на Hugging Face

Статья в сборнике материалов конференции по эмпирическим методам обработки естественного языка EMNLP 2022

Лидерборд


👤 Екатерина Такташева


logo TAPE
Проект запущен:
2022
Контакты:

Сайт:
129
Последнее обновление:19.11.2024
Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0