TAPE на ICT.Moscow

ИБ В РОССИИ: БАЗА ЗНАНИЙИБ В РОССИИ: БАЗА ЗНАНИЙ

TAPE

Бенчмарк для оценки понимания моделями русского языка

Описание:

Бенчмарк TAPE (Text Attack and Perturbation Evaluation) оценивает способность моделей машинного обучения в форматах Few-Shot и Zero-Shot обрабатывать русский естественный язык. Он может быть использован для проверки способности моделей к построению логических суждений и многоаспектной оценке этических ситуаций.

В бенчмарк входят шесть наборов данных: для оценки разрешения кореференции в текстах со сложными синтаксическими связями (Winograd), здравого смысла и знаний о мире (тесты на выбор правильного ответа — RuOpenBookQA и RuWorldTree, а также на поиск открытого ответа на вопрос с опорой на логику и общие знания о мире — CheGeKa), способности агрегировать факты из нескольких тематически связанных текстов (MultiQ), а также для интерпретации ситуаций в тексте с точки зрения этики.

Каждый датасет состоит из обучающей и тестовой выборок, где каждому примеру присвоен индекс эпизода — набор из примеров с правильными ответами из обучающей выборки и одного тестового примера, к которому применяются состязательные атаки и трансформации.

Для оценки устойчивости моделей к шуму — робастности — используется фреймворк RuTransform, поддерживающий два вида атак и трансформаций: на уровне слов (опечатки и замена слов на эмодзи) и на уровне предложений (перестановка или удаление слов, парафраз и добавление предложения в конец текста). Для многосторонней оценки моделей в бенчмарке применяются субпопуляции — подмножества тестовых данных, объединенные каким-либо условием.

Бенчмарк был разработан специалистами из SberDevices, НИУ ВШЭ и Huawei и представлен в декабре 2022 года. Доступен как открытое ПО.

Репозитории на GitHub, Hugging Face

Статья в сборнике материалов конференции EMNLP 2022

Лидерборд

👤 Екатерина Такташева

👤 Мария Тихонова

👤 Алена Феногенова

Участвует в спецпроектах ICT.Moscow:

Смотреть

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #бенчмарк #open_source

Разработчик:

#Сбербанк #НИУ_ВШЭ #Huawei

Проект запущен:

2022

Контакты:

Сайт:

tape-benchmark.com

392

Последнее обновление:14.11.2025

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение