RuCoLA на ICT.Moscow

RuCoLA

Бенчмарк для оценки лингвистической компетентности языковых моделей

Описание:

Выложенный в общий доступ бенчмарк помогает оценить лингвистическую компетентность больших языковых моделей.

RuCoLA может быть использован и для сравнения способностей нейросетей к пониманию языка, и для улучшения качества генерации текстов.

Он представляет собой набор из 13,4 тыс. предложений на русском языке, которые размечены по бинарной шкале лингвистической приемлемости — введенного в научный оборот Ноамом Хомски концепта, который оценивает, насколько предложение является естественным (осмысленным и грамматически правильным) с точки зрения носителя. Приемлемым считается высказывание, которое мог бы привести носитель языка, а другой носитель — понять.

Датасет тестирует чувствительность моделей как к стандартным лингвистическим феноменам (морфологии, синтаксису, семантике), так и к галлюцинациям, например к бессмысленному повторению частей предложения, копированию входного текста и артефактам декодирования.

Предложения RuCoLA делятся на два типа: написанные экспертами и сгенерированные нейросетями. Первые взяты из работ известных лингвистов по различным аспектам языка, вторые — созданы девятью готовыми моделями парафраза и машинного перевода на нескольких корпусах данных и оценены на приемлемость разметчиками. Кроме того, последние были дополнительно классифицированы специалистами.

Метрики качества аналогичны таковым у бенчмарка CoLA: аккуратность бинарной классификации и коэффициент корреляции Мэтьюса. После отправки предсказаний модели увидеть ее результаты можно как на всей тестовой выборке, так и отдельно по экспертным и машинным ошибкам.

Бенчмарк был представлен специалистами из ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ в мае 2022 года.

Репозиторий на GitHub

Датасет на Hugging Face

Статья в сборнике материалов конференции по эмпирическим методам обработки естественного языка EMNLP 2022

Лидерборд

👤 Владислав Михайлов

Технологии:

#искусственный_интеллект #генеративный_ИИ #нейросети #машинное_обучение #бенчмарк #open_source

Разработчик:

#ABBYY #Huawei #Сбербанк #Яндекс #ВШЭ

Проект запущен:

2022

Контакты:

Сайт:

rucola-benchmark.com

129

Последнее обновление:19.11.2024

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.

Редакция:
hello@ict.moscow

Сотрудничество:
partners@ict.moscow

Политика конфиденциальности Пользовательское соглашение

Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0