• лента
  • кейсы
  • московские решения
  • аналитика рынка
  • ICT.moscow об ИИ
  • презентации
  • подписка
  • материалы по теме
logo  RuCoLA

RuCoLA

Бенчмарк для оценки лингвистической компетентности языковых моделей

Описание:

Выложенный в общий доступ бенчмарк помогает оценить лингвистическую компетентность больших языковых моделей.

RuCoLA может быть использован и для сравнения способностей нейросетей к пониманию языка, и для улучшения качества генерации текстов.

Он представляет собой набор из 13,4 тыс. предложений на русском языке, которые размечены по бинарной шкале лингвистической приемлемости — введенного в научный оборот Ноамом Хомски концепта, который оценивает, насколько предложение является естественным (осмысленным и грамматически правильным) с точки зрения носителя. Приемлемым считается высказывание, которое мог бы привести носитель языка, а другой носитель — понять.

Датасет тестирует чувствительность моделей как к стандартным лингвистическим феноменам (морфологии, синтаксису, семантике), так и к галлюцинациям, например к бессмысленному повторению частей предложения, копированию входного текста и артефактам декодирования.

Предложения RuCoLA делятся на два типа: написанные экспертами и сгенерированные нейросетями. Первые взяты из работ известных лингвистов по различным аспектам языка, вторые — созданы девятью готовыми моделями парафраза и машинного перевода на нескольких корпусах данных и оценены на приемлемость разметчиками. Кроме того, последние были дополнительно классифицированы специалистами.

Метрики качества аналогичны таковым у бенчмарка CoLA: аккуратность бинарной классификации и коэффициент корреляции Мэтьюса. После отправки предсказаний модели увидеть ее результаты можно как на всей тестовой выборке, так и отдельно по экспертным и машинным ошибкам.

Бенчмарк был представлен специалистами из ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ в мае 2022 года.


Репозиторий на GitHub

Датасет на Hugging Face

Статья в сборнике материалов конференции по эмпирическим методам обработки естественного языка EMNLP 2022

Лидерборд


👤 Владислав Михайлов


logo  RuCoLA
Проект запущен:
2022
Контакты:

Сайт:
129
Последнее обновление:19.11.2024
Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.



Если не указано иное, материалы доступны по лицензии Creative Commons BY 4.0