RuCoLA
Бенчмарк для оценки лингвистической компетентности языковых моделей
Выложенный в общий доступ бенчмарк помогает оценить лингвистическую компетентность больших языковых моделей.
RuCoLA может быть использован и для сравнения способностей нейросетей к пониманию языка, и для улучшения качества генерации текстов.
Он представляет собой набор из 13,4 тыс. предложений на русском языке, которые размечены по бинарной шкале лингвистической приемлемости — введенного в научный оборот Ноамом Хомски концепта, который оценивает, насколько предложение является естественным (осмысленным и грамматически правильным) с точки зрения носителя. Приемлемым считается высказывание, которое мог бы привести носитель языка, а другой носитель — понять.
Датасет тестирует чувствительность моделей как к стандартным лингвистическим феноменам (морфологии, синтаксису, семантике), так и к галлюцинациям, например к бессмысленному повторению частей предложения, копированию входного текста и артефактам декодирования.
Предложения RuCoLA делятся на два типа: написанные экспертами и сгенерированные нейросетями. Первые взяты из работ известных лингвистов по различным аспектам языка, вторые — созданы девятью готовыми моделями парафраза и машинного перевода на нескольких корпусах данных и оценены на приемлемость разметчиками. Кроме того, последние были дополнительно классифицированы специалистами.
Метрики качества аналогичны таковым у бенчмарка CoLA: аккуратность бинарной классификации и коэффициент корреляции Мэтьюса. После отправки предсказаний модели увидеть ее результаты можно как на всей тестовой выборке, так и отдельно по экспертным и машинным ошибкам.
Бенчмарк был представлен специалистами из ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ в мае 2022 года.