ICT.Moscow — ИТ и телеком в Москве

В «Яндексе» и МГУ им. М.В. Ломоносова представили датасет LORuGEC и метод обучения сложным правилам

27 ноября, 13:29|

137

Исследователи «Яндекса» и МГУ им. М.В. Ломоносова собрали датасет LORuGEC с ошибками на русском языке, а также представили метод обучения моделей сложным правилам без переобучения.

LORuGEC — открытый набор данных, он содержит около 1 тыс. предложений с ошибками и охватывает 48 сложных правил, в том числе те, которые проверяют на ЕГЭ и олимпиадах. Среди них — пунктуация в сложноподчиненных предложениях, слитное и раздельное написание слов с «не», согласование сказуемого и подлежащего.

Новый метод обучения правилам русского языка основан на RAG-подходе и на использовании дообученной модели GECTOR. Она находит в LORuGEC предложения с теми же типами ошибок, что и в исходной фразе, и подсказывает их LLM.

Новый метод протестировали на YandexGPT и зарубежных решениях. Утверждается, что точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5, которая является международным стандартом оценки грамматической коррекции. Точность YandexGPT 5 Pro достигла 83%, YandexGPT 5 Lite — 71%.

Карточки решений:
YandexGPT

Подробнее

Тематика:

#образование #датасеты

Технологии:

#искусственный_интеллект #генеративный_ИИ

Компании:

#Яндекс #МГУ

Расскажите знакомым:

Материалы
по теме: