Исследователи «Яндекса» и МГУ им. М.В. Ломоносова собрали датасет LORuGEC с ошибками на русском языке, а также представили метод обучения моделей сложным правилам без переобучения.
LORuGEC — открытый набор данных, он содержит около 1 тыс. предложений с ошибками и охватывает 48 сложных правил, в том числе те, которые проверяют на ЕГЭ и олимпиадах. Среди них — пунктуация в сложноподчиненных предложениях, слитное и раздельное написание слов с «не», согласование сказуемого и подлежащего.
Новый метод обучения правилам русского языка основан на RAG-подходе и на использовании дообученной модели GECTOR. Она находит в LORuGEC предложения с теми же типами ошибок, что и в исходной фразе, и подсказывает их LLM.
Новый метод протестировали на YandexGPT и зарубежных решениях. Утверждается, что точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5, которая является международным стандартом оценки грамматической коррекции. Точность YandexGPT 5 Pro достигла 83%, YandexGPT 5 Lite — 71%.
Карточки решений:
YandexGPT
Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.