

Библиотека для обработки естественного русского языка
Выложенная в открытый доступ библиотека Natasha объединяет девять репозиториев, позволяющих решать базовые задачи обработки естественного русского языка.
Natasha представляет собой решения для извлечения из текста именованных сущностей (Named Entity Recognition, NER), Yargy помогает выделять из них структурированную информацию, Razdel делит текст на слова и предложения, в Ipymarkup содержатся инструменты для визуализации NER-разметки и синтаксических связей, Corus является коллекцией русскоязычных датасетов, Nerus представляет собой датасет с автоматической разметкой именованных сущностей, морфологии и синтаксиса, Navec содержит набор предобученных эмбеддингов (векторных представлений текста), а в Slovnet выложены модели-теггеры и парсер.
Naeval позволяет сравнить инструменты проекта с другими открытыми решениями.
Библиотека была представлена Лабораторией анализа данных Александра Кукушкина в 2018 году. В 2020 году была выпущена обновленная версия проекта.

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.