logo Natasha

Natasha

Библиотека для обработки естественного русского языка

Описание:

Выложенная в открытый доступ библиотека Natasha объединяет девять репозиториев, позволяющих решать базовые задачи обработки естественного русского языка.

Natasha представляет собой решения для извлечения из текста именованных сущностей (Named Entity Recognition, NER), Yargy помогает выделять из них структурированную информацию, Razdel делит текст на слова и предложения, в Ipymarkup содержатся инструменты для визуализации NER-разметки и синтаксических связей, Corus является коллекцией русскоязычных датасетов, Nerus представляет собой датасет с автоматической разметкой именованных сущностей, морфологии и синтаксиса, Navec содержит набор предобученных эмбеддингов (векторных представлений текста), а в Slovnet выложены модели-теггеры и парсер.

Naeval позволяет сравнить инструменты проекта с другими открытыми решениями.

Библиотека была представлена Лабораторией анализа данных Александра Кукушкина в 2018 году. В 2020 году была выпущена обновленная версия проекта.


👤 Александр Кукушкин


logo Natasha
Проект запущен:
2017
Последнее обновление:16.05.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.