logo Dedoc

Dedoc

Библиотека для автоматизации процесса обработки документов

Описание:

Выложенная в открытый доступ библиотека на языке Python предназначена для автоматической обработки документов разных форматов (DOC, DOCX, ODT, HTML, PDF, CSV, а также сканов и фотографий) на четырех языках: русском, английском, французском и испанском. На выходе Dedoc позволяет получить файл (текст, таблицы) в едином выходном представлении.

Кроме того, с помощью Dedoc можно извлечь содержимое и восстановить иерархическую структуру документа.

Для корректной работы библиотеки разработчики рекомендуют устанавливать ее в операционной системе Ubuntu версии 20 и более. При использовании в других ОС библиотеку можно запустить в Docker-контейнере.

Библиотека была представлена разработчиками из Института системного программирования им. В.П. Иванникова РАН в декабре 2023 года.


Демоверсия на Hugging Face

Документация

Страница на PyPI


👤 Анастасия Зыкина


logo Dedoc
Проект запущен:
2023
Последнее обновление:13.05.2025
Главное про цифровые технологии в Москве

Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности

Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.