
Dedoc
Библиотека для автоматизации процесса обработки документов
Выложенная в открытый доступ библиотека на языке Python предназначена для автоматической обработки документов разных форматов (DOC, DOCX, ODT, HTML, PDF, CSV, а также сканов и фотографий) на четырех языках: русском, английском, французском и испанском. На выходе Dedoc позволяет получить файл (текст, таблицы) в едином выходном представлении.

Кроме того, с помощью Dedoc можно извлечь содержимое и восстановить иерархическую структуру документа.
Для корректной работы библиотеки разработчики рекомендуют устанавливать ее в операционной системе Ubuntu версии 20 и более. При использовании в других ОС библиотеку можно запустить в Docker-контейнере.
Библиотека была представлена разработчиками из Института системного программирования им. В.П. Иванникова РАН в декабре 2023 года.
