• лента
  • кейсы
  • московские решения
  • аналитика рынка
  • ICT.moscow об ИИ
  • презентации
  • подписка
  • материалы по теме
logo Dedoc

Dedoc

Библиотека для автоматизации процесса обработки документов

Описание:

Выложенная в открытый доступ библиотека на языке Python предназначена для автоматической обработки документов разных форматов (DOC, DOCX, ODT, HTML, PDF, CSV, а также сканов и фотографий) на четырех языках: русском, английском, французском и испанском. На выходе Dedoc позволяет получить файл (текст, таблицы) в едином выходном представлении.

Кроме того, с помощью Dedoc можно извлечь содержимое и восстановить иерархическую структуру документа.

Для корректной работы библиотеки разработчики рекомендуют устанавливать ее в операционной системе Ubuntu версии 20 и более. При использовании в других ОС библиотеку можно запустить в Docker-контейнере.

Библиотека была представлена разработчиками из Института системного программирования им. В.П. Иванникова РАН в декабре 2023 года.


Демоверсия на Hugging Face

Документация

Страница на PyPI


👤 Анастасия Зыкина


logo Dedoc
Проект запущен:
2023
Контакты:

Сайт:
24
Последнее обновление:13.05.2025
Что такое ICT.Moscow?

ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.