
Библиотека для автоматизации процесса обработки документов
Выложенная в открытый доступ библиотека на языке Python предназначена для автоматической обработки документов разных форматов (DOC, DOCX, ODT, HTML, PDF, CSV, а также сканов и фотографий) на четырех языках: русском, английском, французском и испанском. На выходе Dedoc позволяет получить файл (текст, таблицы) в едином выходном представлении.
Кроме того, с помощью Dedoc можно извлечь содержимое и восстановить иерархическую структуру документа.
Для корректной работы библиотеки разработчики рекомендуют устанавливать ее в операционной системе Ubuntu версии 20 и более. При использовании в других ОС библиотеку можно запустить в Docker-контейнере.
Библиотека была представлена разработчиками из Института системного программирования им. В.П. Иванникова РАН в декабре 2023 года.
#искусственный_интеллект#нейросети#машинное_обучение#open_source#распознавание_документа
Разработчик:Нажимая на кнопку, вы соглашаетесь с политикой конфиденциальности
ICT.Moscow — открытая площадка о цифровых технологиях в Москве. Мы создаем наиболее полную картину развития рынка технологий в городе и за его пределами, помогаем бизнесу следить за главными трендами, не упускать возможности и находить новых партнеров.