如何轻松搞定Pdf转Word用Python

技术如何轻松搞定Pdf转Word用Python这期内容当中小编将会给大家带来有关如何轻松搞定Pdf转Word用Python,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。大家在日常的工作

本期,边肖将为您带来关于如何使用Python轻松将Pdf转换为Word的信息。文章内容丰富,从专业角度进行分析和叙述。看完这篇文章,希望你能有所收获。

每个人在日常的工作和学习中都会遇到一个问题,那就是把pdf中的文字内容转换成word,也就是从只读变成读写形式。面对这种情况,大多数人都使用在线工具,但在线工具是混合的,很难满足我们的需求。

今天,边肖带领大家使用python来实现如何将pdf内容转换为word文档。同时,我们还会将图片从pdf中提取出来,保存在我们指定的文件夹中。

01.文字的提取

我们需要做的第一件事是提取pdf格式的文本,如下图所示:

如何轻松搞定Pdf转Word用Python

pdf中的汉字只允许只读,不能更改,所以我们要做的就是把Pdf中的文字信息提取出来,然后把提取出来的文字写入word文件中,这样以后就可以重写了。对于文本提取,我们使用pdfminer函数库,其主要功能如下图所示:

如何轻松搞定Pdf转Word用Python

首先,程序使用get_content_from_pdf函数返回从pdf中提取的数据。

然后创建PDFResourceManager对象保存共享数据内容,创建PDFPageAggregator对象将资源对象处理成我们需要的格式,使用PDFPageInterpreter处理页面内容。

程序中的Page_index用来帮助我们设置需要提取哪些页面。对于我们需要提取的页面,页面信息由创建的PDFPageInterpreter对象解释。

最后,数据被PDFPageAggregator对象处理。

这里的布局包含从页面解析的所有类型的对象。包括文本、图片和其他信息。但是,边肖发现pdfminer对图像提取的效果很差,所以对于图像提取,边肖使用fitz库进行单独处理,取得了很好的图像提取效果。说到这里,我们先来看看文本处理的结果。

如何轻松搞定Pdf转Word用Python

我们的pdf是一个两页的pdf文档,我们只让程序提取第一页的文本。从上图可以看出,程序完全提取了第一页的文本,没有任何错误。

02.图片的提取

随着文字的处理,我们来看看如何提取pdf格式的图片并保存到本地。对于图像提取,程序如下图所示:

如何轻松搞定Pdf转Word用Python

在上述程序中,我们使用fitz库提取pdf文档中的对象,然后通过字符串匹配来判断对象是否为图片类型。如果没有,我们可以直接跳过它们。

如果判断对象是图片类型,我们可以通过创建一个PixMap对象来提取图片,并保存到我们指定的路径。结果如下图所示:

如何轻松搞定Pdf转Word用Python

从上图可以看出,我们提取的图片是正确的,从而达到了我们提取图片的目的,边肖也尝试过在没有任何压力的情况下提取很多图片。它可以在几秒钟内提取pdf文档的所有图片。

以上就是如何使用Python轻松将Pdf转换成Word,边肖为大家分享。如有类似疑惑,请参考以上分析了解。想了解更多,请关注行业信息渠道。

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/54366.html

(0)

相关推荐

  • 数据库数据文件如何进行分区转移

    技术数据库数据文件如何进行分区转移数据库数据文件如何进行分区转移,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。由于之前同事没有对磁盘分区做规

    攻略 2021年11月29日
  • 酸枣仁泡水一次用几粒,酸枣仁泡水喝的功效是什么

    技术酸枣仁泡水一次用几粒,酸枣仁泡水喝的功效是什么酸枣仁泡水真的是治疗失眠的“绝招”吗酸枣仁泡水一次用几粒?68岁老中医说出真相……酸枣仁即酸枣的种子,经炮制后可作药用,它含有生物碱、多种氨基酸和金属元素等成分,能起到宁

    生活 2021年10月25日
  • 暴龙太阳镜官方网站,雷德蒙暴龙眼镜代言人是谁

    技术暴龙太阳镜官方网站,雷德蒙暴龙眼镜代言人是谁暴龙更好暴龙太阳镜官方网站。 我自己更喜欢暴龙的外观,看着很时尚,然后多大气的,好几副都是它家的,戴着很舒服,摭光也蛮不错的,用了有两年了吧,没有出问题过。 暴

    生活 2021年10月21日
  • xamarin开发安卓app教程(xamarin安卓移动开发视频教程)

    技术如何更改Xamarin Android App名称这篇文章将为大家详细讲解有关如何更改Xamarin Android App名称,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。更改X

    攻略 2021年12月21日
  • sqlite select语句(sql中select的功能)

    技术SQLite中的SELECT子句如何使用表达式这篇文章将为大家详细讲解有关SQLite中的SELECT子句如何使用表达式,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。SQLite中

    攻略 2021年12月18日
  • 风的笔顺是,风的第二笔的笔画名称是什么

    技术风的笔顺是,风的第二笔的笔画名称是什么撇、横折弯钩/横斜钩、撇、点风的笔顺是。 风字详解: 一、详细信息:
    拼音:fēng、fěng  
    部首:风
    笔画:4
    二、笔顺图: 三、基本释义:
    (1)读作:fēn

    生活 2021年10月25日