如何轻松搞定Pdf转Word用Python

技术如何轻松搞定Pdf转Word用Python这期内容当中小编将会给大家带来有关如何轻松搞定Pdf转Word用Python,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。大家在日常的工作

本期,边肖将为您带来关于如何使用Python轻松将Pdf转换为Word的信息。文章内容丰富,从专业角度进行分析和叙述。看完这篇文章,希望你能有所收获。

每个人在日常的工作和学习中都会遇到一个问题,那就是把pdf中的文字内容转换成word,也就是从只读变成读写形式。面对这种情况,大多数人都使用在线工具,但在线工具是混合的,很难满足我们的需求。

今天,边肖带领大家使用python来实现如何将pdf内容转换为word文档。同时,我们还会将图片从pdf中提取出来,保存在我们指定的文件夹中。

01.文字的提取

我们需要做的第一件事是提取pdf格式的文本,如下图所示:

如何轻松搞定Pdf转Word用Python

pdf中的汉字只允许只读,不能更改,所以我们要做的就是把Pdf中的文字信息提取出来,然后把提取出来的文字写入word文件中,这样以后就可以重写了。对于文本提取,我们使用pdfminer函数库,其主要功能如下图所示:

如何轻松搞定Pdf转Word用Python

首先,程序使用get_content_from_pdf函数返回从pdf中提取的数据。

然后创建PDFResourceManager对象保存共享数据内容,创建PDFPageAggregator对象将资源对象处理成我们需要的格式,使用PDFPageInterpreter处理页面内容。

程序中的Page_index用来帮助我们设置需要提取哪些页面。对于我们需要提取的页面,页面信息由创建的PDFPageInterpreter对象解释。

最后,数据被PDFPageAggregator对象处理。

这里的布局包含从页面解析的所有类型的对象。包括文本、图片和其他信息。但是,边肖发现pdfminer对图像提取的效果很差,所以对于图像提取,边肖使用fitz库进行单独处理,取得了很好的图像提取效果。说到这里,我们先来看看文本处理的结果。

如何轻松搞定Pdf转Word用Python

我们的pdf是一个两页的pdf文档,我们只让程序提取第一页的文本。从上图可以看出,程序完全提取了第一页的文本,没有任何错误。

02.图片的提取

随着文字的处理,我们来看看如何提取pdf格式的图片并保存到本地。对于图像提取,程序如下图所示:

如何轻松搞定Pdf转Word用Python

在上述程序中,我们使用fitz库提取pdf文档中的对象,然后通过字符串匹配来判断对象是否为图片类型。如果没有,我们可以直接跳过它们。

如果判断对象是图片类型,我们可以通过创建一个PixMap对象来提取图片,并保存到我们指定的路径。结果如下图所示:

如何轻松搞定Pdf转Word用Python

从上图可以看出,我们提取的图片是正确的,从而达到了我们提取图片的目的,边肖也尝试过在没有任何压力的情况下提取很多图片。它可以在几秒钟内提取pdf文档的所有图片。

以上就是如何使用Python轻松将Pdf转换成Word,边肖为大家分享。如有类似疑惑,请参考以上分析了解。想了解更多,请关注行业信息渠道。

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/54366.html

(0)

相关推荐

  • Oracle Partition怎么使用

    技术Oracle Partition怎么使用本篇内容主要讲解“Oracle Partition怎么使用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Oracle Partit

    攻略 2021年12月9日
  • ubuntu如何安装node指定版本

    技术ubuntu如何安装node指定版本这篇文章主要介绍了ubuntu如何安装node指定版本,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

    攻略 2021年12月13日
  • Python如何处理图像特效

    技术Python如何处理图像特效这篇文章主要为大家展示了“Python如何处理图像特效”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Python如何处理图像特效”这篇文章吧。

    攻略 2021年11月24日
  • Elasticsearch中如何进行Match查询

    技术Elasticsearch中如何进行Match查询Elasticsearch中如何进行Match查询,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。如

    攻略 2021年11月16日
  • 存储过程中使用事务

    技术存储过程中使用事务 存储过程中使用事务GPS平台、网站建设、软件开发、系统运维,找森大网络科技!https://cnsendnet.taobao.com来自森大科技官方博客http://www.cn

    礼包 2021年12月10日
  • 大数据中如何捕获内网数据包

    技术大数据中如何捕获内网数据包今天就跟大家聊聊有关大数据中如何捕获内网数据包,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。环境:小攻:Kali 2020,ip:1

    攻略 2021年12月10日