亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

python下wordpdf轉換總結

系統 1554 0
??

近期涉及到了關于 doc 文檔讀取的處理,也查了很久,為了便于大家使用,故集大成一下。

Doc 文檔讀取有如下幾種:

1 、從 doc 讀取文本

?????? 目前沒有找到直接的方式,一般是先轉為 docx 文件在處理。所使用工具為 doc2doc( 批量時可用 ) ,或人工另存處理。

?

2 、從 docx 讀取文本

?????? 一般使用 python-docx 庫的方法,但只支持創建新文檔和讀取一些基本的文件數據,如文件大小和文件標題,不支持正文讀取。

?????? 或直接從 docx 中讀取 xml 的方法。

?

3 、從 pdf 讀取文本

?????? 一般使用 pdfminer3k 庫或 pyPdf 庫。其中 pyPdf 用起來其實稍顯麻煩,很多操作不夠方便。 pdfminer 對表格不友好,也可以將 PDF 轉換為 text 文本,還可以轉換為 HTML 等帶有標簽的文本。

?????? 還有一種可以用 pdf2htmlex( python) ,先把 pdf html ,接下來再用 bs4 來解析處理。這樣的好處是處理 html 的工具非常非常豐富,且 pdf2htmlex 對原頁面的效果保持得特別好,特別是對于那些個用 word latex 導出的 pdf 里,大量數據圖表里的標簽可以很方便地提取所需的值。

?

4 、把 pdf 中圖存為 jpg 文件

?????? 一般可以使用 PythonMagick 庫。

?

以上的代碼處理,均在 https://github.com/renwoxing2016/


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 国产在线麻豆精品 | 五月婷婷开心中文字幕 | 亚洲成人性视频 | 91久久澡人人爽人人添 | 韩国网站爱久久 | 天天射天天干天天舔 | 97av在线视频 | 国产精品青青青高清在线密亚 | 国产激情对白一区二区三区四 | 精品国产一区二区三区久久 | 一级毛片日本特黄97人人 | 成人青草亚洲国产 | 亚洲日本va中文字幕 | 在线观看视频一区 | 久久久综合 | 日日夜夜天天干 | aaaaaa国产毛片孕妇版 | 色综合伊人色综合网亚洲欧洲 | 成人精品免费视频 | 中文字幕91在线 | 欧美亚洲国产成人综合在线 | 九九热视频在线 | 澳门四虎影院 | a级免费网站 | 国产欧美在线观看不卡 | 久久亚洲国产欧洲精品一 | 国产成人精品亚洲 | 欧美日产| 亚洲香蕉久久一区二区三区四区 | 拍真实国产伦偷精品 | 在线精品福利 | 欧美日韩中文字幕久久伊人 | 日日摸夜夜添夜夜添人人爽 | 欧美大陆日韩一区二区三区 | 日本中文字幕二区三区 | 全黄h全肉边做边吃奶在线观看 | 极品欧美人体xxxxoo | 成人网久久 | 被黑人做的白浆直流在线播放 | 性新婚a大黄毛片 | 99视频全部免费 |