亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

【Python】解析PDF文檔文本和表格內容的四大方法介紹

系統 1904 0

很多文件為了安全都會存成PDF格式,比如有的論文、技術文檔、書籍等等,這給程序讀取這些文檔內容帶來了很多麻煩。Python目前解析PDF的擴展包有很多,本文將對比介紹PyPDF2、pdfplumber、pdfminer3k以及Camelot,告訴你哪個是好用的PDF解析工具。 碼字不易,喜歡請點贊!!!

本文使用的案例PDF文檔下載鏈接:
鏈接:https://pan.baidu.com/s/1zH7vY47AqBYKM0XbdABbUA
提取碼:xhem

另外,獲取PDF文檔之后,會發現PDF文檔中的換行符是以行的位置相同的,而不是跟段落相同。

1.PyPDF2解析PDF文檔

這里主要參考了2019-03-07,Usman Malik寫的一篇文章:Python for NLP: Working with Text and PDF Files
使用Python或者Anaconda安裝PyPDF2擴展包:

            
              pip install PyPDF2

OR

conda install -c conda-forge pypdf2

            
          

讀取PDF文件

            
              import PyPDF2
path = r"****.pdf"
#使用open的‘rb’方法打開pdf文件(這里必須得使用二進制rb的讀取方式)
mypdf = open(path,mode='rb')
#調用PdfFileReader函數
pdf_document = PyPDF2.PdfFileReader(mypdf)
#使用pdf_document變量,獲取各個信息
#或者PDF文檔的頁數
pdf_document.numPages  
#輸出PDF文檔的第一頁內容
first_page = pdf_document.getPage(0)
print(first_page.extractText()) 

            
          

輸出文檔第一頁內容之后會發現,PyPDF2方法對中文的支持不好,而對英文的支持會很好,所以如果處理中文文檔的話,可以使用下面這個方法。

2.pdfplumber解析PDF文檔

安裝的話直接使用下面語句即可:

            
              pip install pdfplumber

            
          

(1)解析文本內容
pdfplumber中的extract_text函數是可以直接識別PDF中的文本內容。
首先讀取整個PDF文檔文本內容

            
              import pdfplumber
import pandas as pd
with pdfplumber.open(path) as pdf: 
    content = ''
    #len(pdf.pages)為PDF文檔頁數
    for i in range(len(pdf.pages)):
    	#pdf.pages[i] 是讀取PDF文檔第i+1頁
        page = pdf.pages[i] 
        #page.extract_text()函數即讀取文本內容,下面這步是去掉文檔最下面的頁碼
        page_content = '\n'.join(page.extract_text().split('\n')[:-1])
        content = content + page_content
    print(content)

            
          

解析文本內容,取出PDF的 售后解決方案 中的故障代碼內容,可以看到故障代碼內容,如下圖所示,故障代碼在兩頁里面。
【Python】解析PDF文檔文本和表格內容的四大方法介紹_第1張圖片 根據這類文檔的規律可以知道,故障代碼內容都是在文本 故障代碼列舉如下: 2. 之間,因此解析PDF之后取出這部分內容還是比較容易的:

            
              print(content.split('故障代碼列舉如下:')[1].split('2.')[0])

            
          

運行結果如下,可以看出來很好的取出來這部分內容了。
【Python】解析PDF文檔文本和表格內容的四大方法介紹_第2張圖片
(2)解析表格內容
上面介紹了pdfplumber解析文本內容的方法,這里介紹一下解析表格內容的方法,和上面十分類似,pdfplumber中的extract_tables函數是可以直接識別PDF中的表格的。
這里展示解析PDF文檔中第一頁表格的方法,可以看出案例PDF中第一頁的開頭就是一個表格:
【Python】解析PDF文檔文本和表格內容的四大方法介紹_第3張圖片 由于使用extract_tables函數得到的是Table一個嵌套的List類型,轉化成DataFrame會更方便查看和分析。

            
              import pdfplumber
import pandas as pd

with pdfplumber.open(path) as pdf:      
    first_page = pdf.pages[0] 
    for table in first_page.extract_tables(): 
        df = pd.DataFrame(table) 
        #第一列當成表頭: df = pd.DataFrame(table[1:],columns=table[0]) 
df

            
          

可以看出這個函數非常容易的將PDF文檔中的表格提取出來了。
【Python】解析PDF文檔文本和表格內容的四大方法介紹_第4張圖片
看完上面的可以知道pdfplumber擴展包可以非常好的解析PDF的文本內容和表格內容,并且對中文有很好的支持,十分推薦使用該方法。

3.pdfminer3k解析PDF文檔

pdfminer3k 是 pdfminer 的 python3 版本,主要用于讀取 pdf 中的文本。如果直接搜索pdfminer3k的話會發現網上有非常多的教程,但是看了之后,你可能就想吐槽這些教程太繁瑣了,看著頭疼。
下面這個是pdfminer 解析PDF文檔的流向圖。
【Python】解析PDF文檔文本和表格內容的四大方法介紹_第5張圖片
pdfminer 方法解析PDF可以很好的提取文本內容,但是對于表格數據,能提取出文字,但是沒有格式,會很不友好。因此你如果只需要提取文本內容的話,可以使用pdfminer 擴展包,這個包也能很好的支持中文。

4.Camelot解析PDF文檔

安裝
Camelot先使用pip install camelot-py語句安裝,如果報錯,參考安裝Camelot教程。
另外,使用camelot需要安裝cv2包,上面這個安裝教程中也有。

            
              import camelot
import pandas as pd
tables = camelot.read_pdf(filepath=path,pages='1',flavor='stream')
df = pd.DataFrame(tables[0].data)

            
          

Camelot讀取PDF文件中的表格數據很好用,并且能夠很好的支持中文,但是Camelot有很多局限性。
首先,使用stream時,表格無法被自動偵測到,stream把整個頁面當成一個table。
其次,camelot只用使用基于文本的PDF文件而不能使用掃描文檔。

綜上所述,建議使用pdfplumber擴展包來解析PDF文檔的文本和表格,如果只解析文本內容,也可以使用pdfminer ,而解析英文文檔內容,可以使用PyPDF2。

參考文獻:
https://blog.csdn.net/Asher117/article/details/83627701


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 久久经典免费视频 | 99爱视频99爱在线观看免费 | 成人精品第一区二区三区 | 欧美另类第一页 | 国内精品久久久久久久星辰影视 | h视频在线观看网站 | 欧美日韩中文一区 | 欧美特黄a级高清免费大片 欧美特黄a级猛片a级 | 国产区视频在线观看 | 一区二区视频免费看 | 国产69精品久久久久999小说 | 亚洲国产成人在线观看 | 日韩精品成人 | 免费视频爱爱太爽在线观看 | 一区二区三区欧美日韩 | 日韩亚洲欧美性感视频影片免费看 | 精品久久不卡 | 黄视频网站免费看 | 51国产福利视频在线观看 | 波多野吉衣一区二区三区四区 | 黄色的网站在线观看 | 亚洲国产成人久久精品动漫 | 欧美一级精品 | 日本一级毛片高清免费观看视频 | 国产99视频精品免视看9 | 中文字幕日韩精品中文区 | 在线操 | 久久久久亚洲 | 日本老年人精品久久中文字幕 | 精品国产一区二区三区在线观看 | 亚洲伊人精品综合在合线 | 九九在线观看精品视频6 | 国产精品线在线精品 | 亚洲成精品动漫久久精久 | 美国黑人特大一级毛片 | 国产高清精品91在线 | 日本免费一区二区三区中文 | 日本高清不卡在线 | 五月天色婷婷在线 | 日日摸夜夜爽人人添 | 久久久久国产精品免费看 |