色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

基于Python快速處理PDF表格數據

瀏覽:87日期:2022-07-23 10:50:35

我們有下面一張PDF格式存儲的表格,現在需要使用Python將它提取出來。

基于Python快速處理PDF表格數據

使用Python提取表格數據需要使用pdfplumber模塊,打開CMD,安裝代碼如下:

pip install pdfplumber

安裝完之后,將需要使用的模塊導入

import pdfplumberimport pandas as pd

然后打開PDF文件

# 使用with語句打開pdf文件with pdfplumber.open('D:pythoncaiyq.pdf') as pdf: # pages[0]表示取第1頁 page = pdf.pages[0]

我們來打印輸出下獲取到的文本,這句語句只是幫我們驗證下是否成功獲取到PDF里的內容

print(page.extract_text())

執行的結果如下,看來是成功了

基于Python快速處理PDF表格數據

然后可以使用extract_table()函數獲取表格,如果有多個表格,可以使用extract_tables()函數,就是多了個s

d1=page.extract_table()

執行代碼后,將得到一個列表,還不是數據框

基于Python快速處理PDF表格數據

所以最后一步就是將列表轉為數據框就可以了,代碼如下:

df = pd.DataFrame(d1[1:], columns=d1[0])

執行代碼后,將得到了df數據框

基于Python快速處理PDF表格數據

有幾個注意事項要提醒下:

1.pdf表格中的數據,對于同一個數據或內容,不要有換行,如果換行,可能被識別為2個數據;

2.pdf中的表格一定要有邊框,沒有邊框的話,否則使用extract_table()函數就無法獲取表格數據,extract_text()還是可以獲取文本信息的,不要問我是怎么知道的,說多了都是淚。

我們現在有一份PDF數據,里面有三頁,每頁都有一樣數據結構但數據不同的數據表,現在需要使用Python將它批量提取出來。

基于Python快速處理PDF表格數據

基于Python快速處理PDF表格數據

基于Python快速處理PDF表格數據

有了上回經驗,我們就直接上代碼:

import pdfplumberimport pandas as pd # 創建一個空數據框df = pd.DataFrame() # 使用with語句打開pdf文件with pdfplumber.open('D:pythoncai5.pdf') as pdf: # 使用for循環遍歷每個pages for page in pdf.pages: # 取出當前頁表格,結果為列表 d=page.extract_table() # 將列表轉為數據框 df1 = pd.DataFrame(d[1:], columns=d[0]) #添加至df數據框中 df = df.append(df1)

執行代碼后,將得到了df數據框

基于Python快速處理PDF表格數據

是不是so easy 呢?

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 国产精品反差婊在线观看 | 欧美成人精品大片免费流量 | 亚洲精品无码不卡在线播放he | 美美女高清毛片视频免费观看 | 国内自拍亚洲 | 欧美 日韩 国产 成人 在线观看 | 女黄人东京手机福利视频 | 国产精品久久久久久搜索 | 国产网站黄 | 免费一级网站免费 | 91久久99久91天天拍拍 | 中国女人毛片 | 国产手机精品视频 | 成人在线网址 | 99精品国产综合久久久久 | 综合图片亚洲网友自拍10p | 久久精品国产国产 | 国产在线激情视频 | 免费国产成人高清在线看软件 | 最新三级网站 | 欧美日韩高清在线观看一区二区 | 成人国产在线看不卡 | 国产成人教育视频在线观看 | 一本久道久久综合婷婷 | 亚洲美女视频一区二区三区 | 天天看夜夜 | 欧美一区二区三区视频在线 | 免费观看久久 | 亚洲国产欧美另类 | 国产欧美另类久久久精品免费 | 亚洲欧美国产精品 | 国产在线精品观看一区 | 亚洲精品国产福利一区二区三区 | 武松大战潘金莲三级在线 | 男人又粗又硬桶女人免费 | 久久精品国内偷自一区 | 日本天堂免费 | 80岁色老头69av | 99久久综合国产精品免费 | 亚洲国产一 | 男女免费观看视频 |