色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

python實現PDF中表格轉化為Excel的方法

瀏覽:68日期:2022-07-21 08:53:57

這幾天想統計一下《中國人文社會科學期刊 AMI 綜合評價報告(2018 年):A 刊評價報告》中的期刊,但是只找到了該報告的PDF版,對于表格的編輯不太方便,于是想到用Python將表格轉成Excel格式。

python實現PDF中表格轉化為Excel的方法

看過別人寫的博客,發現Python解析PDF有以下四種方式:

-pdfminer:擅長文字的解析,把表格解析成普通的文本,沒有格式;-pdf2html:把pdf解析成html,但html的標簽并沒有規律,解析一個表格還可以,多個表格的話不太好提取;-tabula:對于簡單的表格,即單元格中沒有換行的,表頭表尾形式不復雜的,使用比較方便。但是單腦需要Java環境;-pdfplumber:是一個可以處理pdf格式信息的庫。可以查找關于每個文本字符、矩陣、和行的詳細信息,也可以對表格進行提取并進行可視化調試。

本文采用pdfplumber庫讀取PDF中的表格,運行環境:Python3.5.2,Anaconda4.2.0。首先簡單介紹一下pdfplumber庫:

-pdfplumber.pdf中包含了.metadata和.pages兩個屬性:.metadata是一個包含pdf信息的字典。.pages是一個包含頁面信息的列表。

-pdfplumber.page的類中包含的主要的屬性:

.page_number 頁碼。.width 頁面寬度。.height 頁面高度。.objects/.chars/.lines/.rects 這些屬性中每一個都是一個列表,每個列表都包含一個字典,每個字典用于說明頁面中的對象信息, 包括直線,字符, 方格等位置信息。

-一些常用的方法:

.extract_text() 用來提頁面中的文本,將頁面的所有字符對象整理為的那個字符串。.extract_words() 返回的是所有的單詞及其相關信息。.extract_tables() 提取頁面的表格。.to_image() 用于可視化調試時,返回PageImage類的一個實例。

import pdfplumberimport pandas as pdpath = ’test.pdf’pdf = pdfplumber.open(path)i=1#writer=pd.ExcelWriter(’output.xlsx’)df=pd.DataFrame(columns=[’序號’,’刊名’,’主辦單位’,’等級’])sheetname=[’考古文博’,’歷史學’,’馬克思主義理論’,’民族學與文化學’,’文學-外國文學’,’文學-中國文學’,’藝術學’,’語言學’,’哲學’,’宗教學’,’法學’ ,’管理學’,’環境科學’,’教育學’,’經濟學-財政科學’,’經濟學-工業經濟’,’經濟學-金融’,’經濟學-經濟管理’,’經濟學-經濟綜合’,’經濟學-貿易經濟’ ,’經濟學-農業經濟’,’經濟學-世界經濟’,’人文地理學’,’社會學’,’體育學’,’統計學’,’圖書館情報與檔案學’,’心理學’,’新聞學與傳播學’ ,’政治學-國際政治’,’政治學-中國政治’,’綜合-高校綜合性學報’,’綜合-綜合性人文社科期刊’] ##由于存在一個表格跨頁的情況,先將所有表格存放在一個DataFrame中,再根據序號拆分。for page in pdf.pages[17:59]: print (page) # 獲取當前頁面的全部文本信息,包括表格中的文字 # print(page.extract_text()) for table in page.extract_tables(): #print(table) df=df.append(pd.DataFrame(table[1:],columns=table[0]),ignore_index=True)print (df)writer=pd.ExcelWriter(’output3.xlsx’)new_df=pd.DataFrame()j=1index=[]#記錄序號==1的行索引,用于后面的表格拆分for i in range(len(df)): if df.ix[i,0]==’1’: index.append(i) print ('################')index.append(len(df))#print (index)#按行索引將內容切片并逐個添加到表中for t in range(len(index)-1): new_df=df.ix[index[t]:index[t+1]-1,:] #print (new_df) new_df.to_excel(writer,sheet_name=sheetname[t],encoding=’gb2312’,index=None)writer.save()pdf.close()print(’finished’)

最終保存為Excel。

python實現PDF中表格轉化為Excel的方法

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: python
相關文章:
主站蜘蛛池模板: tube69xxx最新片 | 国产精品三级一区二区 | 亚洲欧洲eeea在线观看 | 国产精选91热在线观看 | 久久精品国产亚洲高清 | 久久精品综合国产二区 | 国产a级精品特黄毛片 | a一区二区三区视频 | 日本欧美国产精品 | 成年人三级网站 | 国产日韩欧美一区二区 | 亚洲日本中文字幕在线 | 日本aa级片 | 波多野结衣一区二区三区88 | 亚洲福利影院 | 怡红院成人在线 | 欧美les视频xxxx在线观看 | 日本特黄特色免费大片 | 日韩三级在线观看视频 | 暖暖在线精品日本中文 | 久久er热这里只有精品免费 | 一区二区三区免费精品视频 | 亚洲一区二区三区久久精品 | 久久久久国产成人精品 | 加勒比综合网 | 中文字幕日韩欧美一区二区三区 | 欧美一级高清片欧美国产欧美 | 久久一区二区三区99 | 99久久久久国产 | 日本加勒比在线播放 | 日本免费一区二区三区a区 日本免费一区二区三区看片 | 欧美aaa毛片免费看 欧美aaa视频 | 美女动作一级毛片 | 日韩毛片一级 | 日本欧美不卡一区二区三区在线 | 国产免费一级在线观看 | 亚洲欧美日韩精品久久久 | 久久午夜精品视频 | 亚洲精品一区二区不卡 | 国产成人www免费人成看片 | 欧美亚洲一区二区三区在线 |