色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術(shù)文章
文章詳情頁

如何使用Python進(jìn)行PDF圖片識(shí)別OCR

瀏覽:2日期:2022-06-29 11:54:07
使用場景

使用圖片識(shí)別可以快速提取圖片中的信息,方便高效。

Python并不能直接對PDF進(jìn)行識(shí)別,所以如果是識(shí)別PDF的話,需要先將PDF轉(zhuǎn)化為圖片,然后再進(jìn)行識(shí)別。

必備工具 Python

可以安裝3.7及以上版本

tesseract-ocr

下載地址: https://github.com/UB-Mannheim/tesseract/wiki 使用最新版本即可

需要用到的庫

pip install pillowpip install opencv-pythonpip install fitzpip install PyMuPDFpip install pytesseract代碼示例

from PIL import Imageimport osimport pytesseract import cv2 as cvimport fitzdef pdf_image(pdfPath,imgPath,zoom_x,zoom_y,rotation_angle): # 打開PDF文件 pdf = fitz.open(pdfPath) # 逐頁讀取PDF for pg in range(0, pdf.pageCount): page = pdf[pg] # 設(shè)置縮放和旋轉(zhuǎn)系數(shù) trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotation_angle) pm = page.getPixmap(matrix=trans, alpha=False) # 開始寫圖像 pm.writePNG(imgPath+str(pg)+'.png') #pm.writePNG(imgPath) pdf.close()pdf_path =’D:/123.pdf’img_path =’D:/123.png’pdf_image(pdf_path,img_path,5,5,0)# 依賴opencvimg=cv.imread(img_path)text=pytesseract.image_to_string(Image.fromarray(img),lang=’chi_tra’)# 不依賴opencv寫法# text=pytesseract.image_to_string(Image.open(img_path))print(text)總結(jié)

識(shí)別清晰的文字圖片的時(shí)候準(zhǔn)確率非常高

但是識(shí)別手寫體的話效果不太好

注意事項(xiàng)

在安裝tesseract-ocr 的時(shí)候一定要記得選擇對應(yīng)的語言,不然是無法正常使用的。

以上就是如何使用Python進(jìn)行PDF圖片識(shí)別OCR的詳細(xì)內(nèi)容,更多關(guān)于python pdf圖片識(shí)別ocr的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 久久夜色邦福利网 | 免费黄网在线观看 | 中国一级特黄视频 | 黄色a站 | 久久精品全国免费观看国产 | 国产福利片在线 易阳 | 91寡妇天天综合久久影院 | 在线播放一区二区精品产 | 欧美成人在线免费观看 | 一级国产在线观看高清 | 男人天堂网址 | 亚洲一区二区三区不卡视频 | 久久高清精品 | 久久一本色系列综合色 | 成人国产精品毛片 | 九九精品视频在线观看九九 | 亚洲高清中文字幕一区二区三区 | 99精品久久精品一区二区 | 国产日韩精品一区在线不卡 | 亚洲一区二区三区不卡在线播放 | 成人精品区 | 中文字幕在线播放视频 | 亚洲男人的天堂网 | 亚洲视频 中文字幕 | 在线观看免费视频网站色 | 亚洲精品视频免费 | 久久国产精品免费看 | 91一区二区视频 | 久久99国产亚洲高清观看韩国 | 日本乱子伦xxxx | 波多野结衣福利视频 | 久艹精品 | 嫩草影院在线观看网站成人 | 免费一级做a爰片性色毛片 免费一极毛片 | 曰韩一级 | 欧美国产成人一区二区三区 | 国产自线一二三四2021 | 三级毛片子 | 欧美在线观看高清一二三区 | 97在线观看视频免费 | 欧美一级特黄aa大片在线观看免费 |