解決python執行較大excel文件openpyxl慢問題
我就廢話不多說了,大家還是直接看代碼吧!
talk is cheap
from openpyxl import Workbook from openpyxl.utils import get_column_letter from openpyxl import load_workbook import time wb = load_workbook('E:/a.xlsx', read_only=True) sh = wb['Sheet'] # rowItem = {} # for j in range(1,2000): # for i in range(1, 30): # rowItem[get_column_letter(i)] = i # sh.append(rowItem) # wb.save('E:/a.xlsx') t0 = time.time() print(sh[’V500’].value) t1 = time.time() print('openpyxl所用時間:', str(t1-t0)) import xlrd xlsPath = 'E:/a.xlsx' WorkBook = xlrd.open_workbook(xlsPath) sh = WorkBook.sheet_by_name('Sheet') t0 = time.time() print(sh.cell(499,22).value) t1 = time.time() print('xlrd所用時間:', str(t1-t0))
測試結果:
22openpyxl所用時間: 0.4421761035919189523.0xlrd所用時間: 0.0010063648223876953
結論
openpyxl的慢是讀取慢,可以選擇xlrd代替,詳細測試下面繼續
不直接使用xlwt+xlrd是因為xlwt僅支持2003及以下版本,最大行數限制在65536,不夠用,而openpyxl大概在一百多萬
主要的說完了,下面詳細說了:在寫工具的時候遇到的這個問題,開始是用的xlwt+xlrd,然后行數超標了,沒辦法換成openpyxl使用excel2007的版本,原本測試不到三萬行的數據,只要三四秒,換成openpyxl以后,花了好幾分鐘,具體沒看多少了,然后加上函數運行時間的監視器以后,才看到是讀取的時候出的問題
推測原因:
推測的話,openpyxl的根據行號列號讀取的時候,是從第一行第一列開始遍歷,直到行號等于指定行號,列號等于指定列號,所以要讀取的行號列號越多就越慢,(也可能是從第一個有數據的行或列),而xlrd則是類似與數組一樣,我們要取第幾個元素,直接根據下標找到內存中對應地址的元素即可,所以無論excel總量多少,速度基本都是不變的
留下的坑
xlwt寫入僅支持65536行,那xlrd的讀取很可能也是,也就是超過這么多的數據可能也會出錯
我這里因為是讀多表數據生成單表數據,生成方式大概是Na*Nb這樣,所以實際讀取的不會太多,但生成的很多,所以基本可以用考慮這個問題
另外,據說xlrd讀取xlsx格式的偶爾會出現問題,具體沒測試,暫時用還沒毛病
最后,順帶上一下監控函數運行時間的裝飾器吧:
import timefrom functools import wrapsdef fn_timer(function): @wraps(function) def function_timer(*args, **kwargs): t0 = time.time() result = function(*args, **kwargs) t1 = time.time() print ('Total time running %s: %s seconds' % (function.__name__, str(t1-t0)) ) return result return function_timer
使用方式的話,就是在要監控的函數定義上面加上 @fn_timer 就行了
以上這篇解決python執行較大excel文件openpyxl慢問題就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。
相關文章:
1. docker compose idea CreateProcess error=2 系統找不到指定的文件的問題2. 將properties文件的配置設置為整個Web應用的全局變量實現方法3. 一文秒懂idea的git插件跟翻譯插件4. python爬蟲利用代理池更換IP的方法步驟5. layui Ajax請求給下拉框賦值的實例6. Java反射技術原理與用法實例分析7. python中pandas.read_csv()函數的深入講解8. PHP設計模式之迭代器模式Iterator實例分析【對象行為型】9. JS中的常見數組遍歷案例詳解(forEach, map, filter, sort, reduce, every)10. Python語言規范之Pylint的詳細用法
