色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

Python實現快速大文件比較代碼解析

瀏覽:5日期:2022-07-12 10:37:15

問題

假如,在有兩個大文件分別存儲了大量的數據,數據其實很簡單就是一堆字符串,每行存儲一條,如何快速篩選出兩個文件的異同之處么,或者如何篩選出兩個文件中不同的元素呢?

剛開始我是通過最簡單的方法,利用for循環去一個個的判斷,時間復雜度為m的n次冪,當然當文件數量級為十萬或者百萬時,速率簡直慢到了極點。

解決方法

利用set()的different(方法)可快速比較,兩個set集合的不同之處,也就是對集合進行數學運算

假設:數據1擁有858882條記錄,數據2有360029條記錄,快速挑選出數據2中而不存在與數據1中的數據

方法:先將兩個文件中的數據讀入兩個list:data1和data2,然后通過:set(data2).difference(set(data1)),獲取data2與data1的差集

下面為一個小的demo,可以看到近百萬級的數據,比較出差集也就需要1秒左右,效率不是一般的高

import timet1 = time.time()data1 = []for i in open('inDB.txt','r',encoding='utf-8'): i = i.strip('n') i = i.lower() data1.append(i)data2 = []for i in open('data/18年.filename','r',encoding='utf-8'): i = i.strip('n') i = i.lower() data2.append(i)newdata = set(data2).difference(set(data1))t2 = time.time()print(f'data1 length:t{len(data1)}')print(f'data2 length:t{len(data2)}')print(f'newdata length:t{len(newdata)}')print(f'time use:t{round(t2 - t1,3)}s')

Python實現快速大文件比較代碼解析

list最多可以存放多少條數據呢?

python中list最多可以存放多少條數據呢?

對于這個問題,有個網友調研了python的文檔,結果跟計算機的性能相關

64位機器:2^63-1=922337203685477580732位機器:2^31-1=2147483647import sysprint(sys.maxsize)print(pow(2,63)-1)92233720368547758079223372036854775807

集合set的操作

內置函數 作用 add() 為集合添加元素 clear() 移除集合中的所有元素 copy() 拷貝一個集合 difference() 返回多個集合的差集 difference_update() 移除集合中的元素,該元素在指定的集合也存在。 discard() 刪除集合中指定的元素 intersection() 返回集合的交集 intersection_update() 返回集合的交集。 isdisjoint() 判斷兩個集合是否包含相同的元素,如果沒有返回 True,否則返回 False。 issubset() 判斷指定集合是否為該方法參數集合的子集。 issuperset() 判斷該方法的參數集合是否為指定集合的子集 pop() 隨機移除元素 remove() 移除指定元素 symmetric_difference() 返回兩個集合中不重復的元素集合。 symmetric_difference_update() 移除當前集合中在另外一個指定集合相同的元素,并將另外一個指定集合中不同的元素插入到當前集合中。 union() 返回兩個集合的并集 update() 給集合添加元素

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 中文精品爱久久久国产 | 日本特爽特黄特刺激大片 | 亚洲天堂最新网址 | 9久久免费国产精品特黄 | 久久综合一本 | 4438全国最大成人网视频 | 玖草在线播放 | 久草视频在线看 | 久久久久琪琪精品色 | 性a爱片免费视频性 | 亚洲高清一区二区三区久久 | 国产精品亚洲精品一区二区三区 | 精品视频一区二区三区四区 | 精品国产免费一区二区三区 | 欧美一级欧美三级在线观看 | 成人合集大片bd高清在线观看 | 国产精品一区亚洲一区天堂 | 成人在线免费观看网站 | 日本在线观看不卡 | shkd在线观看| 欧美大片一区 | a级毛片网站 | 久草在线观看资源 | 九九热爱视频精品视频高清 | 成年人精品视频 | 国产自制一区 | 一区二区三区久久精品 | 新版天堂资源中文8在线 | 最新国产一区二区精品久久 | 亚洲一区二区三区四区 | 亚洲国产91 | 黄a一级| 亚洲天堂久久精品成人 | 99在线热视频只有精品免费 | 在线免费精品视频 | 亚洲韩国日本欧美一区二区三区 | 亚洲国产精品91 | 精品国产成人a在线观看 | 老司机久久影院 | 日韩精品亚洲专区在线观看 | 久久成人精品 |