Java中使用HashMap改進(jìn)查找性能的步驟
Java中,HashMap,其實(shí)就是鍵值對(duì)。一個(gè)Key,對(duì)應(yīng)一個(gè)值;寫數(shù)據(jù)時(shí),指定Key寫對(duì)應(yīng)值;讀取時(shí)憑Key找到相應(yīng)值。感覺(jué)就跟Redis差不多。
// 創(chuàng)建 HashMap 對(duì)象 SitesHashMap<Integer, String> Sites = new HashMap<Integer, String>();// 添加鍵值對(duì)Sites.put(1, 'Google');Sites.put(2, 'Runoob');Sites.put(3, 'Taobao');Sites.put(4, 'Zhihu');//讀取String val = Sites.get(1);//得到Google
為什么說(shuō)可以用HashMap來(lái)改進(jìn)性能呢?原因不是說(shuō)HashMap這種數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)性能就比其他的,比如數(shù)組,集合先進(jìn)多少。我主要看中的,是在知道Key的情況下,找到相應(yīng)值得速度非常快。如果是用數(shù)組,最簡(jiǎn)單的,用循環(huán);講究一點(diǎn),排好序,用折半查找(二分查找)。都比不上用Key在HashMap里直接讀取。不知道為什么HashMap在查找方面為啥這么快,估計(jì)是存儲(chǔ)結(jié)構(gòu),使用了啥樹(shù),并為Key建立了索引。這是另外一個(gè)課題,以后再了解。昨天,我只是利用了這個(gè)特性,將運(yùn)行幾個(gè)小時(shí)都沒(méi)結(jié)束的問(wèn)題,只耗費(fèi)了十幾秒。
問(wèn)題如下:有25萬(wàn)條記錄,每條記錄含經(jīng)緯度;存在不同記錄坐標(biāo)相同情況。現(xiàn)在想將坐標(biāo)相同的記錄歸并在一起。
如果數(shù)據(jù)是保存在數(shù)據(jù)庫(kù)里,那么用SQL進(jìn)行坐標(biāo)分組,應(yīng)該能解決問(wèn)題。然而并沒(méi)有數(shù)據(jù)庫(kù),數(shù)據(jù)是從gdb文件里讀出來(lái)的。
好吧,將數(shù)據(jù)保存到數(shù)組里,再新建一個(gè)集合;然后循環(huán)數(shù)組,與新集合中的記錄逐個(gè)比較,坐標(biāo)相同就歸并到新集合,不同就插入新集合。最簡(jiǎn)單了。結(jié)果2個(gè)小時(shí)過(guò)去了,還沒(méi)有結(jié)束的跡象。
想想也對(duì),新集合越來(lái)越大,比較的次數(shù)也越來(lái)越多,仿佛棋盤里的大米一樣,每格的大米數(shù)量是前一格的兩倍;最后即使是整個(gè)國(guó)家糧庫(kù)的大米都放進(jìn)去,都填不滿整個(gè)棋盤。
將25萬(wàn)條記錄先排好序再處理?單是排序就忙死了,不行吧。
將25萬(wàn)條記錄先保存到數(shù)據(jù)庫(kù)里,再分組?應(yīng)該也可以,但總覺(jué)得笨了一些,而且速度應(yīng)該也是以分鐘算的。
最后決定用HashMap來(lái)做這個(gè)新集合。如上所述,HashMap按照Key來(lái)寫入或讀取值。關(guān)鍵是這個(gè)Key怎么得來(lái)。上面的例子,是寫代碼的人自己給出了一些字符作為Key。而在我們項(xiàng)目中,可以用經(jīng)緯度之和的哈希值來(lái)作為Key。哈希值相同的,就認(rèn)為是經(jīng)緯度相同,只需要判斷新集合中,是否存在這個(gè)Key對(duì)應(yīng)的元素就可以了,根本無(wú)須循環(huán)比較。
由于存在兩個(gè)不同的經(jīng)緯度加起來(lái),結(jié)果是一樣的可能性,因此先將經(jīng)度 乘以1000,再加緯度,這樣基本杜絕沖突的機(jī)會(huì)。
代碼如下:
private HashMap<Long,SimpleItem> recGeo(HashMap<Long, SimpleItem> map,String geo,int j){ /* 將相同坐標(biāo)的記錄合成一條 HashMap<Long, SimpleItem> map, 新集合 String geo, 坐標(biāo)字符串 int j 記錄ID */ try { Point p = (Point)reader.read(geo); /* 計(jì)算哈希值 因?yàn)槿绻捎醚h(huán)來(lái)比較,數(shù)據(jù)量太大,速度太慢了 為避免不同坐標(biāo)出現(xiàn)經(jīng)度+緯度結(jié)果相同的情況,將經(jīng)度 * 1000再相加 */ //計(jì)算Key long k = Long.valueOf(Double.doubleToLongBits(p.getX() * 1000 + p.getY())).hashCode();SimpleItem si = map.get(k); if(si != null){//新集合中該Key對(duì)應(yīng)元素已存在,應(yīng)該是相同坐標(biāo)的記錄 si.getPointers().add(j);//歸并 } else {//否則插入 si = new SimpleItem(); si.setGeo(geo); List<Integer> pointers = new ArrayList(); pointers.add(j); si.setPointers(pointers); map.put(k,si); } } catch (ParseException e) { e.printStackTrace(); } return map;}private static GeometryFactory geometryFactory = JTSFactoryFinder.getGeometryFactory( null );private static WKTReader reader = new WKTReader( geometryFactory );class SimpleItem{ private Point geo; private List<Integer> pointers; public Point getGeo() { return geo; } public void setGeo(String geo) { try { this.geo = (Point)reader.read(geo); } catch (ParseException e) { e.printStackTrace(); } } public List<Integer> getPointers() { return pointers; } public void setPointers(List<Integer> pointers) { this.pointers = pointers; }}
短短幾秒,新集合即得到5萬(wàn)個(gè)元素。
以上就是Java中使用HashMap改進(jìn)查找性能的步驟的詳細(xì)內(nèi)容,更多關(guān)于Java HashMap改進(jìn)查找性能的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章!
相關(guān)文章:
1. Python2.6版本pip安裝步驟解析2. python公司內(nèi)項(xiàng)目對(duì)接釘釘審批流程的實(shí)現(xiàn)3. python中Ansible模塊的Playbook的具體使用4. Python自動(dòng)化之定位方法大殺器xpath5. Python本地及虛擬解釋器配置過(guò)程解析6. Python 利用flask搭建一個(gè)共享服務(wù)器的步驟7. 基于python實(shí)現(xiàn)matlab filter函數(shù)過(guò)程詳解8. Python中Anaconda3 安裝gdal庫(kù)的方法9. python用zip壓縮與解壓縮10. Python importlib模塊重載使用方法詳解
