文章詳情頁

Python使用xpath實現圖片爬取

瀏覽：3日期：2022-07-11 09:53:11

高性能異步爬蟲

目的：在爬蟲中使用異步實現高性能的數據爬取操作

異步爬蟲的方式：

- 多線程、多進程（不建議）：

好處：可以為相關阻塞的操作單獨開啟多線程或進程，阻塞操作就可以異步執行;

弊端：無法無限制的開啟多線程或多進程。

- 線程池、進程池（適當的使用）：

好處：我們可以降低系統對進程或線程創建和銷毀的一個頻率，從而很好的降低系統的開銷；

弊端：池中線程或進程的數據是有上限的。

代碼如下

# _*_ coding:utf-8 _*_'''@FileName :6.4k圖片解析爬取（異步高性能測試）.py@CreateTime :2020/8/14 0014 10:01@Author : Lurker Zhang@E-mail : [email protected]@Desc. :'''import requestsfrom lxml import etreefrom setting.config import *import jsonimport osimport timefrom multiprocessing.dummy import Pooldef main(): # 圖片采集源地址 # source_url = ’http://pic.netbian.com/4kmeinv/’ # temp_url = ’http://pic.netbian.com/4kmeinv/index_{}.html’ # source_url = ’http://pic.netbian.com/4kdongman/’ # temp_url = ’http://pic.netbian.com/4kdongman/index_{}.html’ source_url = ’http://pic.netbian.com/4kmingxing/’ temp_url = ’http://pic.netbian.com/4kmingxing/index_{}.html’ # 本此采集前多少頁,大于1的整數 page_sum = 136 all_pic_list_url = [] if page_sum == 1: pic_list_url = source_url print(’開始下載:’ + pic_list_url) all_pic_list_url.append(pic_list_url) else: # 先采集第一頁 pic_list_url = source_url # 調用采集單頁圖片鏈接的函數 all_pic_list_url.append(pic_list_url) # 再采集第二頁開始后面的頁數 for page_num in range(2, page_sum + 1): pic_list_url = temp_url.format(page_num) all_pic_list_url.append(pic_list_url) # 單頁圖片多線程解析 pool1 = Pool(10) pool1.map(down_pic, all_pic_list_url) print(’采集完成，本地成功下載{0}張圖片,失敗{1}張圖片。’.format(total_success, total_fail)) # 存儲已下載文件名列表： with open('../depository/mingxing/pic_name_list.json', ’w’, encoding=’utf-8’) as fp: json.dump(pic_name_list, fp)def down_pic(pic_list_url): print('準備解析圖片列表頁：',pic_list_url) # 獲取圖片列表頁的網頁數據 pic_list_page_text = requests.get(url=pic_list_url, headers=headers).text tree_1 = etree.HTML(pic_list_page_text) # 獲取圖片地址列表 pic_show_url_list = tree_1.xpath(’//div[@class='slist']/ul//a/@href’) pic_url_list = [get_pic_url(’http://pic.netbian.com’ + pic_show_url) for pic_show_url in pic_show_url_list] # 開始下載并保存圖片(多線程) pool2 = Pool(5) pool2.map(save_pic, pic_url_list)def save_pic(pic_url): print('準備下載圖片：',pic_url) global total_success, total_fail, pic_name_list,path picname = get_pic_name(pic_url) if not picname in pic_name_list: # 獲取日期作為保存位置文件夾 pic = requests.get(url=pic_url, headers=headers).content try: with open(path + picname, ’wb’) as fp:fp.write(pic) except IOError: print(picname + '保存失敗') total_fail += 1 else: pic_name_list.append(picname) total_success += 1 print('成功保存圖片:{0},共成功采集{1}張。'.format(picname, total_success)) else: print('跳過，已下載過圖片：' + picname) total_fail += 1def get_pic_name(pic_url): return pic_url.split(’/’)[-1]def get_pic_url(pic_show_url): tree = etree.HTML(requests.get(url=pic_show_url, headers=headers).text) return ’http://pic.netbian.com/’ + tree.xpath(’//div[@class='photo-pic']/a/img/@src’)[0]if __name__ == ’__main__’: # 讀入已采集圖片的名稱庫，名稱存在重復的表示已經采集過將跳過不采集 if not os.path.exists(’../depository/mingxing/pic_name_list.json’): with open('../depository/mingxing/pic_name_list.json', ’w’, encoding='utf-8') as fp: json.dump([], fp) with open('../depository/mingxing/pic_name_list.json', 'r', encoding='utf-8') as fp: pic_name_list = json.load(fp) path = ’../depository/mingxing/’ + time.strftime(’%Y%m%d’, time.localtime()) + ’/’ if not os.path.exists(path): os.mkdir(path) # 記錄本次采集圖片的數量 total_success = 0 total_fail = 0 main()

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：通過代碼實例了解Python異常本質下一條：Python自動創建Excel并獲取內容

相關文章：

1. 關于WPF WriteableBitmap類直接操作像素點的問題2. JavaScript前端中的偽類元素before和after使用詳解3. ASP基礎入門第一篇(ASP技術簡介)4. asp取整數mod 有小數的就自動加15. 源碼分析MinimalApi是如何在Swagger中展示6. PHP laravel實現基本路由配置詳解7. ThinkPHP5實現JWT Token認證的過程(親測可用)8. 熊海CMS代碼審計漏洞分析9. PHP JSAPI調支付API實現微信支付功能詳解10. 表單中Readonly和Disabled的區別詳解

排行榜

					
					js觀察者模式的介紹及使用
js函數和this用法實例分析
PHP常用字符串函數用法實例總結
python用dataframe將csv中的0值數據轉化為nan缺失值字樣
js實現星星閃特效
PHP使用Http Post請求發送Json對象數據代碼解析
PHP新版本10月出爐，跳過6直上PHP7？
JS使用for in有序獲取對象數據
JS實現網站樓層導航效果代碼實例
詳解Python 中的 defaultdict 數據類型
使用python matplotlib 畫圖導入到word中如何保證分辨率