色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

python 爬蟲 解析效率如何提升?

瀏覽:122日期:2022-06-29 17:26:48

問題描述

現在采用的是在windows 環境下 采用多線程的方式進行爬取,使用beautifulsoup+lxml進行解析.

N個爬取線程->解析隊列->1個解析線程->存儲隊列->1個存儲線程

整個執行程序的效率卡在計算密集的解析線程中,如果只是增加解析線程數量的話,反而增加線程切換開銷速度變慢。

請問下 有什么辦法可以較為明顯的提升解析效率?

根據兩位大腿的說明 準備采用異步爬取->解析隊列->N個解析進程->存儲隊列->存儲線程

準備開工

問題解答

回答1:

其實我覺得, 你在前面N個爬取線程 可以換成協程/線程池實現, 因為你在頻繁創建線程本省一種性能耗費, 用線程池雖然可以減少這部分的損耗, 但是上下文切換還是無法避免, 所以協程這方面, 應該是比較合適的.1個解析線程 換成 進程池,多開幾個進程去計算密集處理, 其余應該可以不用改, 如果還想再搞, 將核心部分用c/c++ 重寫咯, 希望可以幫到你

回答2:

我的做法是多進程。多進程的好處是當單機性能不夠的時候,可以隨時切換為分布式爬蟲。

回答3:

可以網上找下tornade異步爬蟲吧,我正在用這個

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 免费一级欧美性大片 | dvd8090cnm欧美大片 | 成人做爰全过程免费看网站 | 91成人软件 | 亚洲欧美日韩在线一区 | 国产一二三区精品 | 国产精品免费一级在线观看 | 欧美大片一区二区三区 | 99精品国产免费久久国语 | 日韩在线中文字幕 | 欧美一级毛片免费高清的 | 黄色日韩网站 | 免费视频18 | 男人天堂国产 | 免费黄色三级网站 | 精品国产系列 | 美女张开双腿让男人桶视频免费 | 三级三级三级网站网址 | 国产精品久久久久a影院 | 久久国产精品高清一区二区三区 | 久久观看午夜精品 | 欧洲成人全免费视频网站 | 国产精品大片天天看片 | 中国美女隐私无遮挡免费视频 | 久久99亚洲精品久久久久99 | 国产亚洲网站 | 视频一区视频二区在线观看 | 黄色美女网站视频 | 日韩精品中文字幕在线观看 | 日本一级看片免费播放 | 亚洲国产欧美日韩第一香蕉 | 一级毛片一级毛片一级毛片 | 亚洲黄视频在线观看 | 精品亚洲成a人在线播放 | 成人午夜免费观看 | 日本欧美做爰全免费的视频 | 中文字幕一区二区三区有限公司 | 国产色啪午夜免费视频 | 国产欧美17694免费观看视频 | 色偷偷在线刺激免费视频 | 国产在线精品一区免费香蕉 |