色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬???

瀏覽:98日期:2022-09-03 13:50:21

問題描述

用Python27些爬蟲,想要爬取一些網站,我需要判斷網頁是否可以爬取,第一反應是通過狀態碼來判斷,但是寫完運行后發現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面,可他的狀態碼卻是200,結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題,但是現在也不能用狀態碼來判斷了,請問還有什么方法可以正確判斷一個頁面是不是404該不該爬?

問題解答

回答1:

首先, 200 狀態碼,是網絡連接狀態, 所以你只判斷200并不能滿足所有網站。

其次, 寫爬蟲嘛, 你應該實際去看看這些網站的規則是什么,可以先人工判斷下, 找找規律, 比如看看網頁返回內容是不是有什么特點之類的。

回答2:

做個網頁內容的判斷,如果他網頁里面沒有內容就直接返回。

回答3:

就算是頁面狀態碼200,返回的404頁面,應該和正常能爬取的頁面html有不同的html元素吧,根據有沒有特定的html元素來判斷是不是404頁面也行的

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 免看一级a毛片一片成人不卡 | 日韩欧美在线视频 | 伊人狼人影院 | 中文字幕国产专区 | 久久精品爱国产免费久久 | 三级黄毛片 | 免费萌白酱国产一区二区三区 | 精品久久久视频 | 国产一级做a爱片久久毛片a | 波多野结衣在线观看免费区 | 九九精品免费观看在线 | 91综合精品网站久久 | 亚洲国产成人在线观看 | 免费的一级片网站 | 4438全国最大成人网视频 | 精品国产91久久久久久久 | 亚洲欧美日韩国产精品久久 | 国产成人综合95精品视频免费 | 久久精品国产精品亚洲毛片 | 亚洲网址在线观看 | 国内自拍2020 | 波多野结衣在线观看一区 | 欧美成人在线网站 | 午夜欧美成人 | 国产精品视频男人的天堂 | 日本亚洲免费 | 欧美在线一级va免费观看 | 亚洲一在线 | 亚洲国产精品区 | 免费在线一级毛片 | 成年午夜一级毛片视频 | 国产成人精品久久一区二区三区 | 国产美女视频网站 | 在线观看亚洲免费视频 | 毛片韩国| 国产成人精品久久亚洲高清不卡 | 久久在线观看免费视频 | 成人毛片在线播放 | 99精品久久99久久久久久 | 久久久一区二区三区不卡 | 久cao在线观看视频 久爱免费观看在线网站 |