色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取?

瀏覽:117日期:2022-09-03 13:50:21

問題描述

用Python27些爬蟲,想要爬取一些網站,我需要判斷網頁是否可以爬取,第一反應是通過狀態碼來判斷,但是寫完運行后發現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面,可他的狀態碼卻是200,結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題,但是現在也不能用狀態碼來判斷了,請問還有什么方法可以正確判斷一個頁面是不是404該不該爬?

問題解答

回答1:

首先, 200 狀態碼,是網絡連接狀態, 所以你只判斷200并不能滿足所有網站。

其次, 寫爬蟲嘛, 你應該實際去看看這些網站的規則是什么,可以先人工判斷下, 找找規律, 比如看看網頁返回內容是不是有什么特點之類的。

回答2:

做個網頁內容的判斷,如果他網頁里面沒有內容就直接返回。

回答3:

就算是頁面狀態碼200,返回的404頁面,應該和正常能爬取的頁面html有不同的html元素吧,根據有沒有特定的html元素來判斷是不是404頁面也行的

標簽: Python 編程
相關文章:
主站蜘蛛池模板: α级毛片 | 午夜视频在线观看一区二区 | 岛国精品成人 | 欧美在线观看成人高清视频 | 久久爽久久爽久久免费观看 | 露脸国产野战最新在线视频 | 宅男69免费永久网站 | 波少野结衣在线播放 | 97在线视频免费公开观看 | 亚洲视频中文字幕 | 日本人的色道www免费一区 | 国产精品青草久久久久福利99 | 免费高清特级毛片 | 久久精品成人一区二区三区 | 国产成人高清精品免费软件 | 在线观看免费视频网站色 | 亚洲精品国产专区91在线 | 国产成人夜间影院在线观看 | 欧美成人精品一区二区 | 一级毛片欧美大片 | 99精品国产综合久久久久 | 久草综合在线观看 | 成年人视频免费网站 | 亚洲国产精品成人午夜在线观看 | 成年美女黄网站色大 | 国产精品久久久久久麻豆一区 | 亚洲精品亚洲人成人网 | 国产成人精品一区二区不卡 | 国产一区二区三区四区五区tv | 久久婷婷影院 | 特黄特级a级黄毛片免费观看多人 | 日本一级大毛片a一 | 黄色视屏免费 | 欧美性色生活片天天看99 | 午夜精品尤物福利视频在线 | 日韩经典欧美精品一区 | 成人性版蝴蝶影院污 | 亚洲观看视频 | 成人午夜亚洲影视在线观看 | 在线观看视频中文字幕 | 成人网18免费下 |