色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術(shù)文章
文章詳情頁

Python爬蟲教程知識點總結(jié)

瀏覽:3日期:2022-07-08 08:00:47
一、為什么使用Python進(jìn)行網(wǎng)絡(luò)爬蟲?

由于Python語言十分簡潔,使用起來又非常簡單、易學(xué),通過Python 進(jìn)行編寫就像使用英語進(jìn)行寫作一樣。另外Python 在使用中十分方便,并不需要IDE,而僅僅通過sublime text 就能夠?qū)Υ蟛糠值闹行?yīng)用進(jìn)行開發(fā);除此之外Python 爬蟲的框架功能十分強(qiáng)大,它的框架能夠?qū)W(wǎng)絡(luò)數(shù)據(jù)進(jìn)行爬取,還能對結(jié)構(gòu)性的數(shù)據(jù)進(jìn)行提取,經(jīng)常用在數(shù)據(jù)的挖掘、歷史數(shù)據(jù)的存儲和信息的處理等程序內(nèi);Python網(wǎng)絡(luò)的支持庫和html的解析器功能十分強(qiáng)大,借助網(wǎng)絡(luò)的支持庫通過較少代碼的編寫,就能夠進(jìn)行網(wǎng)頁的下載,且通過網(wǎng)頁的解析庫就能夠?qū)W(wǎng)頁內(nèi)各標(biāo)簽進(jìn)行解析,和正則的表達(dá)式進(jìn)行結(jié)合,

十分便于進(jìn)行網(wǎng)頁內(nèi)容的抓取。所以Python在網(wǎng)絡(luò)爬蟲網(wǎng)面有很大的優(yōu)勢。

二、判斷網(wǎng)站數(shù)據(jù)是否支持爬取

幾乎每個網(wǎng)站都有一個名為 robots.txt 的文檔,當(dāng)然也有部分網(wǎng)站沒有設(shè)定robots.txt。如果網(wǎng)站沒有設(shè)定 robots.txt 就可以通過網(wǎng)絡(luò)爬蟲獲取沒有口令加密的數(shù)據(jù),也就是這個網(wǎng)站所有頁面數(shù)據(jù)都可以爬取。當(dāng)然如果網(wǎng)站有 robots.txt 文檔,就要判斷是否有禁止訪客獲取的數(shù)據(jù)。

以淘寶網(wǎng)為例,在瀏覽器中訪問 https://www.taobao.com/robots.txt,如圖所示。

Python爬蟲教程知識點總結(jié)

上圖淘寶網(wǎng)的robots.txt文件內(nèi)容

淘寶網(wǎng)允許部分爬蟲訪問它的部分路徑,而對于沒有得到允許的用戶,則全部禁止爬取,代碼如下:

User-Agent:*Disallow:/12

這一句代碼的意思是除前面指定的爬蟲外,不允許其他爬蟲爬取任何數(shù)據(jù)。

三、requests 庫抓取網(wǎng)站數(shù)據(jù)

1.如何安裝 requests 庫

1.首先在 PyCharm 中安裝 requests 庫

2.打開 PyCharm,單擊“File”(文件)菜單

3.選擇“Setting for New Projects…”命令

Python爬蟲教程知識點總結(jié)

4.選擇“Project Interpreter”(項目編譯器)命令

5.確認(rèn)當(dāng)前選擇的編譯器,然后單擊右上角的加號。

Python爬蟲教程知識點總結(jié)

6.在搜索框輸入:requests(注意,一定要輸入完整,不然容易出錯),然后單擊左下角的“Install Package”(安裝庫)按鈕。

Python爬蟲教程知識點總結(jié)

安裝完成后,會在 Install Package 上顯示“Package‘requests’ installed successfully”(庫的請求已成功安裝),如果安裝不成功將會顯示提示信息。

Python爬蟲教程知識點總結(jié)

四、爬蟲的基本原理

網(wǎng)頁請求的過程分為兩個環(huán)節(jié):

Request (請求):每一個展示在用戶面前的網(wǎng)頁都必須經(jīng)過這一步,也就是向服務(wù)器發(fā)送訪問請求。

Response(響應(yīng)):服務(wù)器在接收到用戶的請求后,會驗證請求的有效性,然后向用戶(客戶端)發(fā)送響應(yīng)的內(nèi)容,客戶端接收服務(wù)器響應(yīng)的內(nèi)容,將內(nèi)容展示出來,就是我們所熟悉的網(wǎng)頁請求

Python爬蟲教程知識點總結(jié)

網(wǎng)頁請求的方式也分為兩種:

GET:最常見的方式,一般用于獲取或者查詢資源信息,也是大多數(shù)網(wǎng)站使用的方式,響應(yīng)速度快。

POST:相比 GET 方式,多了以表單形式上傳參數(shù)的功能,因此除查詢信息外,還可以修改信息。

所以,在寫爬蟲前要先確定向誰發(fā)送請求,用什么方式發(fā)送。

五、使用 GET 方式抓取數(shù)據(jù)

復(fù)制任意一條首頁首條新聞的標(biāo)題,在源碼頁面按【Ctrl+F】組合鍵調(diào)出搜索框,將標(biāo)題粘貼在搜索框中,然后按【Enter】鍵。

標(biāo)題可以在源碼中搜索到,請求對象是www.cntour.cn,請求方式是GET(所有在源碼中的數(shù)據(jù)請求方式都是GET),如圖 9所示。

Python爬蟲教程知識點總結(jié)

確定好請求對象和方式后,在 PyCharm 中輸入以下代碼:

import requests #導(dǎo)入requests包url = ’http://www.cntour.cn/’strhtml = requests.get(url) #Get方式獲取網(wǎng)頁數(shù)據(jù)print(strhtml.text)1234

Python爬蟲教程知識點總結(jié)

加載庫使用的語句是 import+庫的名字。在上述過程中,加載 requests 庫的語句是:import requests。

用 GET 方式獲取數(shù)據(jù)需要調(diào)用 requests 庫中的 get 方法,使用方法是在 requests 后輸入英文點號,如下所示:

requests.get1

將獲取到的數(shù)據(jù)存到 strhtml 變量中,代碼如下:

strhtml = request.get(url)1

這個時候 strhtml 是一個 URL 對象,它代表整個網(wǎng)頁,但此時只需要網(wǎng)頁中的源碼,下面的語句表示網(wǎng)頁源碼:

strhtml.text1六、使用 POST 方式抓取數(shù)據(jù)

首先輸入有道翻譯的網(wǎng)址:http://fanyi.youdao.com/,進(jìn)入有道翻譯頁面。

按快捷鍵 F12,進(jìn)入開發(fā)者模式,單擊 Network,此時內(nèi)容為空,如圖所示:

Python爬蟲教程知識點總結(jié)

在有道翻譯中輸入“我愛中國”,單擊“翻譯”按鈕

Python爬蟲教程知識點總結(jié)

在開發(fā)者模式中,依次單擊“Network”按鈕和“XHR”按鈕,找到翻譯數(shù)據(jù)

Python爬蟲教程知識點總結(jié)

單擊 Headers,發(fā)現(xiàn)請求數(shù)據(jù)的方式為 POST。

Python爬蟲教程知識點總結(jié)

找到數(shù)據(jù)所在之處并且明確請求方式之后,接下來開始撰寫爬蟲。

首先,將 Headers 中的 URL 復(fù)制出來,并賦值給 url,代碼如下:

url = ’http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule’1

POST 的請求獲取數(shù)據(jù)的方式不同于 GET,POST 請求數(shù)據(jù)必須構(gòu)建請求頭才可以。

Form Data 中的請求參數(shù)如圖

Python爬蟲教程知識點總結(jié)

將其復(fù)制并構(gòu)建一個新字典:

From_data={’i’:’我?壑??,’from’:’zh-CHS’,’to’:’en’,’smartresult’:’dict’,’client’:’fanyideskweb’,’salt’:’15477056211258’,’sign’:’b3589f32c38bc9e3876a570b8a992604’,’ts’:’1547705621125’,’bv’:’b33a2f3f9d09bde064c9275bcb33d94e’,’doctype’:’json’,’version’:’2.1’,’keyfrom’:’fanyi.web’,’action’:’FY_BY_REALTIME’,’typoResult’:’false’}1

將字符串格式的數(shù)據(jù)轉(zhuǎn)換成 JSON 格式數(shù)據(jù),并根據(jù)數(shù)據(jù)結(jié)構(gòu),提取數(shù)據(jù),并將翻譯結(jié)果打印出來,代碼如下:

import jsoncontent = json.loads(response.text)print(content[’translateResult’][0][0][’tgt’])123

使用 requests.post 方法抓取有道翻譯結(jié)果的完整代碼如下:

import requests #導(dǎo)入requests包import jsondef get_translate_date(word=None): url = ’http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule’ From_data={’i’:word,’from’:’zh-CHS’,’to’:’en’,’smartresult’:’dict’,’client’:’fanyideskweb’,’salt’:’15477056211258’,’sign’:’b3589f32c38bc9e3876a570b8a992604’,’ts’:’1547705621125’,’bv’:’b33a2f3f9d09bde064c9275bcb33d94e’,’doctype’:’json’,’version’:’2.1’,’keyfrom’:’fanyi.web’,’action’:’FY_BY_REALTIME’,’typoResult’:’false’} #請求表單數(shù)據(jù) response = requests.post(url,data=From_data) #將Json格式字符串轉(zhuǎn)字典 content = json.loads(response.text) print(content) #打印翻譯后的數(shù)據(jù) #print(content[’translateResult’][0][0][’tgt’])if __name__==’__main__’: get_translate_date(’我愛中國’)1234567891011121314七、使用 Beautiful Soup 解析網(wǎng)頁

通過 requests 庫已經(jīng)可以抓到網(wǎng)頁源碼,接下來要從源碼中找到并提取數(shù)據(jù)。Beautiful Soup 是 python 的一個庫,其最主要的功能是從網(wǎng)頁中抓取數(shù)據(jù)。Beautiful Soup 目前已經(jīng)被移植到 bs4 庫中,也就是說在導(dǎo)入 Beautiful Soup 時需要先安裝 bs4 庫。

安裝 bs4 庫的方式如圖 所示:

Python爬蟲教程知識點總結(jié)

安裝好 bs4 庫以后,還需安裝 lxml 庫。如果我們不安裝 lxml 庫,就會使用 Python 默認(rèn)的解析器。盡管 Beautiful Soup 既支持 Python 標(biāo)準(zhǔn)庫中的 HTML 解析器又支持一些第三方解析器,但是 lxml 庫具有功能更加強(qiáng)大、速度更快的特點,因此筆者推薦安裝 lxml 庫。

安裝 Python 第三方庫后,輸入下面的代碼,即可開啟 Beautiful Soup 之旅:

import requests #導(dǎo)入requests包from bs4 import BeautifulSoupurl=’http://www.cntour.cn/’strhtml=requests.get(url)soup=BeautifulSoup(strhtml.text,’lxml’)data = soup.select(’#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a’)print(data)1234567

代碼運行結(jié)果如圖。

Python爬蟲教程知識點總結(jié)

Beautiful Soup 庫能夠輕松解析網(wǎng)頁信息,它被集成在 bs4 庫中,需要時可以從 bs4 庫中調(diào)用。其表達(dá)語句如下:

from bs4 import BeautifulSoup1

首先,HTML 文檔將被轉(zhuǎn)換成 Unicode 編碼格式,然后 Beautiful Soup 選擇最合適的解析器來解析這段文檔,此處指定 lxml 解析器進(jìn)行解析。解析后便將復(fù)雜的 HTML 文檔轉(zhuǎn)換成樹形結(jié)構(gòu),并且每個節(jié)點都是 Python 對象。這里將解析后的文檔存儲到新建的變量 soup 中,代碼如下:

soup=BeautifulSoup(strhtml.text,’lxml’)1

接下來用 select(選擇器)定位數(shù)據(jù),定位數(shù)據(jù)時需要使用瀏覽器的開發(fā)者模式,將鼠標(biāo)光標(biāo)停留在對應(yīng)的數(shù)據(jù)位置并右擊,然后在快捷菜單中選擇“檢查”命令

Python爬蟲教程知識點總結(jié)

隨后在瀏覽器右側(cè)會彈出開發(fā)者界面,右側(cè)高亮的代碼(參見圖 19(b))對應(yīng)著左側(cè)高亮的數(shù)據(jù)文本(參見圖 19(a))。右擊右側(cè)高亮數(shù)據(jù),在彈出的快捷菜單中選擇“Copy”➔“Copy Selector”命令,便可以自動復(fù)制路徑。

Python爬蟲教程知識點總結(jié)

將路徑粘貼在文檔中,代碼如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a1

由于這條路徑是選中的第一條的路徑,而我們需要獲取所有的頭條新聞,因此將 li:nth-child(1)中冒號(包含冒號)后面的部分刪掉,代碼如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a1

使用 soup.select 引用這個路徑,代碼如下:

data = soup.select(’#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a’)1八、清洗和組織數(shù)據(jù)

至此,獲得了一段目標(biāo)的 HTML 代碼,但還沒有把數(shù)據(jù)提取出來,接下來在 PyCharm 中輸入以下代碼:純文本復(fù)制

for item in data: result={ ’title’:item.get_text(), ’link’:item.get(’href’) }print(result)123456

代碼運行結(jié)果如圖 所示:

Python爬蟲教程知識點總結(jié)

首先明確要提取的數(shù)據(jù)是標(biāo)題和鏈接,標(biāo)題在<a>標(biāo)簽中,提取標(biāo)簽的正文用 get_text() 方法。鏈接在<a>標(biāo)簽的 href 屬性中,提取標(biāo)簽中的 href 屬性用 get() 方法,在括號中指定要提取的屬性數(shù)據(jù),即 get('href')。

從圖 20 中可以發(fā)現(xiàn),文章的鏈接中有一個數(shù)字 ID。下面用正則表達(dá)式提取這個 ID。需要使用的正則符號如下:d匹配數(shù)字+匹配前一個字符1次或多次

在 Python 中調(diào)用正則表達(dá)式時使用 re 庫,這個庫不用安裝,可以直接調(diào)用。在 PyCharm 中輸入以下代碼:

import refor item in data: result={ 'title':item.get_text(), 'link':item.get(’href’), ’ID’:re.findall(’d+’,item.get(’href’)) }print(result)12345678

運行結(jié)果如圖 所示:

Python爬蟲教程知識點總結(jié)

這里使用 re 庫的 findall 方法,第一個參數(shù)表示正則表達(dá)式,第二個參數(shù)表示要提取的文本。

九.爬蟲攻防戰(zhàn)

爬蟲是模擬人的瀏覽訪問行為,進(jìn)行數(shù)據(jù)的批量抓取。當(dāng)抓取的數(shù)據(jù)量逐漸增大時,會給被訪問的服務(wù)器造成很大的壓力,甚至有可能崩潰。換句話就是說,服務(wù)器是不喜歡有人抓取自己的數(shù)據(jù)的。那么,網(wǎng)站方面就會針對這些爬蟲者,采取一些反爬策略。

服務(wù)器第一種識別爬蟲的方式就是通過檢查連接的 useragent 來識別到底是瀏覽器訪問,還是代碼訪問的。如果是代碼訪問的話,訪問量增大時,服務(wù)器會直接封掉來訪 IP。

那么應(yīng)對這種初級的反爬機(jī)制,我們應(yīng)該采取何種舉措?

還是以前面創(chuàng)建好的爬蟲為例。在進(jìn)行訪問時,我們在開發(fā)者環(huán)境下不僅可以找到 URL、Form Data,還可以在 Request headers 中構(gòu)造瀏覽器的請求頭,封裝自己。服務(wù)器識別瀏覽器訪問的方法就是判斷 keyword 是否為 Request headers 下的 User-Agent,如圖:

Python爬蟲教程知識點總結(jié)

因此,我們只需要構(gòu)造這個請求頭的參數(shù)。創(chuàng)建請求頭部信息即可,代碼如下:

headers={’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36’}response = request.get(url,headers=headers)12

寫到這里,很多讀者會認(rèn)為修改 User-Agent 很太簡單。確實很簡單,但是正常人1秒看一個圖,而個爬蟲1秒可以抓取好多張圖,比如 1 秒抓取上百張圖,那么服務(wù)器的壓力必然會增大。也就是說,如果在一個 IP 下批量訪問下載圖片,這個行為不符合正常人類的行為,肯定要被封 IP。

其原理也很簡單,就是統(tǒng)計每個IP的訪問頻率,該頻率超過閾值,就會返回一個驗證碼,如果真的是用戶訪問的話,用戶就會填寫,然后繼續(xù)訪問,如果是代碼訪問的話,就會被封 IP。

這個問題的解決方案有兩個,第一個就是常用的增設(shè)延時,每 3 秒鐘抓取一次,代碼如下:

import timetime.sleep(3)12

但是,我們寫爬蟲的目的是為了高效批量抓取數(shù)據(jù),這里設(shè)置 3 秒鐘抓取一次,效率未免太低。其實,還有一個更重要的解決辦法,那就是從本質(zhì)上解決問題。

不管如何訪問,服務(wù)器的目的就是查出哪些為代碼訪問,然后封鎖 IP。解決辦法:為避免被封 IP,在數(shù)據(jù)采集時經(jīng)常會使用代理。當(dāng)然,requests 也有相應(yīng)的 proxies 屬性。

到此這篇關(guān)于Python爬蟲教程知識點總結(jié)的文章就介紹到這了,更多相關(guān)Python爬蟲教程分享內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 亚洲欧洲小视频 | 韩国毛片免费播放 | 成人a毛片免费全部播放 | 久久99精品国产免费观看 | 免费成年人在线视频 | 韩国免费毛片在线看 | 成人7777| 亚洲 欧美 中文字幕 | 国产精品v在线播放观看 | 太平公主三级dvd | 99久女女精品视频在线观看 | 成人国产精品999视频 | 日韩一级在线播放免费观看 | 99re7在线精品免费视频 | 亚洲视频在线观看一区 | 欧美成人高清手机在线视频 | 三级毛片免费看 | 美国aaaa一级毛片啊 | 国产三级在线视频播放线 | 一级特黄aaa大片免费看 | 国产又粗又黄又湿又大 | 日本午色www高清视频 | 国产免费一区二区三区在线 | 日本加勒比在线播放 | 99久久伊人一区二区yy5o99 | 成视频年人黄网站免费 | 99在线热视频只有精品免费 | 亚洲天堂在线视频播放 | 成 人 亚洲 综合天堂 | 亚洲久久久 | 国内成人精品亚洲日本语音 | 中文字幕乱码视频32 | 久草视频官网 | 亚洲国产成人精品91久久久 | 高清国产在线播放成人 | 在线观看国产亚洲 | 亚洲精品久久片久久 | 18在线观看国内精品视频 | 女人张开腿男人猛桶视频 | 久久福利青草狠狠午夜 | 天天爽夜夜操 |