Python抓包程序mitmproxy安裝和使用過(guò)程圖解
一、介紹說(shuō)明
mitmproxy是一個(gè)支持HTTP和HTTPS的抓包程序,有類似Fiddler、Charles的功能,只不過(guò)它是一個(gè)控制臺(tái)的形式操作。
mitmproxy還有兩個(gè)關(guān)聯(lián)組件。一個(gè)是mitmdump,它是mitmproxy的命令行接口,利用它我們可以對(duì)接Python腳本,用Python實(shí)現(xiàn)監(jiān)聽(tīng)后的處理。另一個(gè)是mitmweb,它是一個(gè)Web程序,通過(guò)它我們可以清楚觀察mitmproxy捕獲的請(qǐng)求。
mitmproxy的功能:
1、攔截HTTP和HTTPS請(qǐng)求和響應(yīng)
2、保存HTTP會(huì)話并進(jìn)行分析
3、模擬客戶端發(fā)起請(qǐng)求,模擬服務(wù)器端返回響應(yīng)
4、利用反向代理將流量轉(zhuǎn)發(fā)給指定的服務(wù)器
5、支持Mac和linux上的透明代理
6、利用Python對(duì)HTTP請(qǐng)求與響應(yīng)進(jìn)行實(shí)時(shí)處理
mitmproxy運(yùn)行與自己的PC上,在PC的8080端口運(yùn)行,然后開(kāi)啟一個(gè)代理服務(wù),這個(gè)服務(wù)實(shí)際上是一個(gè)HTTP/HTTPS的代理。
手機(jī)和PC在一個(gè)局域網(wǎng)內(nèi),設(shè)置代理是mitmproxy的代理地址,這樣手機(jī)在訪問(wèn)互聯(lián)網(wǎng)的時(shí)候流量數(shù)據(jù)包就會(huì)流經(jīng)mitmproxy,mitmproxy再去轉(zhuǎn)發(fā)這些數(shù)據(jù)包到真實(shí)的服務(wù)器,服務(wù)器返回?cái)?shù)據(jù)包時(shí)再由mitmproxy轉(zhuǎn)發(fā)回手機(jī),這樣mitmproxy就相當(dāng)于起了中間人的作用,抓取到所有request和response,另外這個(gè)過(guò)程還可以對(duì)接mitmproxy,抓取到的request和response的具體內(nèi)容都可以直接用python來(lái)處理,比如:得到response之后我們可以直接進(jìn)行解析,然后存入數(shù)據(jù)庫(kù),這樣就完成了數(shù)據(jù)的解析和存儲(chǔ)過(guò)程。
二、安裝以及配置
pip install mitmproxy
如果安裝失敗報(bào)錯(cuò)timeout,那就多試幾遍或者加上參數(shù)--timeout秒數(shù)
pip --timeout 10000 install mitmproxy
注意 :在 Windows 上不支持 mitmproxy 的控制臺(tái)接口,但是可以使用 mitmdump和mitmweb。
這三個(gè)命令功能一致,且都可以加載自定義腳本,唯一的區(qū)別是交互界面的不同。
mitmproxy命令啟動(dòng)后,會(huì)提供一個(gè)命令行界面,用戶可以實(shí)時(shí)看到發(fā)生的請(qǐng)求,并通過(guò)命令過(guò)濾請(qǐng)求,查看請(qǐng)求數(shù)據(jù)。
mitmweb命令啟動(dòng)后,會(huì)提供一個(gè) web 界面,用戶可以實(shí)時(shí)看到發(fā)生的請(qǐng)求,并通過(guò) GUI 交互來(lái)過(guò)濾請(qǐng)求,查看請(qǐng)求數(shù)據(jù)。
mitmdump命令啟動(dòng)后,沒(méi)有界面,程序默默運(yùn)行,所以 mitmdump 無(wú)法提供過(guò)濾請(qǐng)求、查看數(shù)據(jù)的功能,只能結(jié)合自定義腳本,默默工作。
證書配置
運(yùn)行mitmdump命令產(chǎn)生CA證書,并在用戶目錄下的.mitmproxy 目錄里面找到CA證書,如下圖所示。
在windows平臺(tái)下安裝證書
點(diǎn)擊mitmproxy-ca.p12,就會(huì)出現(xiàn)導(dǎo)入證書的引導(dǎo)頁(yè),如下圖所示:
然后直接點(diǎn)擊下一步即可,如果不需要設(shè)置密碼,繼續(xù)點(diǎn)擊下一步。
接下來(lái)需要選擇證書的存儲(chǔ)區(qū)域,如下圖所示。
這里點(diǎn)擊第二個(gè)選項(xiàng)“將所有的證書都放入下列存儲(chǔ)”,然后點(diǎn)擊“瀏覽”按鈕,選擇證書存儲(chǔ)位置為 受信任的根證書頒發(fā)機(jī)構(gòu)”,接著點(diǎn)擊“確定”按鈕,然后點(diǎn)擊“下一步”按鈕。
最后,如果有安全警告彈出,直接點(diǎn)擊“是”按鈕即可。這樣就完成了CA證書的配置了。
在Android平臺(tái)下安裝證書
在Android手機(jī)上,需要將mitmproxy-ca-cert.pem文件發(fā)送到手機(jī)上,接下來(lái)點(diǎn)擊證書會(huì)出現(xiàn)一個(gè)提示窗口。
如果手機(jī)不能識(shí)別.pem文件,那就將.cer文件復(fù)制到手機(jī),然后點(diǎn)擊安裝證書。
這時(shí)候輸入證書名稱,例如:mitmproxy,然后點(diǎn)擊確定則完成了安裝。
安卓手機(jī)還有一種方法安裝證書
命令行輸入ipconfig查看本機(jī)IP,并輸入mitmweb啟動(dòng)mitmproxy
可以看到
Web server listening at http://127.0.0.1:8081/Proxy server listening at http://*:8080
所以可以確定,我們代理IP端口號(hào)為8080,于是,在手機(jī)Wifi設(shè)置手動(dòng)代理,輸入本機(jī)IP和端口號(hào)8080。此時(shí),打開(kāi)mitmproxy界面并操作手機(jī),可以看到手機(jī)請(qǐng)求信息:
此時(shí)在手機(jī)端打開(kāi)http://mitm.it/,可以進(jìn)入到如下界面:(如果沒(méi)有進(jìn)入如下界面,請(qǐng)檢查手機(jī)端代理IP和端口號(hào)是否輸入正確!)
選擇第一個(gè)進(jìn)行證書安裝,有時(shí)網(wǎng)絡(luò)不好,可能頁(yè)面一直沒(méi)有響應(yīng)。我就遇到這樣的問(wèn)題,最后,多試幾次,就可以進(jìn)入證書安裝界面。
成功安裝證書后,Go to Settings > General > About > Certificate Trust Settings.Under “Enable full trust for root certificates”, turn on trust for the mitmproxy certificate.
三、mitmdump的使用
mitmdump是mitmproxy的命令行接口,同時(shí)還可以對(duì)接Python對(duì)請(qǐng)求進(jìn)行處理,這是相對(duì)于fiddler和Charles這些工具更加方便的地方,有了它我們可以不用手動(dòng)截獲和分析HTTP請(qǐng)求和響應(yīng),只需要寫好請(qǐng)求與響應(yīng)的處理邏輯即可。它還可以實(shí)現(xiàn)數(shù)據(jù)的解析、存儲(chǔ)等工作,這些過(guò)程都可以通過(guò)Python來(lái)實(shí)現(xiàn)。
1、我們可以使用命令啟動(dòng)mitmproxy,并把截獲的數(shù)據(jù)保存到文件中
命令如下:
mitmdump -w outfile
其中outfile的名稱任意,截獲的數(shù)據(jù)都會(huì)被保存到此文件中。
還可以指定一個(gè)腳本來(lái)處理截獲的數(shù)據(jù),使用-s參數(shù)即可
mitmdump -s script.py
這里指定了當(dāng)前處理腳本為script.py,它需要放置在當(dāng)前命令執(zhí)行的目錄下。我們可以在腳本里寫入如下的代碼:
def request(flow) : flow.request.headers[’User-Agent’] = ’MitmProxy’ print(flow.request.headers)
我們定義了 一個(gè)request ()方法,參數(shù)為 flow ,它其實(shí)是一個(gè) HTTP Flow 對(duì)象,通過(guò) request 屬性即可獲取到當(dāng)前請(qǐng)求對(duì)象 。然后打印輸出了請(qǐng)求的請(qǐng)求頭,將請(qǐng)求頭的 User-Agent 改成了MitmProxy。運(yùn)行之后在手機(jī)端訪問(wèn) http: //httpbin.org get 。
手機(jī)端返回結(jié)果的 Headers 實(shí)際上就是請(qǐng)求的 Headers, User-Agent 被修改成了 mitmproxy ,PC控制臺(tái)輸出了修改后Headers 內(nèi)容,其 User-Agent 的內(nèi)容正是 mitmproxy。所以,通過(guò)這上面三行代碼我們就可以完成對(duì)請(qǐng)求的改寫。
print()方法輸出結(jié)果可以呈現(xiàn)在 PC 端控制臺(tái)上,可以方便地進(jìn)行調(diào)試。
2、日志的輸出
mitmdump提供了專門的日志輸出功能,可以設(shè)定不同級(jí)別以不同顏色輸出結(jié)果,我們可以把腳本修改成以下內(nèi)容:
from mitmproxy import ctx def request(flow): flow .request . headers[’User-Agent’] =’mitmProxy’ ctx.log.info(str(flow.request.headers)) ctx.log.warn(str(flow.request.headers)) ctx.log.error(str(flow.request.headers))
在這里調(diào)用了ctx模塊,它有一個(gè)log功能,調(diào)用不同的輸出方法就可以輸出不同顏色的結(jié)果,以方便我們做調(diào)試。例如:info()方法輸出的內(nèi)容是白色的,warn()方法輸出的內(nèi)容是黃色的,error()方法輸出的內(nèi)容是紅色的。
不同的顏色對(duì)應(yīng)不同級(jí)別的輸出,我們可以將不同的結(jié)果合理劃分級(jí)別輸出,以更直觀方便地查看調(diào)試信息。
3、request的使用
我們?cè)谏厦嬉矊?shí)現(xiàn)了request()方法并且對(duì)Headers進(jìn)行了修改。下面我們介紹下request其他常用的一些功能,如下:
from mitmproxy import ctx def request(flow):request = flow.request info = ctx.log.info info(request.url) info(str(request.headers)) info(str(request.cookies)) info(request.host) info(request.method) info(str(request.port)) info(request.scheme)
在手機(jī)上打開(kāi)百度,就可以看到pc端控制臺(tái)輸出了一系列的請(qǐng)求,在這里我們找到第一個(gè)請(qǐng)求。控制臺(tái)打印輸出了request的一些常見(jiàn)的屬性,如URL、headers、cookies、host、method、scheme即請(qǐng)求鏈接、請(qǐng)求頭、請(qǐng)求cookies、請(qǐng)求host、請(qǐng)求方法、請(qǐng)求端口、請(qǐng)求協(xié)議這些內(nèi)容。
同時(shí)我們還可以對(duì)任意屬性進(jìn)行修改,就像最初修改headers一樣,直接賦值即可,例如把請(qǐng)求的URL修改了,如下:‘
def request(flow): url =’https://httpbin.org/get’ flow.request.url = url
我們只需要用簡(jiǎn)單的腳本就可以成功把請(qǐng)求修改為其他的站點(diǎn),通過(guò)這種方式修改和偽造請(qǐng)求就變得很容易。
通過(guò)這個(gè)例子我們也可以知道,有時(shí)候URL雖然是正確的,但是內(nèi)容并非是正確的,我們需要進(jìn)一步提高自己的安全防范意識(shí)。
所以我們能很容易地獲取和修改request的任意內(nèi)容,比如:可以用修改cookies、添加代理的方式來(lái)規(guī)避反爬。
4、響應(yīng)的使用
對(duì)于爬蟲來(lái)說(shuō),我們會(huì)更加關(guān)心響應(yīng)的內(nèi)容,因?yàn)閞esponse body才是爬取的結(jié)果。對(duì)于響應(yīng)來(lái)說(shuō),mitmdump也提供了對(duì)應(yīng)的處理接口,就是response()方法。
from mitmproxy import ctx def response(flow): response = flow.response info = ctx.log.infoinf(str(response.status_code))info(str(response.headers)) info(str(response.cookies)) info(str(response .text))
在這里打印輸出了響應(yīng)的狀態(tài)碼status_code、響應(yīng)頭headers、cookies、響應(yīng)體text這幾個(gè)屬性,其中最重要的是text屬性也就是網(wǎng)頁(yè)的源代碼。
通過(guò)response()方法獲取每個(gè)請(qǐng)求的響應(yīng)內(nèi)容,然后再進(jìn)行響應(yīng)的信息提取和存儲(chǔ),我們就可以完成數(shù)據(jù)爬取啦!
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持好吧啦網(wǎng)。
相關(guān)文章:
1. javascript xml xsl取值及數(shù)據(jù)修改第1/2頁(yè)2. JavaWeb Servlet中url-pattern的使用3. 使用EF Code First搭建簡(jiǎn)易ASP.NET MVC網(wǎng)站并允許數(shù)據(jù)庫(kù)遷移4. HTML5 Canvas繪制圖形從入門到精通5. jsp+servlet簡(jiǎn)單實(shí)現(xiàn)上傳文件功能(保存目錄改進(jìn))6. 淺談SpringMVC jsp前臺(tái)獲取參數(shù)的方式 EL表達(dá)式7. asp(vbs)Rs.Open和Conn.Execute的詳解和區(qū)別及&H0001的說(shuō)明8. XML入門的常見(jiàn)問(wèn)題(一)9. asp批量添加修改刪除操作示例代碼10. ASP中if語(yǔ)句、select 、while循環(huán)的使用方法
