亚洲免费在线视频-亚洲啊v-久久免费精品视频-国产精品va-看片地址-成人在线视频网

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python - 抓包只抓到j(luò)son,真實(shí)的地址卻找不到

瀏覽:132日期:2022-09-10 11:20:38

問(wèn)題描述

用charles對(duì)一覽(https://www.yilan.io/home/?ca...)進(jìn)行抓包,該頁(yè)面是懶加載形式,每一次加載會(huì)生成一個(gè)recommended(登錄情況下文件名變化但是原理相同),這個(gè)文件里面有json可以取得想要的數(shù)據(jù)。但是post的地址(見(jiàn)圖片頂部)如果直接復(fù)制訪問(wèn)會(huì)報(bào)404,不知道該如何獲得可以獲取數(shù)據(jù)的真實(shí)地址,并進(jìn)行若干個(gè)recommended的批量抓取呢?謝謝!python - 抓包只抓到j(luò)son,真實(shí)的地址卻找不到

問(wèn)題解答

回答1:

說(shuō)一下我的方法,已經(jīng)爬取到數(shù)據(jù)。我用的是firebug,打開(kāi)后找到如下路徑:https://www.yilan.io/article/recommendedpython - 抓包只抓到j(luò)son,真實(shí)的地址卻找不到看了一下要post的內(nèi)容,需要這組數(shù)據(jù){'skip':0,'limit':20}。下面開(kāi)始寫代碼:

import urllib2import urllibimport gzipfrom StringIO import StringIOimport jsonapi = ’https://www.yilan.io/article/recommended’data = {'skip':0,'limit':20}headers = { ’Accept’: ’application/json, text/plain, */*’, ’Accept-Encoding’: ’gzip, deflate’, ’Accept-Language’: ’zh-CN,zh’, ’Connection’: ’keep-alive’, ’Cookie’: ’XSRF-TOKEN=APc3KgEq-6wavGArI6rLf6tPW69j7H_Qm2s0; user=%7B%22_id%22%3A%22%22%2C%22role%22%3A%7B%22title%22%3A%22anon%22%2C%22bitMask%22%3A1610612736%7D%7D; Metrix-sid=s%3AjDAFvFGo3C0BJzR7cTXBXHl6VM493Gp0.C1svjUqfnY3NhUluURMDdaL3HEpUX8rpSj9%2F9yhKnEI’, ’User-Agent’: ’Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:51.0) Gecko/20100101 Firefox/51.0’, ’X-XSRF-TOKEN’: ’APc3KgEq-6wavGArI6rLf6tPW69j7H_Qm2s0’ }url_data = urllib.urlencode(data)request = urllib2.Request(api, data=url_data,headers=headers)content = urllib2.urlopen(request).read()contents = StringIO(content)f = gzip.GzipFile(mode=’rb’, fileobj=contents).read()b = json.loads(f)print b

運(yùn)行結(jié)果如下:

[{u’readCount’: 12, u’siteTitle’: u’u5de5u5177u7656’, u’siteUrl’: u’http://jianshu.milkythinking.com/feeds/collections/2mvgxp’, u’siteFavicon’: u’http://7xiyp4.com2.z0.glb.qiniucdn.com/site-5627773e8b3ac7e104c6280f-favicon’, u’feature_image’: u’http://7x2wdd.com2.z0.glb.qiniucdn.com/54e7178471ab07ea378e0d254a57b3cc’, u’author’: u’’, u’url’: ...]

然后提取想要的內(nèi)容就行,可以更改limit的值來(lái)改變一次所要獲取的內(nèi)容數(shù)量。該網(wǎng)站可能會(huì)在后臺(tái)檢查你所post的數(shù)據(jù),如果錯(cuò)誤會(huì)導(dǎo)致404,這也就是直接打開(kāi)該路徑不能訪問(wèn)的原因。

回答2:

大概是 HTTP HEADERS 設(shè)置不當(dāng),具體如何設(shè)置我也看不出來(lái),可以來(lái)一套模擬常規(guī)瀏覽器的HEADERS,或者在瀏覽器跟蹤一下請(qǐng)求。

標(biāo)簽: Python 編程
主站蜘蛛池模板: 国产精品久久久久久久网站 | 国产碰碰 | 亚洲精品美女在线观看 | 美女又黄又免费视频 | 欧美特黄三级成人 | 久久精品国产99国产精品亚洲 | 久久精品国产屋 | 国产精品亚洲高清一区二区 | 国产一级在线观看www色 | 国产欧美精品一区二区三区 | 国产老鸭窝毛片一区二区 | 爽死你个放荡粗暴小淫货双女视频 | 亚洲日本一区二区三区在线 | 国产v片在线播放免费观 | 亚洲国产欧美日韩 | 亚洲国产精品第一区二区三区 | 一区二区三区在线观看免费 | 亚洲免费成人网 | 国产一区二区三区在线观看影院 | 精品一区二区久久久久久久网站 | 爽爽窝窝午夜精品一区二区 | 美女被躁免费视频软件 | 碰碰久久| 久久老司机波多野结衣 | 天干夜天天夜天干天ww | 91精品免费国产高清在线 | 久99频这里只精品23热 视频 | 欧美曰批人成在线观看 | 色综合天天综合网看在线影院 | 国产视频a| 国产欧美亚洲三区久在线观看 | 成人a大片高清在线观看 | 国产精品久久久久久一区二区三区 | 日a在线 | 日韩a一级欧美一级在线播放 | 男人的天堂高清在线观看 | 精品一区二区三区中文字幕 | 国产精品在线观看 | 久久99精品综合国产首页 | 久久久免费观成人影院 | 久草a在线 |