亚洲免费在线视频-亚洲啊v-久久免费精品视频-国产精品va-看片地址-成人在线视频网

您的位置:首頁技術(shù)文章
文章詳情頁

python如何爬取網(wǎng)頁中的文字

瀏覽:57日期:2022-07-16 09:06:52

用Python進(jìn)行爬取網(wǎng)頁文字的代碼:

#!/usr/bin/python# -*- coding: UTF-8 -*-import requestsimport re# 下載一個網(wǎng)頁url = ’https://www.biquge.tw/75_75273/3900155.html’# 模擬瀏覽器發(fā)送http請求response = requests.get(url)# 編碼方式response.encoding=’utf-8’# 目標(biāo)小說主頁的網(wǎng)頁源碼html = response.textprint(html)

1、編寫爬蟲思路:

確定下載目標(biāo),找到網(wǎng)頁,找到網(wǎng)頁中需要的內(nèi)容。對數(shù)據(jù)進(jìn)行處理。保存數(shù)據(jù)。

2、知識點(diǎn)說明:

1)確定網(wǎng)絡(luò)中需要的信息,打開網(wǎng)頁后使用F12打開開發(fā)者模式。

在Network中可以看到很多信息,我們在頁面上看到的文字信息都保存在一個html文件中。點(diǎn)擊文件后可以看到response,文字信息都包含在response中。

對于需要輸入的信息,可以使用ctrl+f,進(jìn)行搜索。查看信息前后包含哪些特定字段。

對于超鏈接的提取,可以使用最左邊的箭頭點(diǎn)擊超鏈接,這時Elements會打開有該條超鏈接的信息,從中判斷需要提取的信息。從下載小說來看,在目錄頁提取出小說的鏈接和章節(jié)名。

2)注意編碼格式

輸入字符集一定要設(shè)置成utf-8。頁面大多為GBK字符集。不設(shè)置會亂碼。

內(nèi)容擴(kuò)展:

接下來我們了解一下爬取網(wǎng)頁信息的步驟。

想要獲得我們所需的數(shù)據(jù)分三步

第一步:使用BeautifulSoup解析網(wǎng)頁

Soup = BeautifulSoup(html,’lxml’)

第二步:描述想要爬去信息的東西在哪里。

信息 = Soup.select(’???’)

要知道它叫什么名字,如何去定位。

第三步:從標(biāo)簽中獲得你想要的信息

<p>Something</p>

從標(biāo)簽中獲取我們需要的信息,去掉一些沒有用的結(jié)構(gòu),并且把我們獲取的信息按照一定格式裝在數(shù)據(jù)容器中,方便我們?nèi)ゲ樵儭?/p>

以上就是python如何爬取網(wǎng)頁中的文字的詳細(xì)內(nèi)容,更多關(guān)于python爬取網(wǎng)頁文字的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 男人的天堂在线免费视频 | 欧美在线看欧美高清视频免费 | 亚洲精品亚洲一区二区 | 日韩精品中文字幕在线观看 | 国产日韩线路一线路二 | 国产精品成人在线 | 一级毛片免费播放 | 久久精品一级 | 国产三级做爰在线观看视频 | 91亚洲精品成人一区 | 国产成人一区二区三区视频免费 | 国产热久久精 | 黄色免费三级 | 毛片免费高清免费 | 欧美成人综合在线观看视频 | 草草伊人| 性色欧美xo影院 | 国产成人精品视频播放 | 精品成人在线观看 | 欧美888| freesex日本高清nice | 国产成人亚洲精品影院 | 青青热在线精品视频免费 | 岛国搬运工最新网地址 | 亚洲成aⅴ人片在线影院八 亚洲成av人片在线观看 | 天海翼精品久久中文字幕 | 欧美一级毛片在线观看 | 伊人久久网站 | 亚洲成a人一区二区三区 | 成人看的午夜免费毛片 | 日本波多野结衣视频 | 欧美一级成人影院免费的 | 神马国产 | 日本大黄网站 | 香蕉视频黄色在线观看 | 久久综合日韩亚洲精品色 | 亚州一级毛片在线 | 日韩国产精品99久久久久久 | 久久精品二三区 | 玖玖精品在线 | 亚洲韩国日本欧美一区二区三区 |