亚洲免费在线视频-亚洲啊v-久久免费精品视频-国产精品va-看片地址-成人在线视频网

您的位置:首頁技術文章
文章詳情頁

用python寫爬蟲簡單嗎

瀏覽:4日期:2022-07-16 09:06:21

所謂網絡爬蟲,通俗的講,就是通過向我們需要的URL發出http請求,獲取該URL對應的http報文主體內容,之后提取該報文主體中我們所需要的信息。

下面是一個簡單的爬蟲程序

http基本知識

當我們通過瀏覽器訪問指定的URL時,需要遵守http協議。本節將介紹一些關于http的基礎知識。

http基本流程

我們打開一個網頁的過程,就是一次http請求的過程。這個過程中,我們自己的主機充當著客戶機的作用,而充當客戶端的是瀏覽器。我們輸入的URL對應著網絡中某臺服務器上面的資源,服務器接收到客戶端發出的http請求之后,會給客戶端一個響應,響應的內容就是請求的URL對應的內容,當客戶端接收到服務器的響應時,我們就可以在瀏覽器上看見請求的信息了。

我們可以通過python的requests模塊很方便的發起http請求。requests模塊是第三方模塊,安裝完成之后直接import就能使用。下面介紹一些簡單的用法

發起請求

import requests# 請求的首部信息headers = { ’user-agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36’}# 例子的urlurl = ’https://voice.hupu.com/nba’ # 虎撲nba新聞# 利用requests對象的get方法,對指定的url發起請求# 該方法會返回一個Response對象res = requests.get(url, headers=headers)# 通過Response對象的text方法獲取網頁的文本信息print(res.text)

上面的代碼中,我們向虎撲的服務器發送了一個get請求,獲取虎撲首頁的nba新聞。headers參數指的是http請求的首部信息,我們請求的url對應的資源是虎撲nba新聞的首頁。獲取到對應的網頁資源之后,我們需要對其中的信息進行提取。

通過BeautifulSoup提取網頁信息

BeautifulSoup庫提供了很多解析html的方法,可以幫助我們很方便地提取我們需要的內容。我們這里說的BeautifulSoup指的是bs4。當我們成功抓取網頁之后,就可以通過BeautifulSoup對象對網頁內容進行解析。在BeautifulSoup中,我們最常用的方法就是find()方法和find_all()方法,借助于這兩個方法,可以輕松地獲取到我們需要的標簽或者標簽組。關于其他的方法,可以參考bs4的官方文檔:BeautifulSoup

find()方法和find_all()方法的用法如下

find(name , attrs , recursive , string , **kwargs )# find_all()方法將返回文檔中符合條件的所有tag,find_all(name , attrs , recursive , string , **kwargs )

from bs4 import BeautifulSoup# BeautifulSoup對象接收html文檔字符串# lxml是html解析器soup = Beautiful(res.text, ’lxml’)# 下面的方法找出了所有class為hello的span標簽# 并將所有的結果都放入一個list返回tags = soup.find_all(’span’, {’class’: ’hello’})

實例擴展:

實例一:

#第一種方法import urllib2 #將urllib2庫引用進來response=urllib2.urlopen('http://www.baidu.com') #調用庫中的方法,將請求回應封裝到response對象中html=response.read() #調用response對象的read()方法,將回應字符串賦給hhtml變量print html #打印出來

實例二:

#第二中方法import urllib2req=urllib2.Request('http://ww.baidu.com')response=urllib2.urlopen(req)html = response.read()print html

到此這篇關于用python寫爬蟲簡單嗎的文章就介紹到這了,更多相關python寫爬蟲難嗎內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 亚洲国产欧洲精品路线久久 | 久久精品免观看国产成人 | 精品玖玖玖视频在线观看 | 久久精品99毛片免费 | 成年男女男精品免费视频网站 | 91成人在线播放 | 美女张开腿让人捅 | 毛片a区| 黄片毛片在线观看 | 亚洲精品视频在线观看视频 | 美美女高清毛片视频黄的一免费 | 亚洲综合日韩欧美一区二区三 | 美女大片高清特黄a大片 | 国产在线观看高清精品 | 欧美美女色 | 新26uuu在线亚洲欧美 | 国产成人精品magnet | 久久精品视频99精品视频150 | 国产一区二| 在线日本看片免费人成视久网 | 亚洲国产精品久久网午夜 | 免费一级a毛片免费观看欧美大片 | 九九在线免费观看视频 | 男女性生活网站 | 欧美色大成网站www永久男同 | 国产区一区二区三 | 99九九99九九九视频精品 | 日韩一级特黄毛片在线看 | 真实国产普通话对白乱子子伦视频 | 综合自拍| 香港三级日本三级妇人三级 | 欧美日韩一区二区三区在线播放 | 欧美日韩在线视频免费完整 | 欧美成人性色生活片免费在线观看 | 亚洲免费影院 | 普通话对白国产精品一级毛片 | 久草网视频在线观看 | 亚洲精品色 | 国产免费黄视频 | 三级中文字幕永久在线视频 | 国产一区二区三区免费在线观看 |