文章詳情頁

Python用requests庫爬取返回為空的解決辦法

瀏覽：152日期：2022-06-27 13:45:00

首先介?一下我??用360搜索派取城市排名前20。我們爬取的網址：https://baike.so.com/doc/24368318-25185095.html

我們要爬取的內容：

html字段：

Python用requests庫爬取返回為空的解決辦法

robots協議：

Python用requests庫爬取返回為空的解決辦法

現在我們開始用python IDLE 爬取

Python用requests庫爬取返回為空的解決辦法

import requestsr = requests.get('https://baike.so.com/doc/24368318-25185095.html')r.status_coder.text

結果分析，我們可以成功訪問到該網頁，但是得不到網頁的結果。被360搜索識別，我們將headers修改。

Python用requests庫爬取返回為空的解決辦法

輸出有個小插曲，網頁內容很多，我是想將前500個字符輸出，第一次格式錯了

import requestsheaders = { ’Cookie’:’OCSSID=4df0bjva6j7ejussu8al3eqo03’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36’ ’(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36’,}r = requests.get('https://baike.so.com/doc/24368318-25185095.html'， headers = headers)r.status_coder.text

接著我們對需要的內容進行爬取，用(.find)方法找到我們內容位置，用(.children)下行遍歷的方法對內容進行爬取，用(isinstance)方法對內容進行篩選：

import requestsfrom bs4 import BeautifulSoupimport bs4headers = { ’Cookie’:’OCSSID=4df0bjva6j7ejussu8al3eqo03’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36’ ’(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36’,}r = requests.get('https://baike.so.com/doc/24368318-25185095.html', headers = headers)r.status_coder.encoding = r.apparent_encodingsoup = BeautifulSoup(r.text, 'html.parser')for tr in soup.find(’tbody’).children:if isinstance(tr, bs4.element.Tag):tds = tr(’td’)print([tds[0].string, tds[1].string, tds[2].string])

得到結果如下：

Python用requests庫爬取返回為空的解決辦法

修改輸出的數目，我們用Clist列表來存取所有城市的排名，將前20個輸出代碼如下：

import requestsfrom bs4 import BeautifulSoupimport bs4Clist = list() #存所有城市的列表headers = { ’Cookie’:’OCSSID=4df0bjva6j7ejussu8al3eqo03’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36’ ’(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36’,}r = requests.get('https://baike.so.com/doc/24368318-25185095.html', headers = headers)r.encoding = r.apparent_encoding #將html的編碼解碼為utf-8格式soup = BeautifulSoup(r.text, 'html.parser') #重新排版for tr in soup.find(’tbody’).children: #將tbody標簽的子列全部讀取if isinstance(tr, bs4.element.Tag): #篩選tb列表，將有內容的篩選出啦 tds = tr(’td’) Clist.append([tds[0].string, tds[1].string, tds[2].string])for i in range(21): print(Clist[i])

最終結果：

Python用requests庫爬取返回為空的解決辦法

到此這篇關于Python用requests庫爬取返回為空的解決辦法的文章就介紹到這了,更多相關Python requests返回為空內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：python爬蟲利用代理池更換IP的方法步驟下一條：python利用proxybroker構建爬蟲免費IP代理池的實現

相關文章：

1. ASP編碼必備的8條原則2. 詳解php如何合并身份證正反面圖片為一張圖片3. ASP錯誤捕獲的幾種常規處理方式4. Laravel中數據庫遷移操作的示例詳解5. JS實現一個微信錄音功能過程示例詳解6. asp.net core項目授權流程詳解7. 得到XML文檔大小的方法8. asp錯誤 '80040e21' 多步 OLE DB 操作產生錯誤9. .NET 中配置從xml轉向json方法示例詳解10. 詳解JS前端使用迭代器和生成器原理及示例

排行榜

					
					改進JAVA字符串分解的方法
Python基礎之畫圖神器matplotlib
python實現梯度下降算法的實例詳解
Python 如何將字符串每兩個用空格隔開
Python切割圖片成九宮格的示例代碼
python實現猜數游戲(保存游戲記錄）
python計算auc的方法
Python使用shutil模塊實現文件拷貝
利用python+request通過接口實現人員通行記錄上傳功能
Python sorted對list和dict排序
如何用python開發Zeroc Ice應用