文章詳情頁

python爬蟲之bs4數據解析

瀏覽：113日期：2022-06-21 10:09:07

一、實現數據解析

因為正則表達式本身有難度，所以在這里為大家介紹一下 bs4 實現數據解析。除此之外還有 xpath 解析。因為 xpath 不僅可以在 python 中使用，所以 bs4 和正則解析一樣，僅僅是簡單地寫兩個案例（爬取可翻頁的圖片，以及爬取三國演義）。以后的重點會在 xpath 上。

二、安裝庫

閑話少說，我們先來安裝 bs4 相關的外來庫。比較簡單。

1.首先打開 cmd 命令面板，依次安裝bs4 和 lxml。

2. 命令分別是 pip install bs4 和 pip install lxml 。

3. 安裝完成后我們可以試著調用他們，看看會不會報錯。

因為本人水平有限，所以如果出現報錯，兄弟們還是百度一下好啦。（總不至于 cmd 命令打錯了吧 ~~）

三、bs4 的用法

閑話少說，先簡單介紹一下 bs4 的用法。

python爬蟲之bs4數據解析

四、爬取圖片

import requestsfrom bs4 import BeautifulSoupimport osif __name__ == '__main__': # 創建文件夾 if not os.path.exists('./糗圖（bs4）'):os.mkdir('./糗圖（bs4）') # UA偽裝 header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'} # 指定 url for i in range(1, 3): # 翻兩頁url = 'https://www.qiushibaike.com/imgrank/page/%s/' % str(i)# 獲取源碼數據page = requests.get(url = url, headers = header).text# 數據解析soup = BeautifulSoup(page, 'lxml')data_list = soup.select('.thumb > a')for data in data_list: url = data.img['src'] title = url.split('/')[-1] new_url = 'https:' + url photo = requests.get(url = new_url, headers = header).content # 存儲 with open('./糗圖（bs4）/' + title, 'wb') as fp:fp.write(photo) print(title, '下載完成！！！') print('over!!!')五、爬取三國演義

import requestsfrom bs4 import BeautifulSoupif __name__ == '__main__': # UA 偽裝 header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'} # URL url = 'http://sanguo.5000yan.com/' # 請求命令 page_text = requests.get(url = url, headers = header) page_text.encoding = 'utf-8' page_text = page_text.text soup = BeautifulSoup(page_text, 'lxml')# bs4 解析 li_list = soup.select('.sidamingzhu-list-mulu > ul > li')for li in li_list:print(li)new_url = li.a['href']title = li.a.text# 新的請求命令response = requests.get(url = new_url, headers = header)response.encoding = 'utf-8'new_page_text = response.textnew_soup = BeautifulSoup(new_page_text, 'lxml')page = new_soup.find('div', class_ = 'grap').textwith open('./三國演義.txt', 'a', encoding = 'utf-8') as fp: fp.write('n' + title + ':' + 'n' + 'n' + page)print(title + '下載完成！！！')

到此這篇關于python爬蟲之bs4數據解析的文章就介紹到這了,更多相關python bs4數據解析內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：如何將自己的python庫打包成wheel文件并上傳到pypi下一條：Python爬蟲基礎之requestes模塊

相關文章：

1. 改變 Python 中線程執行順序的方法2. Python 如何將integer轉化為羅馬數(3999以內)3. 詳解Python模塊化編程與裝飾器4. Python下使用Trackbar實現繪圖板5. html小技巧之td,div標簽里內容不換行6. Python通過format函數格式化顯示值7. python web框架的總結8. 以PHP代碼為實例詳解RabbitMQ消息隊列中間件的6種模式9. python使用ctypes庫調用DLL動態鏈接庫10. Python性能測試工具Locust安裝及使用

排行榜

					
					關于Java下奇怪的Base64詳解
Python 如何將integer轉化為羅馬數(3999以內)
Python使用shutil模塊實現文件拷貝
如何在vue3.0+中使用tinymce及實現多圖上傳文件上傳公式編輯功能
Spring security 自定義過濾器實現Json參數傳遞并兼容表單參數(實例代碼)
SpringBoot Shiro 權限注解不起作用的解決方法
Effective java學習筆記4:避免創建重復對象
python+adb+monkey實現Rom穩定性測試詳解
java 如何實現正確的刪除集合中的元素
JAVA判斷空值方法原理解析
編寫更好的 Java 單元測試的 7 個技巧