文章詳情頁

python BeautifulSoup庫的安裝與使用

瀏覽：2日期：2022-07-01 18:52:05

1.BeautifulSoup簡介

BeautifulSoup4和 lxml 一樣，Beautiful Soup 也是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 數(shù)據(jù)。

BeautifulSoup支持Python標(biāo)準(zhǔn)庫中的HTML解析器,還支持一些第三方的解析器，如果我們不安裝它，則 Python 會使用 Python默認的解析器，lxml 解析器更加強大，速度更快，推薦使用lxml 解析器。

Beautiful Soup自動將輸入文檔轉(zhuǎn)換為Unicode編碼，輸出文檔轉(zhuǎn)換為utf-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然后，你僅僅需要說明一下原始編碼方式就可以了。

2.BeautifulSoup的安裝

首先我們需要安裝一個BeautifulSoup庫。我安裝的版本是python3。所以就可以直接在cmd下用pip3命令進行安裝。

命令：

pip3 install beautifulsoup4

在安裝好BeautifulSoup后，我們可以通過導(dǎo)入該庫來判斷是否安裝成功。

命令：

>>> from bs4 import BeautifulSoup

回車后不報錯，這說明我們已經(jīng)將其安裝成功。

3.BeautifulSoup常用功能

# beautiful soup 網(wǎng)頁中提取信息的python庫# BeautifulSoup 對象表示的是一個文檔的全部內(nèi)容# prettify() 按照標(biāo)準(zhǔn)的縮進格式的結(jié)構(gòu)輸出# get_text() 會將HTML文檔中的所有標(biāo)簽清除,返回一個只包含文字的字符串from bs4 import BeautifulSouptext=’’’<?xml version='1.0' encoding='ISO-8859-1'?><bookstore><book> <title lang='eng'>Harry Potter</title> <price>29.99</price></book><book> <title lang='eng'>Learning XML</title> <price>39.95</price></book></bookstore>’’’# create 對象bf=BeautifulSoup(text)# 按照標(biāo)準(zhǔn)縮進格式輸出print(bf.prettify())# 會將HTML文檔中的所有標(biāo)簽清除,返回一個只包含文字的字符串print(bf.get_text())# Tag對象 # 標(biāo)簽表示HTML中的一個個標(biāo)簽# name# attrstag=bf.title # 獲取title標(biāo)簽print(tag)print(type(tag)) # tag類型print(tag.name) # 標(biāo)簽名稱print(tag.attrs) #標(biāo)簽屬性print(tag.attrs['lang']) #單獨獲取某個屬性方法1print(bf.title['lang']) #單獨獲取某個屬性方法2# NavigableString tag.string# 表示標(biāo)簽中的文字print(tag.string)print(type(tag.string)) # 查看數(shù)據(jù)類型# Comment 注釋部分# 一個特殊類型的NavigableString對象# 輸出的內(nèi)容不包括注釋符號string=’’’<p></p>’’’sp=BeautifulSoup(string)print(sp)print(sp.p.string) # 去獲取標(biāo)簽中是文字

# 兩個常用函數(shù) # find_all() 搜索當(dāng)前tag的所有tag子節(jié)點,并判斷是否符合給定的條件# 返回結(jié)果是一個列,可以包含多個元素print(soup.find_all(’title’),end='n-------n')#find() 直接返回第一個元素print(soup.find('title'))print(soup.find_all('title',lang='eng')) # 查找title標(biāo)簽屬性lang=engprint(soup.find_all('title',{'lang':'eng'})) # 結(jié)果同上print(soup.find_all(['title','price'])) #獲取多個標(biāo)簽print(soup.find_all('title',lang='eng')[0].get_text()) # 獲取文本# 三大常見節(jié)點# 子節(jié)點一個Tag可能包含多個字符串或其他的tag，這些都是這個tag的子節(jié)點# 父節(jié)點配個tag或字符串都有父節(jié)點：被包含在某個tag中# 兄弟節(jié)點平級的節(jié)點end='n-------n'print(soup.book,end) # 獲取book節(jié)點信息print(soup.book.contents,end) # 獲取book下的所有子節(jié)點print(soup.book.contents[1],end) # 獲取book下的所有子節(jié)點中的第一個節(jié)點print(soup.book.children,end) # children 生成迭代器for child in soup.book.children: print('===',child) print(soup.title.parent,end)print(soup.book.parent,end)for parent in soup.title.parents: #注意parent和parents區(qū)別 print('===',parent.name) print(soup.title.next_sibling,end) # 獲取該節(jié)點的下一個兄弟節(jié)點print(soup.title.previous_sibling,end) # 獲取該節(jié)點的上一個兄弟節(jié)點print(soup.title.next_siblings,end) # 獲取該節(jié)點的全部兄弟節(jié)點for i in soup.title.next_siblings: print('===',i)

以上就是python BeautifulSoup庫的安裝與使用的詳細內(nèi)容，更多關(guān)于python BeautifulSoup庫的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：python 實現(xiàn)一個簡單的線性回歸案例下一條：python中翻譯功能translate模塊實現(xiàn)方法

相關(guān)文章：

1. Android 7.0 運行時權(quán)限彈窗問題的解決2. java實現(xiàn)圖形化界面計算器3. IntelliJ IDEA設(shè)置條件斷點的方法步驟4. IDEA的Mybatis Generator駝峰配置問題5. ASP.NET MVC解決上傳圖片臟數(shù)據(jù)的方法6. 如何利用python和DOS獲取wifi密碼7. Thinkphp3.2.3反序列化漏洞實例分析8. python Xpath語法的使用9. 原生js XMLhttprequest請求onreadystatechange執(zhí)行兩次的解決10. python 批量將PPT導(dǎo)出成圖片集的案例

排行榜

					
					Android 7.0 運行時權(quán)限彈窗問題的解決
java實現(xiàn)圖形化界面計算器
IDEA的Mybatis Generator駝峰配置問題
IntelliJ IDEA設(shè)置條件斷點的方法步驟
如何利用python和DOS獲取wifi密碼
Spring中的AutowireCandidateResolver的具體使用詳解
Python使用xpath實現(xiàn)圖片爬取
Android實現(xiàn)View滑動效果的6種方法
Android Studio升級3.6 Build窗口出現(xiàn)中文亂碼問題解決方法
Java基于字符界面的簡易收銀臺
JAVA初探設(shè)計模式的六大原則