色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

Python爬蟲如何爬取span和span中間的內容并分別存入字典里?

瀏覽:94日期:2022-07-15 16:32:54

問題描述

我想把房屋概況分別抓出來并分別作為獨立的列存儲進字典里,但是行內元素沒有辦法直接用for循環摳出來。這是我的代碼:

soup.select(’.house-info li’)[1].text.strip()

這是網頁html代碼:

<li><span class='info-tit'>房屋概況:</span>住宅<span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>

問題解答

回答1:

其實還是很有簡單的,你看這個還是有規律的,規律在于有分隔符|,我寫了個DEMO

something = ’’’<li><span class='info-tit'>房屋概況:</span>住宅 <span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>’’’;soup = BeautifulSoup(something, ’lxml’)plaintext = soup.select(’li’)[0].get_text().strip()

通過get_text()得到內在所有內容,然后去除空格。后面你就用split進行分割吧,后面的不寫了。如果有問題再交流。

回答2:我感覺這個html代碼寫錯了呢,標簽的內容文本在標簽外面

Python爬蟲如何爬取span和span中間的內容并分別存入字典里?

正確的標簽內容就兩個:

房屋概況:

46m2

回答3:

innerText

回答4:

你這種情況,我覺得用 for 循環加上正則表達式是最方便的,如果所有模版都是這樣固定的話

回答5:

用pyquery吧

from pyquery import PyQuery as Q

Q(text).find(’.house-info li’).text()

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 欧美一级片 在线播放 | 亚洲美女精品视频 | 欧美一级视频在线高清观看 | 久久国产精品一区二区三区 | 亚洲制服欧美自拍另类 | 欧美人与z0z0xxxx | 久久久久久亚洲精品中文字幕 | 伊人狠狠丁香婷婷综合色 | 美女视频永久黄网站免费观看国产 | 免费一级特黄 欧美大片 | 偷柏自拍亚洲欧美综合在线图 | 亚洲精品国产国语 | 久在草视频 | 亚洲免费人成在线视频观看 | 欧美成人一级毛片 | 韩国一级永久免费观看网址 | 寡妇一级a毛片免费播放 | 亚洲国产综合人成综合网站00 | 亚洲国产国产综合一区首页 | 中文字幕国产一区 | 国内精品亚洲 | 韩国一级毛片大全女教师 | 一区二区三区在线观看视频 | 日本一区二区不卡久久入口 | 亚洲国产欧美自拍 | 国产精品永久免费自在线观看 | 国产一级一片免费播放刺激 | 久久91精品国产99久久yfo | 久久精品欧美日韩精品 | 国产初高中生粉嫩无套第一次 | 亚洲欧美一区二区三区久本道 | 亚洲精品亚洲一区二区 | 久操精品在线 | 欧美精品束缚一区二区三区 | 99视频精品免费99在线 | 大量愉拍情侣在线视频 | 国产亚洲毛片在线 | 欧美一区二区三区激情视频 | 97免费视频观看 | 国产精品一区高清在线观看 | 国产精品免费观看视频播放 |