色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術(shù)文章
文章詳情頁

python 如何獲取頁面所有a標(biāo)簽下href的值

瀏覽:29日期:2022-06-20 14:31:38
看代碼吧~

# -*- coding:utf-8 -*-#python 2.7#http://tieba.baidu.com/p/2460150866#標(biāo)簽操作 from bs4 import BeautifulSoupimport urllib.requestimport re #如果是網(wǎng)址,可以用這個(gè)辦法來讀取網(wǎng)頁#html_doc = 'http://tieba.baidu.com/p/2460150866'#req = urllib.request.Request(html_doc) #webpage = urllib.request.urlopen(req) #html = webpage.read() html='''<html><head><title>The Dormouse’s story</title></head><body><p name='dromouse'><b>The Dormouse’s story</b></p><p class='story'>Once upon a time there were three little sisters; and their names were<a rel='external nofollow' rel='external nofollow' id='xiaodeng'><!-- Elsie --></a>,<a rel='external nofollow' rel='external nofollow' id='link2'>Lacie</a> and<a rel='external nofollow' id='link3'>Tillie</a>;<a rel='external nofollow' rel='external nofollow' id='xiaodeng'>Lacie</a>and they lived at the bottom of a well.</p><p class='story'>...</p>'''soup = BeautifulSoup(html, ’html.parser’) #文檔對(duì)象 #查找a標(biāo)簽,只會(huì)查找出一個(gè)a標(biāo)簽#print(soup.a)#<a rel='external nofollow' rel='external nofollow' id='xiaodeng'><!-- Elsie --></a> for k in soup.find_all(’a’): print(k) print(k[’class’])#查a標(biāo)簽的class屬性 print(k[’id’])#查a標(biāo)簽的id值 print(k[’href’])#查a標(biāo)簽的href值 print(k.string)#查a標(biāo)簽的string

如果,標(biāo)簽<a>中含有其他標(biāo)簽,比如<em>..</em>,此時(shí)要提取<a>中的數(shù)據(jù),需要用k.get_text()

soup = BeautifulSoup(html, ’html.parser’) #文檔對(duì)象#查找a標(biāo)簽,只會(huì)查找出一個(gè)a標(biāo)簽for k in soup.find_all(’a’): print(k) print(k[’class’])#查a標(biāo)簽的class屬性 print(k[’id’])#查a標(biāo)簽的id值 print(k[’href’])#查a標(biāo)簽的href值 print(k.string)#查a標(biāo)簽的string

如果,標(biāo)簽<a>中含有其他標(biāo)簽,比如<em>..</em>,此時(shí)要提取<a>中的數(shù)據(jù),需要用k.get_text()

通常我們使用下面這種模式也是能夠處理的,下面的方法使用了get()。

html = urlopen(url) soup = BeautifulSoup(html, ’html.parser’) t1 = soup.find_all(’a’) print t1 href_list = [] for t2 in t1: t3 = t2.get(’href’) href_list.append(t3)

補(bǔ)充:python爬蟲獲取任意頁面的標(biāo)簽和屬性(包括獲取a標(biāo)簽的href屬性)

看代碼吧~

# coding=utf-8 from bs4 import BeautifulSoup import requests # 定義一個(gè)獲取url頁面下label標(biāo)簽的attr屬性的函數(shù) def getHtml(url, label, attr): response = requests.get(url) response.encoding = ’utf-8’ html = response.text soup = BeautifulSoup(html, ’html.parser’); for target in soup.find_all(label): try: value = target.get(attr) except: value = ’’ if value: print(value) url = ’https://baidu.com/’ label = ’a’ attr = ’href’ getHtml(url, label, attr)

python 如何獲取頁面所有a標(biāo)簽下href的值

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 伊人国产在线视频 | 欧美特黄一区二区三区 | 亚洲一区二区三区香蕉 | 成人精品一区二区激情 | 中文字幕亚洲一区二区v@在线 | 成熟的女性强烈交性视频 | 国产精品特黄毛片 | 欧美日韩一区二区在线 | 久久精品免费观看视频 | 欧美成人亚洲欧美成人 | 国产亚洲精品一区二区 | 国产精选在线播放 | 国产高清一级片 | 69凹凸国产成人精品视频 | 一个人免费看的www 一及 片日本 | 久久国内精品自在自线观看 | 久久亚洲视频 | 欧美成人免费tv在线播放 | 91精品观看91久久久久久 | 久草中文视频 | 国产日产欧美精品一区二区三区 | 日本女人在线观看 | 欧美日韩视频一区三区二区 | 97se狠狠狠狠狠亚洲综合网 | 亚洲成人免费在线视频 | 亚洲第五色综合网啪啪 | 2020国产成人免费视频 | 中日韩一区二区三区 | 在线中文字幕日韩 | 久久久久久免费观看 | 国产综合成人亚洲区 | 国产精品黄色片 | 免费国产成人综合 | 永久免费91桃色福利 | 又黄又爽视频好爽视频 | 精品一区二区三区在线观看 | 精品久久一区二区三区 | 亚洲在线观看网站 | 国产午夜亚洲精品 | 成年人在线观看网站 | 久久久久久一品道精品免费看 |