a標簽 url 正則怎么寫(python 或者js)
問題描述
<a target='blank'></a><a target='blank'></a><a target='blank'></a><a target='blank'></a><a target='blank'></a><a target='blank'></a>
我要取 href里的鏈接
6個鏈接 前三個符合條件 正則怎么寫(即鏈接中必須帶有參數viewkey page viewtype category)
第二個和第三個鏈接相同 怎么去重復(python下)
問題解答
回答1:# python 2.7import rea = ’’’<a target='blank'></a><a target='blank'></a><a target='blank'></a><a target='blank'></a><a target='blank'></a><a target='blank'></a>’’’print set(re.findall(’’’(?=.*(?:viewkey))(?=.*(?:page))(?=.*(?:viewtype))(?=.*(?:category))href=['’]([^’']+)’’’, a))回答2:
提取前三個鏈接:
links= re.findall(r’href='http://www.lshqa.cn/wenda/(.*?=rf)'’,l_string,re.S)
去重:
new_links=set(links)
相關文章:
1. Python爬蟲如何爬取span和span中間的內容并分別存入字典里?2. mysql - 把一個表中的數據count更新到另一個表里?3. 請教使用PDO連接MSSQL數據庫插入是亂碼問題?4. python - 爬蟲模擬登錄后,爬取csdn后臺文章列表遇到的問題5. visual-studio - Python OpenCV: 奇怪的自動補全問題6. linux - Ubuntu下編譯Vim8(+python)無數次編譯失敗7. node.js - nodejs開發中常用的連接mysql的庫8. mysql 查詢身份證號字段值有效的數據9. 視頻文件不能播放,怎么辦?10. mysql - 分庫分表、分區、讀寫分離 這些都是用在什么場景下 ,會帶來哪些效率或者其他方面的好處
