文章詳情頁

記一次python 爬蟲爬取深圳租房信息的過程及遇到的問題

瀏覽：97日期：2022-07-04 14:54:39

為了分析深圳市所有長租、短租公寓的信息，爬取了某租房公寓網(wǎng)站上深圳區(qū)域所有在租公寓信息，以下記錄了爬取過程以及爬取過程中遇到的問題：

爬取代碼：

import requestsfrom requests.exceptions import RequestExceptionfrom pyquery import PyQuery as pqfrom bs4 import BeautifulSoupimport pymongofrom config import *from multiprocessing import Poolclient = pymongo.MongoClient(MONGO_URL) # 申明連接對象db = client[MONGO_DB] # 申明數(shù)據(jù)庫def get_one_page_html(url): # 獲取網(wǎng)站每一頁的html headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/85.0.4183.121 Safari/537.36' } try: response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: return None except RequestException: return Nonedef get_room_url(html): # 獲取當(dāng)前頁面上所有room_info的url doc = pq(html) room_urls = doc(’.r_lbx .r_lbx_cen .r_lbx_cena a’).items() return room_urlsdef parser_room_page(room_html): soup = BeautifulSoup(room_html, ’lxml’) title = soup.h1.text price = soup.find(’div’, {’class’: ’room-price-sale’}).text[:-3] x = soup.find_all(’div’, {’class’: ’room-list’}) area = x[0].text[7:-11] # 面積 bianhao = x[1].text[4:] house_type = x[2].text.strip()[3:7] # 戶型 floor = x[5].text[4:-2] # 樓層 location1 = x[6].find_all(’a’)[0].text # 分區(qū) location2 = x[6].find_all(’a’)[1].text location3 = x[6].find_all(’a’)[2].text subway = x[7].text[4:] addition = soup.find_all(’div’, {’class’: ’room-title’})[0].text yield { ’title’: title, ’price’: price, ’area’: area, ’bianhao’: bianhao, ’house_type’: house_type, ’floor’: floor, ’location1’: location1, ’location2’: location2, ’location3’: location3, ’subway’: subway, ’addition’: addition }def save_to_mongo(result): if db[MONGO_TABLE].insert_one(result): print(’存儲(chǔ)到mongodb成功’, result) return True return Falsedef main(page): url = ’http://www.xxxxx.com/room/sz?page=’ + str(page) # url就不粘啦，嘻嘻 html = get_one_page_html(url) room_urls = get_room_url(html) for room_url in room_urls: room_url_href = room_url.attr(’href’) room_html = get_one_page_html(room_url_href) if room_html is None: # 非常重要，否則room_html為None時(shí)會(huì)報(bào)錯(cuò) pass else: results = parser_room_page(room_html) for result in results:save_to_mongo(result)if __name__ == ’__main__’: pool = Pool() # 使用多進(jìn)程提高爬取效率 pool.map(main, [i for i in range(1, 258)])

在寫爬取代碼過程中遇到了兩個(gè)問題：

（一）在get_room_url(html)函數(shù)中，開始是想直接return每個(gè)租房信息的room_url，但是return不同于print，函數(shù)運(yùn)行到return時(shí)就會(huì)結(jié)束該函數(shù)，這樣就只能返回每頁第一個(gè)租房room_url。解決辦法是：return 包含每頁所有room_url的generator生成器，在main函數(shù)中用for循環(huán)遍歷，再從每個(gè)room_url中獲取href，傳入到get_one_page_html(room_url_href)中進(jìn)行解析。

（二）沒有寫第76行的if語句，我默認(rèn)get_one_page_html(room_url_href)返回的room_html不為空，因此出現(xiàn)multiprocessing.pool.RemoteTraceback報(bào)錯(cuò)：

記一次python 爬蟲爬取深圳租房信息的過程及遇到的問題

上圖中顯示markup為None情況下報(bào)錯(cuò)，點(diǎn)擊藍(lán)色'F:ProgramFilesanaconda3libsite-packagesbs4__init__.py'發(fā)現(xiàn)markup為room_html，即部分room_html出現(xiàn)None情況。要解決這個(gè)問題，必須讓代碼跳過room_html is None的情況，因此添加 if 語句解決了這個(gè)問題。

最終成功爬取某租房公寓深圳市258頁共4755條租房信息，為下一步進(jìn)行數(shù)據(jù)分析做準(zhǔn)備。

記一次python 爬蟲爬取深圳租房信息的過程及遇到的問題

其中單條信息：

記一次python 爬蟲爬取深圳租房信息的過程及遇到的問題

以上就是記一次python 爬蟲爬取深圳租房信息的過程及遇到的問題的詳細(xì)內(nèi)容，更多關(guān)于python 爬蟲的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：Python調(diào)用Redis的示例代碼下一條：python opencv角點(diǎn)檢測連線功能的實(shí)現(xiàn)代碼

相關(guān)文章：

1. Android 7.0 運(yùn)行時(shí)權(quán)限彈窗問題的解決2. java實(shí)現(xiàn)圖形化界面計(jì)算器3. IntelliJ IDEA設(shè)置條件斷點(diǎn)的方法步驟4. IDEA的Mybatis Generator駝峰配置問題5. ASP.NET MVC解決上傳圖片臟數(shù)據(jù)的方法6. 如何利用python和DOS獲取wifi密碼7. Thinkphp3.2.3反序列化漏洞實(shí)例分析8. python Xpath語法的使用9. 原生js XMLhttprequest請求onreadystatechange執(zhí)行兩次的解決10. python 批量將PPT導(dǎo)出成圖片集的案例

排行榜

					
					Android 7.0 運(yùn)行時(shí)權(quán)限彈窗問題的解決
java實(shí)現(xiàn)圖形化界面計(jì)算器
IDEA的Mybatis Generator駝峰配置問題
IntelliJ IDEA設(shè)置條件斷點(diǎn)的方法步驟
如何利用python和DOS獲取wifi密碼
Spring中的AutowireCandidateResolver的具體使用詳解
Python使用xpath實(shí)現(xiàn)圖片爬取
Android實(shí)現(xiàn)View滑動(dòng)效果的6種方法
Android Studio升級3.6 Build窗口出現(xiàn)中文亂碼問題解決方法
Java基于字符界面的簡易收銀臺(tái)
JAVA初探設(shè)計(jì)模式的六大原則