文章詳情頁

Python爬蟲JSON及JSONPath運行原理詳解

瀏覽：2日期：2022-07-22 18:46:12

JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用于進行數據交互的場景，比如網站前臺與后臺之間的數據交互。

JsonPath 是一種信息抽取類庫，是從JSON文檔中抽取指定信息的工具，提供多種語言實現版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 對于 JSON 來說，相當于 XPATH 對于 XML。

JsonPath與XPath語法對比：

Json結構清晰，可讀性高，復雜度低，非常容易匹配，下表中對應了XPath的用法。

Python爬蟲JSON及JSONPath運行原理詳解

相關推薦：《Python相關教程》

利用JSONPath爬取拉勾網上所有的城市

#!/usr/bin/env python# -*- coding:utf-8 -*-import urllib2# json解析庫，對應到lxmlimport json# json的解析語法，對應到xpathimport jsonpathurl = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'headers = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36’}request = urllib2.Request(url, headers = headers)response = urllib2.urlopen(request)# 取出json文件里的內容，返回的格式是字符串html = response.read()# 把json形式的字符串轉換成python形式的Unicode字符串unicodestr = json.loads(html)# Python形式的列表city_list = jsonpath.jsonpath(unicodestr, '$..name')#for item in city_list:# print item# dumps()默認中文為ascii編碼格式，ensure_ascii默認為Ture# 禁用ascii編碼格式，返回的Unicode字符串，方便使用array = json.dumps(city_list, ensure_ascii=False)#json.dumps(city_list)#array = json.dumps(city_list)with open('lagoucity.json', 'w') as f: f.write(array.encode('utf-8'))

結果：

Python爬蟲JSON及JSONPath運行原理詳解

糗事百科爬取

利用XPATH的模糊查詢

獲取每個帖子里的內容

保存到 json 文件內

#!/usr/bin/env python# -*- coding:utf-8 -*-import urllib2import jsonfrom lxml import etreeurl = 'http://www.qiushibaike.com/8hr/page/2/'headers = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36’}request = urllib2.Request(url, headers = headers)html = urllib2.urlopen(request).read()# 響應返回的是字符串，解析為HTML DOM模式 text = etree.HTML(html)text = etree.HTML(html)# 返回所有段子的結點位置，contains()模糊查詢方法，第一個參數是要匹配的標簽，第二個參數是標簽名部分內容node_list = text.xpath(’//div[contains(@id, 'qiushi_tag')]’)items ={}for node in node_list: # xpath返回的列表，這個列表就這一個參數，用索引方式取出來，用戶名 username = node.xpath(’./div/a/@title’)[0] # 取出標簽下的內容,段子內容 content = node.xpath(’.//div[@class='content']/span’)[0].text # 取出標簽里包含的內容，點贊 zan = node.xpath(’.//i’)[0].text # 評論 comments = node.xpath(’.//i’)[1].text items = { 'username' : username, 'content' : content, 'zan' : zan, 'comments' : comments } with open('qiushi.json', 'a') as f: f.write(json.dumps(items, ensure_ascii=False).encode('utf-8') + '')

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：解決python圖像處理圖像賦值后變為白色的問題下一條：python 實現圖像快速替換某種顏色

相關文章：

1. asp錯誤 '80040e21' 多步 OLE DB 操作產生錯誤2. 得到XML文檔大小的方法3. ASP錯誤捕獲的幾種常規處理方式4. Laravel中數據庫遷移操作的示例詳解5. JS實現一個微信錄音功能過程示例詳解6. ASP編碼必備的8條原則7. 詳解php如何合并身份證正反面圖片為一張圖片8. asp.net core項目授權流程詳解9. .NET 中配置從xml轉向json方法示例詳解10. 詳解JS前端使用迭代器和生成器原理及示例

排行榜

					
					改進JAVA字符串分解的方法
Python切割圖片成九宮格的示例代碼
Python 如何將字符串每兩個用空格隔開
python 實現aes256加密
Python使用shutil模塊實現文件拷貝
python實現梯度下降算法的實例詳解
利用python+request通過接口實現人員通行記錄上傳功能
如何用python開發Zeroc Ice應用
python實現猜數游戲(保存游戲記錄）
python計算auc的方法
Python sorted對list和dict排序