文章詳情頁

Python使用Chrome插件實現(xiàn)爬蟲過程圖解

瀏覽：3日期：2022-07-21 18:36:06

做電商時，消費者對商品的評論是很重要的，但是不會寫代碼怎么辦？這里有個Chrome插件可以做到簡單的數(shù)據(jù)爬取，一句代碼都不用寫。下面給大家展示部分抓取后的數(shù)據(jù)：

可以看到，抓取的地址，評論人，評論內(nèi)容，時間，產(chǎn)品顏色都已經(jīng)抓取下來了。那么，爬取這些數(shù)據(jù)需要哪些工具呢？就兩個：

1. Chrome瀏覽器；

2. 插件：Web Scraper

插件下載地址：https://chromecj.com/productivity/2018-05/942.html

最后，如果你想自己動手抓取一下，這里是這次抓取的詳細過程：

1. 首先，復制如下的代碼，對，你不需要寫代碼，但是為了便于上手，復制代碼還是需要的，后續(xù)可以自己定制和選擇，不需要寫代碼。

{ '_id': 'jdreview', 'startUrl': [ 'https://item.jd.com/100000680365.html#comment' ], 'selectors': [ { 'id': 'user', 'type': 'SelectorText', 'selector': 'div.user-info', 'parentSelectors': ['main' ], 'multiple': false, 'regex': '', 'delay': 0 }, { 'id': 'comments', 'type': 'SelectorText', 'selector': 'div.comment-column > p.comment-con', 'parentSelectors': ['main' ], 'multiple': false, 'regex': '', 'delay': 0 }, { 'id': 'time', 'type': 'SelectorText', 'selector': 'div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)', 'parentSelectors': ['main' ], 'multiple': false, 'regex': '', 'delay': '0' }, { 'id': 'color', 'type': 'SelectorText', 'selector': 'div.order-info span:nth-of-type(1)', 'parentSelectors': ['main' ], 'multiple': false, 'regex': '', 'delay': 0 }, { 'id': 'main', 'type': 'SelectorElementClick', 'selector': 'div.comment-item', 'parentSelectors': ['_root' ], 'multiple': true, 'delay': '10000', 'clickElementSelector': 'div.com-table-footer a.ui-pager-next', 'clickType': 'clickMore', 'discardInitialElements': false, 'clickElementUniquenessType': 'uniqueHTMLText' } ]}

2. 然后打開chrome瀏覽器，在任意頁面同時按下Ctrl+Shift+i，在彈出的窗口中找到Web Scraper，如下：

Python使用Chrome插件實現(xiàn)爬蟲過程圖解

3. 如下

Python使用Chrome插件實現(xiàn)爬蟲過程圖解

4. 如圖，粘貼上述的代碼：

Python使用Chrome插件實現(xiàn)爬蟲過程圖解

5. 如圖，如果需要定制網(wǎng)址，注意替代一下，網(wǎng)址后面的#comment是直達評論的鏈接，不能去掉：

Python使用Chrome插件實現(xiàn)爬蟲過程圖解

6. 如圖：

Python使用Chrome插件實現(xiàn)爬蟲過程圖解

7. 如圖：

Python使用Chrome插件實現(xiàn)爬蟲過程圖解

8. 如圖，點擊Scrape后，會自動運行打開需要抓取得頁面，不要關(guān)閉窗口，靜靜等待完成，完成后右下方會提示完成，一般1000條以內(nèi)的評論不會有問題：

Python使用Chrome插件實現(xiàn)爬蟲過程圖解

9. 最后，點擊下載到電腦，數(shù)據(jù)保存好。

Python使用Chrome插件實現(xiàn)爬蟲過程圖解

使用這個工具的好處是：

1. 不需要編程；

2. 京東的評論基本可以通用此腳本，修改對應的url即可；

3. 如果需要爬取的評論不到1000條，這個工具會非常稱手，所有的數(shù)據(jù)完全自動下載；

使用的注意點：

1. 抓取過一次的數(shù)據(jù)會有記錄，立刻再次抓取將不會保存，建議關(guān)閉瀏覽器重新打開后再試；

2. 抓取數(shù)量:1000條以內(nèi)沒有問題，可能是京東按照IP直接阻止了更多的爬?。?/p>

如果你的英語水平不錯，可以嘗試閱讀官方文檔，進一步學習和定制自己的爬蟲。

官方教程：https://www.webscraper.io/documentation

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網(wǎng)。

Python 編程

上一條：如何用python處理excel表格下一條：Python導入數(shù)值型Excel數(shù)據(jù)并生成矩陣操作

相關(guān)文章：

1. JavaScript Reduce使用詳解2. 簡述JAVA同步、異步、阻塞和非阻塞之間的區(qū)別3. 深入了解JAVA 軟引用4. 在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法5. SpringBoot集成mqtt的多模塊項目配置詳解6. 解決AJAX返回狀態(tài)200沒有調(diào)用success的問題7. SpringBoot集成Redisson實現(xiàn)延遲隊列的場景分析8. 使用Python3 poplib模塊刪除服務器多天前的郵件實現(xiàn)代碼9. Python TestSuite生成測試報告過程解析10. 詳解JAVA 強引用

排行榜

					
					JavaScript Reduce使用詳解
詳解JAVA 強引用
SpringBoot集成mqtt的多模塊項目配置詳解
深入了解JAVA 軟引用
在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法
Python TestSuite生成測試報告過程解析
使用Python3 poplib模塊刪除服務器多天前的郵件實現(xiàn)代碼
簡述JAVA同步、異步、阻塞和非阻塞之間的區(qū)別
解決AJAX返回狀態(tài)200沒有調(diào)用success的問題
IntelliJ IDEA設置背景圖片的方法步驟
IntelliJ IDEA設置默認瀏覽器的方法