文章詳情頁

Python爬蟲框架之Scrapy中Spider的用法

瀏覽：82日期：2022-06-15 16:15:13

Scrapy中Spider的用法

Spider類定義了如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化數據(爬取item)。換句話說，Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。

對spider來說，爬取的循環類似下文:

1.以初始的URL初始化Request，并設置回調函數。當該request下載完畢并返回時，將生成response，并作為參數傳給該回調函數。spider中初始的request是通過調用start_requests()來獲取的。start_requests()讀取start_urls中的URL，并以parse為回調函數生成Request。

2.在回調函數內分析返回的(網頁)內容，返回ltem對象或者Request或者一個包括二者的可迭代容器。返回的Request對象之后會經過Scrapy處理，下載相應的內容，并調用設置的callback函數(函數可相同)。

3.在回調函數內，您可以使用選擇器(Selectors)(您也可以使用BeautifulSoup, Ixml或者您想用的任何解析器)來分析網頁內容，并根據分析的數據生成item。

4.最后，由spider返回的item將被存到數據庫(由某些ltem Pipeline處理)或使用Feed exports存入到文件中。

雖然該循環對任何類型的spider都(多少)適用，但Scrapy仍然為了不同的需求提供了多種默認spider。之后將討論這些spider。

Spider

scrapy.spider.Spider是最簡單的spider。每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。其僅僅請求給定的start_urls / start_requests，并根據返回的結果(resulting responses)調用spider的 parse方法。

name

定義spider名字的字符串(string)。spider的名字定義了Scrapy如何定位(并初始化) spider，所以其必須是唯一的。不過您可以生成多個相同的spider實例(instance)，這沒有任何限制。name是spider最重要的屬性，而且是必須的。

如果該spider爬取單個網站(single domain)，一個常見的做法是以該網站(domain)(加或不加后綴)來命名spider。例如，如果spider爬取 mywebsite.com，該spider通常會被命名為mywebsite。

allowed_domains

可選。包含了spider允許爬取的域名(domain)列表(list)。當OffsiteMiddleware啟用時，域名不在列表中的URL不會被跟進。

start_urls

URL列表。當沒有制定特定的URL時，spider將從該列表中開始進行爬取。因此，第一個被獲取到的頁面的URL將是該列表之一。后續的URL將會從獲取到的數據中提取。

start_requests()

該方法必須返回一個可迭代對象(iterable)。該對象包含了spider用于爬取的第一個Request。

當spider啟動爬取并且未制定URL時，該方法被調用。當指定了URL時,make_requests_from_url()將被調用來創建Request對象。該方法僅僅會被Scrapy調用一次，因此您可以將其實現為生成器。

該方法的默認實現是使用start_urls的url生成Request。

如果您想要修改最初爬取某個網站的Request對象，您可以重寫(override)該方法。例如，如果您需要在啟動時以POST登錄某個網站，你可以這么寫:

def start_requests(self) : return [scrapy.FormRequest('http : / /ww. example.com/login'，formdata={ ’user’ : ’john’, ’ pass ’ : ’secret’},ca77back=se1f.1ogged_in)] def logged_in(self，response) :## here you would extract links to follow and return Requests for## each of them，with another ca77backpass

parse

當response沒有指定回調函數時，該方法是Scrapy處理下載的response的默認方法。

parse負責處理response并返回處理的數據以及(/或)跟進的URL。Spider對其他的Request的回調函數也有相同的要求。

該方法及其他的Request回調函數必須返回一個包含Request 及(或) ltem的可迭代的對象。

參數: response-用于分析的response

啟動方式

start_urls

start_urls是一個列表

start_requests

使用start_requests()重寫start_ur1s，要使用Request()方法自己發送請求:

def start_requests(se7f): '''重寫start_urls 規則''' yield scrapy.Request(ur1=’http://quotes.toscrape.com/page/1/’cal1back=self.parse)

scrapy.Request

scrapy.Request是一個請求對象，創建時必須制定回調函數。

數據保存

可以使用-o將數據保存為常見的格式(根據后綴名保存)支持的格式有下面幾種：

json jsonlines jl csv xml marshal pickle

使用方式:

scrapy crawl quotes2 -o a.json

案例: Spider樣例

##一*- coding: utf-8 -*- import scrapy clTass Quotes2spider(scrapy.spider): name = ’quotes2’ a7lowed_domains = [ ’toscrape.com ’ ] start_urls = [ ’ http: //quotes.toscrape.com/ page/2/ ’] def parse(self，response):quotes = response.css(’.quote ’ )for quote in quotes: text = quote.css( ’.text: : text ’ ).extract_first() auth = quote.css( ’.author : :text ’).extract_first() tages = quote.css(’.tags a: :text’ ).extract() yield dict(text=text , auth=auth, tages=tages)

到此這篇關于Python爬蟲框架之Scrapy中Spider的用法的文章就介紹到這了,更多相關Spider的用法內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：Pandas數據類型之category的用法下一條：Python for 循環語句的使用

相關文章：

1. 如何在jsp界面中插入圖片2. 如何通過vscode運行調試javascript代碼3. HTML <!DOCTYPE> 標簽4. JS數據類型判斷的幾種常用方法5. Ajax實現頁面無刷新留言效果6. WML語言的基本情況7. python基于tkinter制作無損音樂下載工具(附源碼)8. ajax請求后臺得到json數據后動態生成樹形下拉框的方法9. JSP+Servlet實現文件上傳到服務器功能10. 用Python實現定時備份Mongodb數據并上傳到FTP服務器

排行榜

					
					如何在jsp界面中插入圖片
HTML <!DOCTYPE> 標簽
如何通過vscode運行調試javascript代碼
JS數據類型判斷的幾種常用方法
IntelliJ IDEA導入jar包的方法
Java Swing實現坦克大戰游戲
Android內存溢出及內存泄漏原因進解析
Android啟動頁優化之實現應用秒開
Java 跨域問題的處理方式
JSP+Servlet實現文件上傳到服務器功能
ajax請求后臺得到json數據后動態生成樹形下拉框的方法