文章詳情頁(yè)

python Scrapy框架原理解析

瀏覽：116日期：2022-06-30 14:19:23

Python 爬蟲包含兩個(gè)重要的部分：正則表達(dá)式和Scrapy框架的運(yùn)用，正則表達(dá)式對(duì)于所有語言都是通用的，網(wǎng)絡(luò)上可以找到各種資源。

如下是手繪Scrapy框架原理圖，幫助理解

python Scrapy框架原理解析

如下是一段運(yùn)用Scrapy創(chuàng)建的spider：使用了內(nèi)置的crawl模板，以利用Scrapy庫(kù)的CrawlSpider。相對(duì)于簡(jiǎn)單的爬取爬蟲來說，Scrapy的CrawlSpider擁有一些網(wǎng)絡(luò)爬取時(shí)可用的特殊屬性和方法：

$ scrapy genspider country_or_district example.python-scrapying.com--template=crawl

運(yùn)行g(shù)enspider命令后，下面的代碼將會(huì)在example/spiders/country_or_district.py中自動(dòng)生成。

# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom example.items import CountryOrDistrictItemclass CountryOrDistrictSpider(CrawlSpider): name = ’country_or_district’ allowed_domains = [’example.python-scraping.com’] start_urls = [’http://example.python-scraping.com/’] rules = ( Rule(LinkExtractor(allow=r’/index/’, deny=r’/user/’), follow=True), Rule(LinkExtractor(allow=r’/view/’, deny=r’/user/’), callback=’parse_item’), ) def parse_item(self, response): item = CountryOrDistrictItem() name_css = ’tr#places_country_or_district__row td.w2p_fw::text’ item[’name’] = response.css(name_css).extract() pop_xpath = ’//tr[@id='places_population__row']/td[@class='w2p_fw']/text()’ item[’population’] = response.xpath(pop_xpath).extract() return item

爬蟲類包括的屬性：

name: 識(shí)別爬蟲的字符串。 allowed_domains: 可以爬取的域名列表。如果沒有設(shè)置該屬性，則表示可以爬取任何域名。 start_urls: 爬蟲起始URL列表。 rules: 該屬性為一個(gè)通過正則表達(dá)式定義的Rule對(duì)象元組，用于告知爬蟲需要跟蹤哪些鏈接以及哪些鏈接包含抓取的有用內(nèi)容。

以上就是python Scrapy框架原理解析的詳細(xì)內(nèi)容，更多關(guān)于Scrapy框架原理的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：Python Selenium庫(kù)的基本使用教程下一條：如何用 Python 處理不平衡數(shù)據(jù)集

相關(guān)文章：

1. 簡(jiǎn)述JAVA同步、異步、阻塞和非阻塞之間的區(qū)別2. 使用Python3 poplib模塊刪除服務(wù)器多天前的郵件實(shí)現(xiàn)代碼3. Python TestSuite生成測(cè)試報(bào)告過程解析4. 在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法5. Java8內(nèi)存模型PermGen Metaspace實(shí)例解析6. 深入了解JAVA 軟引用7. 解決AJAX返回狀態(tài)200沒有調(diào)用success的問題8. 詳解JAVA 強(qiáng)引用9. SpringBoot集成mqtt的多模塊項(xiàng)目配置詳解10. IntelliJ IDEA設(shè)置默認(rèn)瀏覽器的方法

排行榜

					
					詳解JAVA 強(qiáng)引用
SpringBoot集成mqtt的多模塊項(xiàng)目配置詳解
Java8內(nèi)存模型PermGen Metaspace實(shí)例解析
深入了解JAVA 軟引用
在JSP中使用formatNumber控制要顯示的小數(shù)位數(shù)方法
Python TestSuite生成測(cè)試報(bào)告過程解析
使用Python3 poplib模塊刪除服務(wù)器多天前的郵件實(shí)現(xiàn)代碼
簡(jiǎn)述JAVA同步、異步、阻塞和非阻塞之間的區(qū)別
解決AJAX返回狀態(tài)200沒有調(diào)用success的問題
IntelliJ IDEA設(shè)置背景圖片的方法步驟
IntelliJ IDEA設(shè)置默認(rèn)瀏覽器的方法