色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁技術文章
文章詳情頁

python - scrapy url去重

瀏覽:103日期:2022-08-24 16:35:16

問題描述

請問scrapy是url自動去重的嗎?比如下面這段代碼,為什么運行時start_urls里面的重復url會重復爬取了?

class TestSpider(scrapy.Spider): name = 'test' allowed_domains = ['baidu.com'] start_urls = [’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, ’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’,] def parse(self, response):for sel in response.xpath(’//p[@class='grid-list grid-list-spot']/ul/li’): item = TestspiderItem() item[’title’] = sel.xpath(’p[@class='list']/a/text()’)[0].extract() item[’link’] = sel.xpath(’p[@class='list']/a/@href’)[0].extract() yield item

問題解答

回答1:

建一個Url管理器,就不會重復抓取了

回答2:

知道了,改成這樣就可以了。

def start_requests(self):

yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)yield scrapy.Request(’http://baike.baidu.com/fenlei/%E5%A8%B1%E4%B9%90%E4%BA%BA%E7%89%A9’, self.parse)

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 中文国产成人精品久久96 | 国产香蕉成人综合精品视频 | 五月色婷婷琪琪综合伊人 | 欧美一区不卡二区不卡三区 | 日韩一级影片 | 日韩一级 | 91成人午夜在线精品 | 中美日韩在线网免费毛片视频 | 97视频在线观看免费播放 | 99re66热这里只有精品免费观看 | 国产精品久久九九 | 久久天天躁综合夜夜黑人鲁色 | 91.久久| 久久免费视频2 | 中文字幕亚洲精品久久 | 久久精品国产欧美日韩亚洲 | 中国成人免费视频 | 国产成人免费片在线观看 | 久久精品免视着国产成人 | 亚洲va在线va天堂va四虎 | 99久久国产综合精品2020 | 国产成人亚洲综合欧美一部 | 亚洲精品国产成人专区 | 一区二区三区四区在线 | 一级毛片视频播放 | 国产成人啪精品视频免费软件 | 高清不卡日本v在线二区 | 国产91香蕉 | 在线免费亚洲 | 久久综合久久美利坚合众国 | japanesetubesexfree | 呦视频在线一区二区三区 | 在线看片中文字幕 | 亚洲国产成人综合 | 亚洲欧洲日产国产 最新 | 亚洲久久视频 | 亚洲精品视频免费 | 国产成人91一区二区三区 | 久久精品九九 | 久久久精品免费观看 | 一区不卡在线观看 |