关于过滤的问题

关于过滤的问题

为什么关闭了过滤,就能再次爬取种子的url呢?

正在回答 回答被采纳积分+1

登陆购买课程后可参与讨论,去登陆

1回答
好帮手慕凡 2021-10-30 10:57:23

同学,你好!

分布式爬虫Slaver端 (爬虫程序执行端) 要从redis数据库中获取爬取的链接信息,所以去掉allowed_domains() 和 start_urls,并添加redis_key,祝学习愉快~


  • 提问者 慕无忌0471768 #1

    对啊,视频中为什么将dont_filter参数打开后,又可以再次爬去?

    2021-10-30 15:26:37
  • 好帮手慕凡 回复 提问者 慕无忌0471768 #2

    同学,你好!

    dont_filter是scrapy过滤重复请求的,默认为False可以过滤dupefilter中已经抓取过去的请求,避免重复抓取,改为True后即为不过滤,可以再次请求爬取,scrapy提供了这个参数就是让自己去决定这个数据是应该过滤掉还是可以重复抓取,祝学习愉快~

    2021-10-30 16:23:37
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师