关于过滤的问题

为什么关闭了过滤，就能再次爬取种子的url呢？

慕无忌0471768 2021-10-29

源自：Scrapy-Redis分布式爬虫实战 2-6 断点续爬

11

收起

1回答

好帮手慕凡 2021-10-30 10:57:23

同学，你好！

分布式爬虫Slaver端 (爬虫程序执行端) 要从redis数据库中获取爬取的链接信息，所以去掉allowed_domains() 和 start_urls，并添加redis_key，祝学习愉快~

提问者慕无忌0471768 #1

对啊，视频中为什么将dont_filter参数打开后，又可以再次爬去？

2021-10-30 15:26:37
好帮手慕凡回复提问者慕无忌0471768 #2

同学，你好！
dont_filter是scrapy过滤重复请求的，默认为False可以过滤dupefilter中已经抓取过去的请求，避免重复抓取，改为True后即为不过滤，可以再次请求爬取，scrapy提供了这个参数就是让自己去决定这个数据是应该过滤掉还是可以重复抓取，祝学习愉快~

2021-10-30 16:23:37

相似问题

关于过滤器的一点小问题

关于过滤器的问题

关于过滤器的问题

关于过滤函数的问题

关于过滤器

登录后可查看更多问答，登录/注册

Python全能工程师

参与学习人
提交作业 16317 份
解答问题 4470 个

全新版本覆盖5大热门就业方向：Web全栈、爬虫、数据分析、软件测试、人工智能，零基础进击Python全能型工程师，从大厂挑人到我挑大厂，诱人薪资在前方！

本课精华内容

问答作业

可变参数和参数规则不是很明白

54 1

为什么add_student函数报错

34 1

所有程序都突然运行不了了

39 2

请问这个下划线如何打出来才不会报错

211 30

三引号和斜杠的问题

72 1

查看更多本课问答

请稍等 ...

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号