scrapy-redis分布式爬取

1⃣️ 我想问一下如果网站是post请求也是一样的操作吗

2⃣️ 最开始往redis里面噻的种子，是所有的爬虫一起均匀分配还是说redis一个一个的取出来看谁先抢到呢

AmoXiang 2023-07-17

源自：Scrapy-Redis分布式爬虫实战 4-1 课程总结

5

收起

1回答

好帮手慕小猿 2023-07-17 11:09:39

同学，你好！1、默认情况下Scrapy-Redis是发送GET请求获取数据的，对于某些使用POST请求的情况需要重写make_request_from_data函数，同学可找下其它平台资源自行扩展学习下

2、由多个爬虫同时从Redis中获取URL进行爬取。

在Scrapy-Redis中，种子URL是由所有的爬虫共享的，但是获取URL的顺序是由具体的配置来决定的。可以通过配置Redis的调度器(Scheduler)来控制URL的获取顺序。

常见的配置方式有两种：

公平调度器(FifoQueue)：所有的爬虫会公平地从Redis中获取URL，每个爬虫获取的URL数量是均等的。这种方式适用于希望所有爬虫均匀分配URL的场景。

优先级调度器(PriorityQueue)：每个URL都会被赋予一个优先级，爬虫会按照优先级从高到低的顺序获取URL。这种方式适用于希望某些爬虫能够更快地获取URL的场景。

祝学习愉快~

相似问题

问题

问一下scrapy_redis，分布式爬虫如何分发URL请求给不同的爬虫程序

关于过滤的问题

redis分布式爬虫执行的时候，报错

目前这个课程和“Python分布式爬虫必学框架Scrapy打造搜索引擎（升级版）”

登录后可查看更多问答，登录/注册

Python全能工程师

参与学习人
提交作业 16436 份
解答问题 4469 个

全新版本覆盖5大热门就业方向：Web全栈、爬虫、数据分析、软件测试、人工智能，零基础进击Python全能型工程师，从大厂挑人到我挑大厂，诱人薪资在前方！

本课精华内容

问答作业

可变参数和参数规则不是很明白

54 1

为什么add_student函数报错

34 1

所有程序都突然运行不了了

39 2

请问这个下划线如何打出来才不会报错

211 30

三引号和斜杠的问题

72 1

查看更多本课问答

请稍等 ...

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号