scrapy-redis分布式爬取

scrapy-redis分布式爬取

1⃣️ 我想问一下如果网站是post请求也是一样的操作吗

2⃣️ 最开始往redis里面噻的种子,是所有的爬虫一起均匀分配 还是说redis一个一个的取出来 看谁先抢到呢

正在回答 回答被采纳积分+1

登陆购买课程后可参与讨论,去登陆

1回答
好帮手慕小猿 2023-07-17 11:09:39

同学,你好!1、默认情况下Scrapy-Redis是发送GET请求获取数据的,对于某些使用POST请求的情况需要重写make_request_from_data函数,同学可找下其它平台资源自行扩展学习下

2、由多个爬虫同时从Redis中获取URL进行爬取。

在Scrapy-Redis中,种子URL是由所有的爬虫共享的,但是获取URL的顺序是由具体的配置来决定的。可以通过配置Redis的调度器(Scheduler)来控制URL的获取顺序。

常见的配置方式有两种:

公平调度器(FifoQueue):所有的爬虫会公平地从Redis中获取URL,每个爬虫获取的URL数量是均等的。这种方式适用于希望所有爬虫均匀分配URL的场景。

优先级调度器(PriorityQueue):每个URL都会被赋予一个优先级,爬虫会按照优先级从高到低的顺序获取URL。这种方式适用于希望某些爬虫能够更快地获取URL的场景。

祝学习愉快~

问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师