scrapy-redis分布式爬取
1⃣️ 我想问一下如果网站是post请求也是一样的操作吗
2⃣️ 最开始往redis里面噻的种子,是所有的爬虫一起均匀分配 还是说redis一个一个的取出来 看谁先抢到呢
5
收起
正在回答 回答被采纳积分+1
1回答
好帮手慕小猿
2023-07-17 11:09:39
同学,你好!1、默认情况下Scrapy-Redis是发送GET请求获取数据的,对于某些使用POST请求的情况需要重写make_request_from_data函数,同学可找下其它平台资源自行扩展学习下
2、由多个爬虫同时从Redis中获取URL进行爬取。
在Scrapy-Redis中,种子URL是由所有的爬虫共享的,但是获取URL的顺序是由具体的配置来决定的。可以通过配置Redis的调度器(Scheduler)来控制URL的获取顺序。
常见的配置方式有两种:
公平调度器(FifoQueue):所有的爬虫会公平地从Redis中获取URL,每个爬虫获取的URL数量是均等的。这种方式适用于希望所有爬虫均匀分配URL的场景。
优先级调度器(PriorityQueue):每个URL都会被赋予一个优先级,爬虫会按照优先级从高到低的顺序获取URL。这种方式适用于希望某些爬虫能够更快地获取URL的场景。
祝学习愉快~
Python全能工程师
- 参与学习 人
- 提交作业 16233 份
- 解答问题 4470 个
全新版本覆盖5大热门就业方向:Web全栈、爬虫、数据分析、软件测试、人工智能,零基础进击Python全能型工程师,从大厂挑人到我挑大厂,诱人薪资在前方!
了解课程
恭喜解决一个难题,获得1积分~
来为老师/同学的回答评分吧
0 星