爬虫中间件和下载中间件, 作用分别是什么

爬虫中间件和下载中间件, 作用分别是什么

大可计划 2021-09-05

源自：Scrapy爬虫项目实战 1-1 课程介绍

18

收起

1回答

时间， 2021-09-05 18:31:50

同学，你好！

爬虫中间件Spider Middleware：主要功能是在爬虫运行过程中进行一些处理。主要用于处理Spider的Responses和Requests

下载器中间件Downloader Middleware：主要功能在请求到网页后，页面被下载时进行一些处理。主要用于处理Scrapy引擎与下载器之间的请求及响应。

Scrapy Engine(引擎)：用来处理整个系统的数据传递，是整个系统的核心部分。

Scheduler(调度器)：用来接受引擎发过来的Request请求, 压入队列中, 并在引擎再次请求的时候返回。

Downloader(下载器)：用于引擎发过来的Request请求对应的网页内容, 并将获取到的Responses返回给Spider。

Item Pipeline(管道)：负责处理Spider中获取的实体，对数据进行清洗，保存所需的数据。 Downloader

Middlewares(下载器中间件)：主要用于处理Scrapy引擎与下载器之间的请求及响应。

SpiderMiddlewares(爬虫中间件)：主要用于处理Spider的Responses和Requests

祝学习愉快！

提问者大可计划 #1

爬虫中间件和下载中间件, 在工作中的应用, 分别有哪些

2021-09-06 17:47:57
时间，回复提问者大可计划 #2

同学，你好！使用scrapy框架时项目在执行过程中都会用到这两个中间件，
Scheduler调度器从队列中拿出一个Request发送给Downloader执行下载，这个过程会经过DownloaderMiddleware的处理，另外，当Downloader将Response返回给Spider时会再次经过DownloadederMiddleware处理。
当Downloader生成Response之后，Response会被发送到Spider，在发送给Spider之前，Response会首先经过Spider Middleware处理，当Spider处理生成Item和Request之后，Item和Request还会经过Spider Middleware的处理
祝学习愉快！

2021-09-06 18:30:12
提问者大可计划回复时间， #3

我的意思是, 比如,
修改User-Agent, 下载图片, 用Selemium获取cookie, 都会写在下载中间件中
这两种中间件, 还有哪些功能代码, 会分别写到哪个中间件中去

2021-09-07 16:33:01

点开查看后面1条评论

相似问题

图一的意思是执行下个中间件的意思把？是执行图二的哪下个中间件？？

这个user-agent是固定的了

关于中间件的问题

这节课里说的组件和插件有什么区别？

这些文件去哪里下载啊

登录后可查看更多问答，登录/注册

Python全能工程师

参与学习人
提交作业 16435 份
解答问题 4469 个

全新版本覆盖5大热门就业方向：Web全栈、爬虫、数据分析、软件测试、人工智能，零基础进击Python全能型工程师，从大厂挑人到我挑大厂，诱人薪资在前方！

本课精华内容

问答作业

可变参数和参数规则不是很明白

54 1

为什么add_student函数报错

34 1

所有程序都突然运行不了了

39 2

请问这个下划线如何打出来才不会报错

211 30

三引号和斜杠的问题

72 1

查看更多本课问答

请稍等 ...

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号