关于上一节课中屏蔽allowed_domains域名的问题
问题1:上节课在视频4分钟左右老师将allow_domains屏蔽掉了,为什么域名127.0.0.1:5000与详情页域名相同http://127.0.0.1:5000/C07L07相同还会被过滤掉
问题2:另外老师麻烦您看一下用flask搭建本地端服务器网页用于分布式爬取的实例的连接的接续
问题,我在搭建的时候出现了一个丢失模块的小问题
ModuleNotFoundError: No module named 'MySQLdb'
正在回答
同学,你好!1、Scrapy 在发起新的请求时会检查该请求的URL是否已经在去重的队列中,如果已经存在则不会再次发出同样的请求。但是通过使用 dont_filter=True 可以绕过这种默认的去重行为,确保指定的请求一定会被执行,而不受到去重的限制。视频中老师先访问的是127.0.0.1:5000/C07L07 这个地址。访问过后127.0.0.1:5000/C07L07会被放到去重队列中

当使用127.0.0.1:5000/C07L07/259发送请求时

scrapy 会检查发现127.0.0.1:5000/C07L07这个链接已经请求过了。后边不管127.0.0.1:5000/C07L07后边是什么就都不会让再请求了,给过滤出去了,所以无法请求。要设置dont_filter=true 不检查去重,才可以发送请求成功。
2、flask 框架同学尝试在当前环境下安装pymysql 模块,执行命令:pip install pymysql
并在conf.py 文件的数据库URI上加pymysql ,看能否解决。添加如下:

祝学习愉快~



恭喜解决一个难题,获得1积分~
来为老师/同学的回答评分吧
0 星