关于上一节课中屏蔽allowed_domains域名的问题

关于上一节课中屏蔽allowed_domains域名的问题

问题1:上节课在视频4分钟左右老师将allow_domains屏蔽掉了,为什么域名127.0.0.1:5000与详情页域名相同http://127.0.0.1:5000/C07L07相同还会被过滤掉

问题2:另外老师麻烦您看一下用flask搭建本地端服务器网页用于分布式爬取的实例的连接的接续

问题,我在搭建的时候出现了一个丢失模块的小问题

ModuleNotFoundError: No module named 'MySQLdb'


正在回答

登陆购买课程后可参与讨论,去登陆

1回答

同学,你好!1、Scrapy 在发起新的请求时会检查该请求的URL是否已经在去重的队列中,如果已经存在则不会再次发出同样的请求。但是通过使用 dont_filter=True 可以绕过这种默认的去重行为,确保指定的请求一定会被执行,而不受到去重的限制。视频中老师先访问的是127.0.0.1:5000/C07L07 这个地址。访问过后127.0.0.1:5000/C07L07会被放到去重队列中

https://img1.sycdn.imooc.com/climg/661894f60925472502460037.jpg

当使用127.0.0.1:5000/C07L07/259发送请求时

https://img1.sycdn.imooc.com/climg/661896c7094ce5cf02910035.jpg

scrapy 会检查发现127.0.0.1:5000/C07L07这个链接已经请求过了。后边不管127.0.0.1:5000/C07L07后边是什么就都不会让再请求了,给过滤出去了,所以无法请求。要设置dont_filter=true 不检查去重,才可以发送请求成功。

2、flask 框架同学尝试在当前环境下安装pymysql 模块,执行命令:pip install pymysql 

并在conf.py 文件的数据库URI上加pymysql ,看能否解决。添加如下:

https://img1.sycdn.imooc.com/climg/6618994a092edd4308470257.jpg


祝学习愉快~

  • 懒惰的围脖 提问者 #1

    https://img1.sycdn.imooc.com/climg/6618b189098cb2d813710882.jpg

    下载完成pymysql模块 运行

    flask run -h 0.0.0.0 0 -p 5000

    依然无法成功在此环境下运行flask

    2024-04-12 12:00:07
  • 好帮手慕小猿 回复 提问者 懒惰的围脖 #2

    同学,你好!同学多写了一个0

    https://img1.sycdn.imooc.com/climg/6618b792093ba61a04910127.jpg

    祝学习愉快~

    2024-04-12 12:25:03
  • 懒惰的围脖 提问者 回复 好帮手慕小猿 #3

    https://img1.sycdn.imooc.com/climg/6618fc62091ceb0113710882.jpg

    老师5000端口被占用了,如何换一个端口进行测试?

    2024-04-12 17:19:20
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师