关于网站地址问题

为什么我这里的网站地址跟老师的不一样，并且我将这个地址输入到start_url里是无法抓取到信息的？

慕无忌0471768 2021-10-18

源自：异步网络爬虫框架Scrapy 3-3 明确抓取目标

32

收起

2回答

小马小灰灰 2021-10-27 09:13:10

新网址可能会出现Forbidden by robots.txt的情况，可以查看返回的debug信息。因为该站点设置爬取权限为disallow，可以在setting.py中修改ROBOTSTXT_OBEY=False让Scrapy不遵守Robot协议。

时间， 2021-10-19 10:01:10

同学，你好！

1、网站改版了，所以url发生了变化，与课程中不一样的，同学使用最新的url即可

2、无法抓取信息是会报错还是什么？可以将代码和报错信息提供下，方便更好的解决问题

祝学习愉快！

小马小灰灰 #1

我的情况是发生了DNSLookupError，而且使用ping命令也没有响应，不知是不是同一个问题。
下载视频

2021-10-26 21:32:03
时间，回复小马小灰灰 #2

同学，你好！
1、同学在使用scrapy genspider 爬虫名网址名命令时，对应的网址名是否正确，需要使用新的url
2、修改setting.py文件，将ROBOTSTXT_OBEY = True 改为False，再运行看是否可以
祝学习愉快！

2021-10-27 09:50:33

相似问题

请问能解释一个网址和url的区别吗？

慕旅游网址

怎么区分IP地址的网络部分？

phpstudy用ip地址登录网站

关于局部httpps安全问题

登录后可查看更多问答，登录/注册

Python全能工程师

参与学习人
提交作业 16436 份
解答问题 4469 个

全新版本覆盖5大热门就业方向：Web全栈、爬虫、数据分析、软件测试、人工智能，零基础进击Python全能型工程师，从大厂挑人到我挑大厂，诱人薪资在前方！

本课精华内容

问答作业

可变参数和参数规则不是很明白

54 1

为什么add_student函数报错

34 1

所有程序都突然运行不了了

39 2

请问这个下划线如何打出来才不会报错

211 30

三引号和斜杠的问题

72 1

查看更多本课问答

请稍等 ...

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号