关于网站地址问题

关于网站地址问题

https://img1.sycdn.imooc.com//climg/616d8d9309ed725c10001000.jpg

为什么我这里的网站地址跟老师的不一样,并且我将这个地址输入到start_url里是无法抓取到信息的?

正在回答 回答被采纳积分+1

登陆购买课程后可参与讨论,去登陆

2回答
小马小灰灰 2021-10-27 09:13:10

新网址可能会出现Forbidden by robots.txt的情况,可以查看返回的debug信息。因为该站点设置爬取权限为disallow,可以在setting.py中修改ROBOTSTXT_OBEY=False让Scrapy不遵守Robot协议。

好帮手慕美 2021-10-19 10:01:10

同学,你好!

1、网站改版了,所以url发生了变化,与课程中不一样的,同学使用最新的url即可

2、无法抓取信息是会报错还是什么?可以将代码和报错信息提供下,方便更好的解决问题

祝学习愉快!

  • https://img1.sycdn.imooc.com//climg/617801dd090784bc21630876.jpg

    我的情况是发生了DNSLookupError,而且使用ping命令也没有响应,不知是不是同一个问题。

    下载视频          
    2021-10-26 21:32:03
  • 同学,你好!

    1、同学在使用scrapy genspider 爬虫名 网址名命令时,对应的网址名是否正确,需要使用新的url

    https://img1.sycdn.imooc.com//climg/6178afcf092306b915510150.jpg

    https://img1.sycdn.imooc.com//climg/6178b02309fe16c904190134.jpg

    2、修改setting.py文件,将ROBOTSTXT_OBEY = True 改为False,再运行看是否可以

    祝学习愉快!

    2021-10-27 09:50:33
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师