住抓取过程中的域名问题

住抓取过程中的域名问题


https://img1.sycdn.imooc.com//climg/616d96ae096486d710001000.jpg

修改allowed_domains时,改为上述这种,却并未抓取到,而把前面的https://的去掉却可以抓取到,这是为什么?

正在回答 回答被采纳积分+1

登陆购买课程后可参与讨论,去登陆

1回答
好帮手慕凡 2021-10-19 10:35:25

同学,你好!

xiaoguotu.to8to.com是域名,https:// 是协议,当指定域名范围时,写上域名即可,祝学习愉快~

  • 提问者 慕无忌0471768 #1

    那直接设置url就行了,为什么还要设置域名?

    2021-10-19 10:44:19
  • 好帮手慕凡 回复 提问者 慕无忌0471768 #2

    同学,你好!

    防止在爬取过程中,跳到其他网站进行爬取,所以对域名加了限制,不在此允许范围内的域名就会被过滤,而不会进行爬取,祝学习愉快~

    2021-10-19 10:53:31
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星

相似问题

登录后可查看更多问答,登录/注册

请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师