数据爬取问题

懂球帝页面进行改版后所有的文章均放在动态标签页下，链接为https://www.dongqiudi.com/articles，经过分析后发现其中的文章会在后面添加一串数字，请问如何在爬虫程序中构造url？还有就是抓取url，发表时间和图片信息该如何编写xpath？请老师解答

钱榕 2021-08-09

源自：实战：抓取二手车网站汽车数据 6-2 项目作业

44

收起

1回答

时间，回答被采纳获得+3积分 2021-08-10 09:47:25

同学，你好！

1、打开懂球帝网站后，先在首页打开浏览器的'检查'，选择NetWork---->Fetch/XHR，再点击动态标签，可以看到返回的json文件

2、打开其中一个json文件，可以看到是英超，next是下一页数据的url，articles是页面中的每个文章

根据next可以分析出请求的url

3、articles中的url是当前文章的url，published_at是发表时间

在处理页码请求返回的数据时，可以使用json.loads()解析数据后使用for循环得到每个具体的文章，再使用get获取相应的数据

在解析详情页数据时，url和发表时间直接使用response.request.meta[]取值即可

4、图片可以直接获取图片的url

祝学习愉快！

钱榕提问者 #1

使用提供的xpath无法找到图片的url

还有就是获取到了下一页的url后应该如何进行下一步？是不是要重新调用start_request方法以发送请求？

2021-08-11 12:08:34
时间，回复提问者钱榕 #2

同学，你好！
1、同学可以看下获取详情页时请求的url是什么，若是下图中的url，则需要打开对应的网址后获取图片
2、获取到下一页的url后，应重新调用handle_page_response()方法去处理页码请求返回的数据
祝学习愉快！

2021-08-11 13:45:33
钱榕提问者回复时间， #3

该如何重新调用handle_page_response方法，直接调用会显示没有定义的错误，还是要将news_list后的代码重新输入一遍？

2021-08-11 14:33:45

点开查看后面15条评论

相似问题

关于爬虫爬取数据的问题

scrapy爬取数据不完整

main()中文本处理线程代码的位置问题

数据抓取不全的问题

老师我把page写的好大，还是能获取到数据

登录后可查看更多问答，登录/注册

4.入门主流框架Scrapy与爬虫项目实战

参与学习人
提交作业 107 份
解答问题 1672 个

Python最广为人知的应用就是爬虫了，有趣且酷的爬虫技能并没有那么遥远，本阶段带你学会利用主流Scrapy框架完成爬取招聘网站和二手车网站的项目实战。

本课精华内容

问答作业

shell脚本老是报错

45 8

没有办法取到全部城市数据，要怎么操作呢

40 3

获取全部城市的问题

111 3

那个思科的下载不了啊。。。

30 1

数据爬取问题

44 19

查看更多本课问答

请稍等 ...

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号