亲爱的同学们,学练结合才能更好的掌握知识,接下来请使用 Scrapy 框架完成下面的作业吧!
作业描述
为了更加高效的进行数据抓取,请大家运用 Scrapy 框架,对目标站点 article.spbeen.com 进行爬取,获取至少5篇文章的内容,并将这些内容保存到本地的文本文件中。
抓取内容包含:标题、正文和发布日期
目标站点 url: article.spbeen.com
请注意,爬取网站内容前,务必检查网站的robots.txt文件,以确保遵守网站的使用条款。同时,不要对目标网站造成过大的访问压力,合理设置爬取速度和延迟。
评分标准是什么?
一、规范【10分】
1、类的定义、类的成员变量命名规范
2、代码结构要层次分明
3、Python 代码规范及添加适量注释
二、程序整体运行效果【20分】
实现数据的抓取和存储
三、爬虫项目分析与实现【50分】
四、数据成功写入到本地文件a.txt中【20分】