关于爬虫爬取数据的问题

爬虫代码

import scrapy
import os

class TianSpider(scrapy.Spider):
    name = 'tian'
    allowed_domains = ['tianqi.com']
    #start_urls = ['http://lishi.tianqi.com/zhengzhou/index.html']

    def start_requests(self):
        with open(os.path.join(os.getcwd(),'spiders','brand.txt'),'r',encoding='utf-8') as f:
            all_data = f.read().split('\n')
        for data in all_data:
            url = 'http://lishi.tianqi.com/{}/index.html'.format(data.split(',')[0])
            yield scrapy.Request(url=url,callback=self.parse,meta={'item':data.split(',')[1]})

    def parse(self, response):
        all_url = response.xpath("//div[@class='linegraphborder']/div/div[4]//a/@href")
        for data in all_url:
            new_url = 'http://lishi.tianqi.com'+data.extract()
            yield scrapy.Request(url=new_url,callback=self.page_parse,meta={'item':response.meta['item']})

    def page_parse(self,response):
        all_data = response.xpath("//ul[@class='thrui']/li")
        for data in all_data:
            item = {}
            item['城市'] = response.meta['item']
            item['日期'] = data.xpath("./div[1]/text()").extract_first()[:10]
            item['最高气温'] = data.xpath("./div[2]/text()").extract_first().replace('℃','')
            item['最低气温'] = data.xpath("./div[3]/text()").extract_first().replace('℃','')
            item['天气'] = data.xpath("./div[4]/text()").extract_first()
            item['风向'] = data.xpath("./div[5]/text()").extract_first()[-2]
            yield item

老师为什么没次爬取数据量不一样，总是缺失数据

__________千 2022-04-07

源自：Scrapy爬虫项目实战 1-1 课程介绍

收起

1回答

好帮手慕凡 2022-04-07 17:43:48

同学，你好！

爬取页面过多速度过快会导致数据丢失，同学在setting中加上AUTOTHROTTLE_ENABLED = True或减少爬取页面，看数据是否一致，祝学习愉快~

收起回答

提问者 __________千 #1

老师还是不行加上这个AUTOTHROTTLE_ENABLED = True

2022-04-11 17:15:28
时间，回复提问者 __________千 #2

同学，你好！同学爬取的数据量很大访问会频繁，可以减少爬取的数据量或添加代理，避免网站识别到是爬虫。
祝学习愉快！

2022-04-11 18:16:41