需要登录的网站怎么爬取?

需要登录的网站怎么爬取?

我在爬取企查查的时候  爬取一个公司的详情页页面发现   点击html代码中的a标签中的链接的时候  企查查会自动提醒登录   导致我爬不出详情页的信息 怎么解决?求大神指导

https://img1.sycdn.imooc.com//climg/625fa50e099266dd07970284.jpg

https://img1.sycdn.imooc.com//climg/625fa51e09d2440606520104.jpg

https://img1.sycdn.imooc.com//climg/625fa5300902ff8a08290350.jpg

相关代码:

import scrapy
import xlrd
from qcc_excel.items import QccExcelItem

class QccExcel1Spider(scrapy.Spider):
    name = 'qcc_excel_1'
    allowed_domains = ['qcc.com']
    # start_urls = ['http://qcc.com/']
    def start_requests(self):
        excel = xlrd.open_workbook('company.xlsx')
        work_book = excel.sheet_by_name('Sheet1')
        for k, v in work_book.get_rows():
            company_list_url = 'https://www.qcc.com/web/search?key={}'.format(k.value)
            yield scrapy.Request(url=company_list_url,callback=self.parse)

    def parse(self, response,*args,**kwargs):
            second_url=response.xpath('//table[@class="ntable ntable-list"]/tr[1]/td[3]/div/div/span/a/@href').extract()
            yield scrapy.Request(url=second_url,callback=self.handle_second_url)


    def handle_second_url(self,response):
        info=QccExcelItem()
        info["location"]=response.xpath('//table[@class="ntable"]/tr[6]/td[4]/text()').extract_first()
        info["trades"] = response.xpath('//table[@class="ntable"]/tr[6]/td[2]/text()').extract_first()
        info["business"] = response.xpath('able[@class="ntable"]/tr[10]/td[2]/text()').extract_first()
        yield info


正在回答

登陆购买课程后可参与讨论,去登陆

1回答

同学,你好!可以手动带上已知有效的cookie。

1、先在浏览器登录相应的网站后,复制请求包里的Cookie字段值。

https://img1.sycdn.imooc.com//climg/625faccc097e59aa19050617.jpg

2、在爬虫的settings.py文件中,设置请求头的cookie为复制的值,并把COOKIES_ENABLED开关置为False,让scrapy不再对cookie进行额外处理。

https://img1.sycdn.imooc.com//climg/625fac8a09df467312550398.jpg

https://img1.sycdn.imooc.com//climg/625face00917efcd12040113.jpg

祝学习愉快!

  • 后知后觉469874 提问者 #1

    谢谢老师!爬出来了  哈哈哈

    2022-04-20 14:57:33
  • 后知后觉469874 提问者 #2

    老师  为什么我弄了一下mongodb之后  再去爬取   就没有结果了啊,弄之前运行还是成功的

    https://img1.sycdn.imooc.com//climg/625fb32309e10e9912150499.jpg

    2022-04-20 15:15:49
  • 后知后觉469874 提问者 #3

    爬出来了。。我自己不小心把东西删掉了。。


    2022-04-20 15:27:07
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师