获取网页源码问题

相关代码：

def crawl_website(self, url):
    """
    抓取订单数据
    :param url: 订单页面的URL
    :return:
    """
    print("开始抓取订单数据")
    self.driver.get(url=url)
    while True:
        # 判断是否进入到订单页面
        if WebDriverWait(self.driver, 5, 0.5).until(EC.presence_of_element_located((By.CLASS_NAME, "pagination"))):
            # page_source就是网页源代码
            self.parse_html(content=self.driver.page_source)
            # 点击翻页
            self.driver.find_element_by_xpath("//button[@class='btn-next']").click()
            if self.driver.find_element_by_xpath("//button[@class='btn-next']").get_attribute("disabled"):
                break
    # 拿到数据之后，执行浏览器退出
    self.driver.quit()

问题描述：

请问为什么driver.get()在循环的外面，这样理解起来像是下面的循环其实每次都是处理同一个页面，能否解释一下呢?

慕的地2111885 2022-07-03

源自：可视化爬虫框架Selenium 4-5 订单数据分页抓取并实现入库

收起

1回答

好帮手慕凡回答被采纳获得+3积分 2022-07-03 10:22:55

同学，你好！

selenium框架可以操作浏览器界面，在代码self.driver.find_element_by_xpath("//button[@class='btn-next']").click()点击翻页处进行点击，即可翻页到下一个页面，就不需要使用driver.get()请求页面，祝学习愉快~

收起回答

慕的地2111885 提问者 #1

你好
点击下一页后，不需要重新get()新的页面吗? 那这样xpath分析的content不还是旧的页面的page source吗?

2022-07-03 13:52:58
好帮手慕凡回复提问者慕的地2111885 #2

同学，你好！
selenium框架可以模拟人类操作页面，人类在点击下一页后，页面会进行跳转，不需要再次输入网址进行请求了，祝学习愉快~

2022-07-03 14:06:21