关于爬虫的问题

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

# coding:utf-8
 
import requests
from bs4 import BeautifulSoup
 
 
def work_bs4(content):
    soup = BeautifulSoup(content,'lxml')
    print(soup.find_all('div',class_='e'))
def main():
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.34'
 }
    for i in range(1,2):
        url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,{}.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='.format(i)
        response = requests.get(url = url,headers = header)
        work_bs4(response.text)
 
 
if __name__ == '__main__':
    main()

老师为什么我用soup.find_all('div',class_='e')打印出来的跟网页的不一样

__________千 2021-12-02

源自：网络爬虫常用技术 1-1 本周介绍

8

收起

1回答

好帮手慕凡 2021-12-02 11:58:43

同学，你好！

网页中显示的页面是经过浏览器解释后的，使用requests请求是请求到的源码是由服务器直接返回的，所以一些网站使用request请求到的网页源码与浏览器中的网页是不一样的，如下图：我们需要获取的数据使用requests请求下来后输出在window.__SEARCH_RESULT__ 中

同学可以使用selenium自动化爬虫对该网站进行爬取，祝学习愉快~

相似问题

关于爬虫爬取数据的问题

问题

关于第2章正则表达式的应用

爬虫中间件和下载中间件, 作用分别是什么

关于web服务器和爬虫程序的部署提问

登录后可查看更多问答，登录/注册

Python全能工程师

参与学习人
提交作业 16329 份
解答问题 4470 个

全新版本覆盖5大热门就业方向：Web全栈、爬虫、数据分析、软件测试、人工智能，零基础进击Python全能型工程师，从大厂挑人到我挑大厂，诱人薪资在前方！

本课精华内容

问答作业

可变参数和参数规则不是很明白

54 1

为什么add_student函数报错

34 1

所有程序都突然运行不了了

39 2

请问这个下划线如何打出来才不会报错

211 30

三引号和斜杠的问题

72 1

查看更多本课问答

请稍等 ...

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号