如何爬取<a>标签内的title=""信息获得评论区的用户名？

老师您好，我目前正在模仿您的案例爬取《肖生克的救赎》中用户名和对应的评论，目前不太清楚如何爬取到用户名信息

import requests
from bs4 import BeautifulSoup

# 获取豆瓣电影评论信息
headers = {'user-agent': 'my-app/0.0.1'}
# 《肖生克的救赎》短评链接
url = "https://movie.douban.com/subject/1292052/comments"
movie_comments = []
user_names = []
start = 0
max_start = 40

while start <= max_start:
    # 访问页面
    url = "https://movie.douban.com/subject/1292052/comments?start=" + str(start) + "&limit=20&sort=new_score&status=P"
    respons = requests.get(url=url, headers=headers)
    # print(respons.text)
    # 实现每个页面的抓取
    soup = BeautifulSoup(respons.text, 'html.parser')
    # print(soup.find_all(class_="hd"))
    for elements in soup.find_all(class_="comment-item"):
        print(elements.find(class_="short").string)
        print(elements.find(text="title="))
        movie_comments.append(elements.find(class_="short").string)
    # 修改start参数
    start += 20

# for name in movie_comments:
#     print(name)

分析网页结构后发现用户名在title标签内，但使用text=参数好像不起作用

weixin_慕设计1308382 2020-07-26

源自：Python实现网络爬虫 2-3 整合爬虫功能函数

16

收起

2回答

DeltaF 回答被采纳获得+3积分 2020-07-27 00:48:07

print(elements.find('a')['title']) # 获取用户名称，title是a标签里面的一个key
数据缺失问题，你每次for循环前sleep1-3秒，试一下

提问者 weixin_慕设计1308382 2020-07-26 15:42:49

目前另一个问题是数据丢失，使用上述代码连续爬取评论信息时，会发现部分评论没有获取，是需要通过sleep函数间隙爬取吗？

DeltaF #1

如果sleep不行，看一下缺失的数据，有没有什么特性，直接浏览器比对看看。

2020-07-27 00:48:56

相似问题

小程序登录、用户信息相关接口调整说明

真机调试在手机上获取不到用户头像和名称，默认显示微信用户

ThreadLocal在SpringMVC中如何使用

innerHTML是获取标签内的内容文本，那么包括标签自身内容文本如何获取的呢？

如果使用redisToken的话，用户信息应该怎么存和获取

登录后可查看更多问答，登录/注册

数据分析体系课

参与学习 1445 人
提交作业 5084 份
解答问题 1165 个

从0开始学数据分析，互联网各岗位的标配技能，产品经理、运营经理、技术人员人人必备、能学会的实用技能。

本课精华内容

问答作业

转换后运算问题

26 5

老师能讲解下单引号，反引号的具体意义及应用场景么？

27 1

老师好，课后作业计算异常值为什么不以收盘价维度计算，以收盘价计算就是没有异常值了？

71 3

2-6分布形态课后作业提问

56 2

1-2作业提交

165 52

查看更多本课问答

请稍等 ...

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号