python爬虫-----学习bs,爬取丁香园特定帖子的所有回复内容

本文介绍了如何利用Python的BeautifulSoup库爬取丁香园论坛特定帖子的所有回复内容。首先讲解了BeautifulSoup的安装和基本用法,然后通过案例展示了抓取用户名和内容的过程。在遇到只获取到部分回复的问题时,通过添加cookie模拟用户登录来解决。最后,对BeautifulSoup的特点和常用方法进行了总结。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

beautifsoup----爬虫数据挖掘又一大利器

– 安装
conda install beautifulsoup4 或者 pip install beautifulsoup4(这个4代表着bs的版本)
这里我用了conda安装:

– beautiful soup:
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.
官方文档:Beautifulsoup官方文档(里面讲的很详细)
–案例:

  • 工具:urllib bs

  • 思考:
    1. 用urllib.request.Request请求网页,使用headers设置用户代理或者使用proxy代理服务器隐 藏身份,因为直接请求,返回403。
    2. 通过查看源代码发现,用户名在auth类下的a标签里,而用户回复内容在postbody类里在这里插入图片描述
    4. 炖一锅汤,使用css选择器 select方法下的get_text()方法找到我们想要的数据
    5. for循环并按想要的格式输出数据

  • 代码:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值