Python爬虫案例:从39问医生网爬取口腔科的在线问答记录(单轮问答)

本文详细描述了如何使用Python爬虫技术,包括requests,BeautifulSoup和pandas库,从39问医生网口腔科分类下抓取100页的在线单轮问答记录,获取用户代理,解析网页结构,提取问题和答案,并将数据保存为Excel文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

实验内容:

本次实验爬取39问医生网中口腔科分类下的所有在线单轮问答记录,每页32条,共100页,总数据量为3200条,最终结果以excel格式保存。

开发环境:

Windows+Pycharm+Python3.9

Edge浏览器

requests库:命令行输入pip install requests

BeautifulSoup:命令行输入pip install beautifulsoup4

pandas:命令行输入pip install pandas

openpyxl:命令行输入pip install openpyxl

分析网站结构:

进入网站页面(口腔科每日最新提问和医生回复第1页_39问医生_39健康网),可以看到这是一个目录页,而要获取具体的问答内容则需要点击目录页中的超链接进行跳转。

此外,通过观察其网址我们可以发现,目录页的网址信息是与页码对应的(例如第1页就是xxx-1.html),而问答页的网址则没有什么规律(https://ask.39.net/question/_te7uy5.html),这就意味着我们需要先从目录页爬取所有问答页的URL,再借助该URL爬取我们所需要的问答记录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值