实验内容:
本次实验爬取39问医生网中口腔科分类下的所有在线单轮问答记录,每页32条,共100页,总数据量为3200条,最终结果以excel格式保存。
开发环境:
Windows+Pycharm+Python3.9
Edge浏览器
requests库:命令行输入pip install requests
BeautifulSoup:命令行输入pip install beautifulsoup4
pandas:命令行输入pip install pandas
openpyxl:命令行输入pip install openpyxl
分析网站结构:
进入网站页面(口腔科每日最新提问和医生回复第1页_39问医生_39健康网),可以看到这是一个目录页,而要获取具体的问答内容则需要点击目录页中的超链接进行跳转。
此外,通过观察其网址我们可以发现,目录页的网址信息是与页码对应的(例如第1页就是xxx-1.html),而问答页的网址则没有什么规律(https://ask.39.net/question/_te7uy5.html),这就意味着我们需要先从目录页爬取所有问答页的URL,再借助该URL爬取我们所需要的问答记录