Python爬虫案例：从39问医生网爬取口腔科的在线问答记录（单轮问答）

最新推荐文章于 2025-07-08 16:14:22 发布

原创

最新推荐文章于 2025-07-08 16:14:22 发布 · 1.5k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

本文详细描述了如何使用Python爬虫技术，包括requests,BeautifulSoup和pandas库，从39问医生网口腔科分类下抓取100页的在线单轮问答记录，获取用户代理，解析网页结构，提取问题和答案，并将数据保存为Excel文件。

实验内容：

本次实验爬取39问医生网中口腔科分类下的所有在线单轮问答记录，每页32条，共100页，总数据量为3200条，最终结果以excel格式保存。

开发环境：

Windows+Pycharm+Python3.9

Edge浏览器

requests库：命令行输入pip install requests

BeautifulSoup：命令行输入pip install beautifulsoup4

pandas：命令行输入pip install pandas

openpyxl：命令行输入pip install openpyxl

分析网站结构：

进入网站页面（口腔科每日最新提问和医生回复第1页_39问医生_39健康网），可以看到这是一个目录页，而要获取具体的问答内容则需要点击目录页中的超链接进行跳转。

此外，通过观察其网址我们可以发现，目录页的网址信息是与页码对应的（例如第1页就是xxx-1.html），而问答页的网址则没有什么规律（https://ask.39.net/question/_te7uy5.html），这就意味着我们需要先从目录页爬取所有问答页的URL，再借助该URL爬取我们所需要的问答记录。

目录页：

问答页：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

解包

关注关注

22
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫实战：利用Selenium与Playwright高效爬取企查查工商数据

2201_76125261的博客

07-02

2187

本文详细介绍了如何使用Python中最先进的爬虫技术（Selenium和Playwright）来爬取企查查的工商数据。我们从环境配置开始，逐步实现了基础爬虫、反爬策略、分布式架构以及数据存储等完整功能。需要注意的是，爬虫技术应当合法合规使用，尊重目标网站的服务条款和robots协议。在实际应用中，建议控制爬取频率，避免对目标网站造成不必要的负担。

Python爬虫实战：利用Selenium与Pyppeteer高效爬取天眼查企业数据

1 条评论

优快云-Ada助手 2023.12.26
恭喜您第15篇博客的成功发表！您的Python爬虫案例真的很有趣，尤其是从39问医生网爬取口腔科的在线问答记录，这个主题非常有益健康，也很有挑战性。对于下一步的创作建议，我建议您可以尝试探索其他医疗领域的在线问答记录，或者深入研究如何利用爬虫技术进行数据分析和可视化呈现。谢谢您的分享，期待您更多的精彩作品！

【39问医生】爬取数据

02-01

爬取的数据，已经去重，39问医生问诊的标题，描述已经第一个医生回答

python爬虫基础（这里我自己写了一个基础代码爬取了一下39健康网的两万多的药的数据）

@独寂

10-25

1545

作为一个小白，在跟着老师在学习自然语言处理道路上，时时刻刻提醒自己要好好学习，有一天要出人头地，报答家乡父老???? 。话不多说，进入正题，我们都知道自然语言处理的前提就是基于大数据的，没有数据还谈什么数据处理呢？所以我自己学习了一下有关...

【Python网络爬虫】39健康网急诊科疾病爬取

枯木何日可逢春

02-06

2856

【Python网络爬虫】39健康网急诊科疾病爬取

【Python】39健康网爬虫源代码

有朋自远方来，不亦乐乎。

02-15

1490

【代码】39健康网爬虫源代码。

快速问医生（ask120.com）——在线数据爬取与接受度预测

weiwen6933的博客

03-16

3208

数据爬取 #导入所需包 import requests from bs4 import BeautifulSoup from lxml import etree import time import csv fp = open('内分泌.csv','a',newline='',encoding='utf_8_sig') writer = csv.writer(fp) headers={ '...

Python爬虫实战：基于最新技术高效爬取喜马拉雅音频数据

2201_76125261的博客

07-08

1844

本文将详细介绍如何使用Python最新爬虫技术高效获取喜马拉雅音频数据。我们将从环境配置开始，逐步讲解请求模拟、数据解析、反爬应对策略，最终实现一个完整的喜马拉雅音频爬虫系统。文章包含大量实战代码和最新技术应用，如Playwright自动化、异步请求处理、智能代理轮换等，帮助读者掌握现代爬虫开发的核心技能。关键词：Python爬虫、喜马拉雅、音频采集、反反爬虫、异步爬取、数据解析本文详细介绍了如何使用Python最新技术栈开发喜马拉雅音频爬虫，涵盖了从基础请求到高级反反爬虫策略的各个方面。技术选型。

Python 爬虫实战：在东方财富网抓取股票行情数据，辅助投资决策

u014481728的博客

02-01

5620

通过本文的 Python 爬虫实战，我们成功抓取了东方财富网的股票行情数据，并进行了数据分析和可视化。通过爬虫技术，我们可以快速获取大量的股票行情数据，通过数据分析，可以洞察股票市场的动态和趋势，辅助投资决策。在实际应用中，可以根据需求进一步扩展爬虫功能，例如抓取更多维度的数据、进行更深入的数据挖掘和分析等。

【Python爬虫】之抓取“微医”上的医生信息

一定要站在自己热爱的生活里闪闪发光

04-27

4万+

1.爬虫设计本文用Python语言实现网络爬虫抓取特定数据，使用Beautiful Soup进行HTML的解析。Beautiful Soup是一个HTML/XML解析器，主要功能是解析和提取HTML/XML中的数据，提取数据时，类似于正则表达式的功能。Beautiful Soup将整个文档载入，解析整个DOM树，其时空开销都比较大，性能不如lxml。Beautiful Soup为不同的解析器提...

爬虫实战 | 手把手用Python教你采集&可视化知乎问题的回答（内附代码）

python03011的博客

06-20

4686

爬虫实战 | 手把手用Python教你采集&可视化知乎问题的回答（内附代码）

打造自动答题小程序 - 从爬到答的全流程解析【附完整代码】

the_beginner的博客

02-08

6180

通过本次实践，我不仅掌握了爬虫技术、OCR识别以及自动化点击工具的使用方法，还锻炼了自己的实践能力和解决问题的能力。我相信这些经验和技能将对我未来的学习和工作产生积极的影响。同时，我也期待在未来的技术探索中，能够不断挑战自己，实现更多的创新和突破。

python爬虫增加多线程获取数据

javasdn的博客

06-24

1336

这只是简单的一个计算，网站不同，反爬机制不同，对IP的需求是要以实际测试的数据为准的。在我们使用代理ip时，如何使爬虫更有效的进行，在爬虫采集数据信息需要注意哪些地方，我们一起来分析如何更有效的采集到数据信息，提高工作效率，下一次分享给大家参考。Python爬虫应用领域广泛，并且在数据爬取领域处于霸主位置，并且拥有很多性能好的框架，像Scrapy、Request、BeautifuSoap、urlib等框架可以实现爬行自如的功能，只要有能爬取的数据，Python爬虫均可实现。专业提供优质爬虫代理。

爬取【医疗问答】数据

qq_38423499的博客

03-21

1902

本文章以丁香医生为例主要以科目分类来进行爬取，每个科目爬取的内容会存储到一个文本文档中，内容是问答式。代码如下： from bs4 import BeautifulSoup import pandas as pd import json import requests import time import random def get_static_url_content(url): ...

医院诊断数据抓取与分析：Python爬虫在医疗领域的应用

2201_76125261的博客

03-23

1285

通过抓取医院网站的数据，我们能够收集医生诊断、治疗方案、病例分析等有价值的资料，进而进行健康分析、预测和优化。其通过模拟浏览器的行为，发送HTTP请求，获取网页内容，并解析网页中的数据。本文会详细介绍爬虫的基本原理，如何处理医疗数据，以及如何使用现代Python技术进行数据抓取和分析。未来，我们可以结合更多的医疗数据源，如电子病历、基因数据等，进行更深入的分析和预测，为个性化医疗和公共健康研究提供支持。等库，我们可以绘制数据的可视化图表，帮助分析治疗方案的分布、疾病类型等。例如，统计每位医生的治疗成功率。

爬虫利用多线程快速爬取数据

小梁说代码的博客

01-14

1199

爬虫利用多线程来爬取数据

Python 爬虫项目实战（一）：爬取某云热歌榜歌曲