基于neo4j知识图谱+flask的大数据医疗领域知识问答系统(完整源码+源码解析+开发文档+视频讲解等资料


1. class MedicalSpider:: 定义了一个名为 MedicalSpider 的类。
2. def **init**(self):: 这是类的构造函数,用于在创建类的实例时进行初始化。在初始化过程中,建立了与 MongoDB 数据库的连接,并选择了名为 ‘medical’ 的数据库和名为 ‘data’ 的集合。
3. def insert\_data(self, data):: 这是一个方法,用于插入数据到 MongoDB 中。它使用了 insert\_one 方法,该方法用于插入单个文档(记录)到 MongoDB 集合中。data 参数是要插入的文档数据。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2e03a2dd823444e48d4360b2b90d1a2d.png)


需要爬取的信息包括疾病名、所属目录、症状、治疗方案等等,都可以从页面上获取。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/a8c8d1462c21461b8ceedb68e7340035.png)


MongoDB里面的数据也是刷新显示最新数据记录  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/ef684bdce53645b88055248552f9c444.png


我们随便点一个我们爬取的网页链接,点击查看网页详情:  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/0e38df42356241f98814a0795d05e92c.png)


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/441bc388cd2a4f9ca70d578012202b09.png)


这里代码爬虫的主要功能是爬取疾病相关的信息,并将数据存储到MongoDB数据库中。代码的主要结构是一个名为MedicalSpider的类,它包含了各种方法来处理不同类型的数据采集任务。在代码的开头,导入了一些必要的库,如requests、urllib、lxml和pymongo。然后定义了一个MedicalSpider类,该类的构造函数初始化了MongoDB的连接,并指定了要使用的数据库和集合。


接下来是一系列方法,用于实现不同类型的数据采集。其中,get\_html方法用于发送HTTP请求并获取网页的HTML内容。url\_parser方法用于解析HTML内容,提取出需要的URL。basicinfo\_spider方法用于解析疾病的基本信息,如名称、描述和所属目录。treat\_spider、drug\_spider和food\_spider方法分别用于解析治疗信息、药物信息和食物信息。symptom\_spider方法用于解析疾病的症状信息。inspect\_spider
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值