基于neo4j知识图谱+flask的大数据医疗领域知识问答系统（完整源码+源码解析+开发文档+视频讲解等资料

最新推荐文章于 2025-03-11 12:00:21 发布

2401_84185074

最新推荐文章于 2025-03-11 12:00:21 发布

阅读量304

点赞数 1

CC 4.0 BY-SA版权

文章标签： neo4j 知识图谱 flask

本文链接：https://blog.youkuaiyun.com/2401_84185074/article/details/138244637


1. class MedicalSpider:: 定义了一个名为 MedicalSpider 的类。
2. def **init**(self):: 这是类的构造函数，用于在创建类的实例时进行初始化。在初始化过程中，建立了与 MongoDB 数据库的连接，并选择了名为 ‘medical’ 的数据库和名为 ‘data’ 的集合。
3. def insert\_data(self, data):: 这是一个方法，用于插入数据到 MongoDB 中。它使用了 insert\_one 方法，该方法用于插入单个文档（记录）到 MongoDB 集合中。data 参数是要插入的文档数据。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/2e03a2dd823444e48d4360b2b90d1a2d.png)


需要爬取的信息包括疾病名、所属目录、症状、治疗方案等等，都可以从页面上获取。  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/a8c8d1462c21461b8ceedb68e7340035.png)


MongoDB里面的数据也是刷新显示最新数据记录  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/ef684bdce53645b88055248552f9c444.png


我们随便点一个我们爬取的网页链接，点击查看网页详情：  
 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/0e38df42356241f98814a0795d05e92c.png)


![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/441bc388cd2a4f9ca70d578012202b09.png)


这里代码爬虫的主要功能是爬取疾病相关的信息，并将数据存储到MongoDB数据库中。代码的主要结构是一个名为MedicalSpider的类，它包含了各种方法来处理不同类型的数据采集任务。在代码的开头，导入了一些必要的库，如requests、urllib、lxml和pymongo。然后定义了一个MedicalSpider类，该