本篇主要承接上篇文章,介绍我们如何获取项目中的所需的数据。获取的方式很多,特别的,我们本次使用爬虫来尽可能方便地爬取我们的目标数据。文章末尾,我们将给出python代码供大家参考。
目录
- 需求分析
- 技术路线
- 具体实现
1. 需求分析
软件工程专业提到最多的就是“需求分析”,本次我们的项目主要针对中医妇科疾病,其目的在于分析出针对某些药方数据分布(例如某本药方古籍或者中医药方数据库)当中的核心药物集(其中药方是由药物组合而成的),这样的核心药物集合,我们认为当中很有研究价值(例如这样的药物集合其实是由某种关系组合在一起的)。
既然是药物集合,那么势必集合当中的每个元素要有其存在的理由。可以有以下几个想法:
- 从单个元素自身而言,可以根据元素的频数进行划分,再设置一定的阈值进行筛选,其本质就是筛选出频繁项集。例如,某个数据集当中,a出现的频率最高,可以从一定层面上来说,其存在于这个数据分布当中的价值可能也比较高。当然,针对于我们具体的药方当中,频率高的药物也可能只是作为搭配的补益药物,而非真正权重高的主治药物。但是这并不影响这类药物具有较高的影响值。
- 从元素和元素之间的关系而言,我们可能更希望看到元素之间存在一定的关系而进行组合,其本质就是求出相似度然后进行聚类。例如,药物a和b是互为促进的药物,它们存在的形式常常为在药方中同时出现。这样在做药物集合的时候,往往把这样的组合称为强相关组合。
这样通过分析,我们得出当前任务,我们所需要的数据倾向于药方数据集或者药物数据集。
2. 技术路线
既然我们需要以上数据,接下来我们就要找到存在以上数据的相关网站。经过百度搜索,我们发现“药智