关于表格型数据的数据挖掘(一)——爬虫

本文介绍了一种使用爬虫获取中医药数据的方法,特别是从药智网抓取中药方数据。通过需求分析确定核心药物集的挖掘目标,采用技术路线包括注册账号、动态网站爬取和处理目标链接的截断问题。提供了具体实现的GitHub链接供读者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本篇主要承接上篇文章,介绍我们如何获取项目中的所需的数据。获取的方式很多,特别的,我们本次使用爬虫来尽可能方便地爬取我们的目标数据。文章末尾,我们将给出python代码供大家参考。

目录

  • 需求分析
  • 技术路线
  • 具体实现

1. 需求分析

软件工程专业提到最多的就是“需求分析”,本次我们的项目主要针对中医妇科疾病,其目的在于分析出针对某些药方数据分布(例如某本药方古籍或者中医药方数据库)当中的核心药物集(其中药方是由药物组合而成的),这样的核心药物集合,我们认为当中很有研究价值(例如这样的药物集合其实是由某种关系组合在一起的)。

既然是药物集合,那么势必集合当中的每个元素要有其存在的理由。可以有以下几个想法:

  1. 从单个元素自身而言,可以根据元素的频数进行划分,再设置一定的阈值进行筛选,其本质就是筛选出频繁项集。例如,某个数据集当中,a出现的频率最高,可以从一定层面上来说,其存在于这个数据分布当中的价值可能也比较高。当然,针对于我们具体的药方当中,频率高的药物也可能只是作为搭配的补益药物,而非真正权重高的主治药物。但是这并不影响这类药物具有较高的影响值。
  2. 从元素和元素之间的关系而言,我们可能更希望看到元素之间存在一定的关系而进行组合,其本质就是求出相似度然后进行聚类。例如,药物a和b是互为促进的药物,它们存在的形式常常为在药方中同时出现。这样在做药物集合的时候,往往把这样的组合称为强相关组合

这样通过分析,我们得出当前任务,我们所需要的数据倾向于药方数据集或者药物数据集

2. 技术路线

既然我们需要以上数据,接下来我们就要找到存在以上数据的相关网站。经过百度搜索,我们发现“药智

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值