关于表格型数据的数据挖掘（一）——爬虫

最新推荐文章于 2024-10-25 11:52:58 发布

置顶

gcaxuxi

最新推荐文章于 2024-10-25 11:52:58 发布

阅读量1.2k

点赞数 2

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gcaxuxi/article/details/80593709

本文介绍了一种使用爬虫获取中医药数据的方法，特别是从药智网抓取中药方数据。通过需求分析确定核心药物集的挖掘目标，采用技术路线包括注册账号、动态网站爬取和处理目标链接的截断问题。提供了具体实现的GitHub链接供读者参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇主要承接上篇文章，介绍我们如何获取项目中的所需的数据。获取的方式很多，特别的，我们本次使用爬虫来尽可能方便地爬取我们的目标数据。文章末尾，我们将给出python代码供大家参考。

目录

需求分析
技术路线
具体实现

1. 需求分析

软件工程专业提到最多的就是“需求分析”，本次我们的项目主要针对中医妇科疾病，其目的在于分析出针对某些药方数据分布（例如某本药方古籍或者中医药方数据库）当中的核心药物集（其中药方是由药物组合而成的），这样的核心药物集合，我们认为当中很有研究价值（例如这样的药物集合其实是由某种关系组合在一起的）。

既然是药物集合，那么势必集合当中的每个元素要有其存在的理由。可以有以下几个想法：

从单个元素自身而言，可以根据元素的频数进行划分，再设置一定的阈值进行筛选，其本质就是筛选出频繁项集。例如，某个数据集当中，a出现的频率最高，可以从一定层面上来说，其存在于这个数据分布当中的价值可能也比较高。当然，针对于我们具体的药方当中，频率高的药物也可能只是作为搭配的补益药物，而非真正权重高的主治药物。但是这并不影响这类药物具有较高的影响值。
从元素和元素之间的关系而言，我们可能更希望看到元素之间存在一定的关系而进行组合，其本质就是求出相似度然后进行聚类。例如，药物a和b是互为促进的药物，它们存在的形式常常为在药方中同时出现。这样在做药物集合的时候，往往把这样的组合称为强相关组合。

这样通过分析，我们得出当前任务，我们所需要的数据倾向于药方数据集或者药物数据集。

2. 技术路线

既然我们需要以上数据，接下来我们就要找到存在以上数据的相关网站。经过百度搜索，我们发现“药智

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄10年

31
原创

35
点赞

30
收藏

54
粉丝

关注

私信

热门文章

上一篇：: 关于表格型数据的数据挖掘（总）

下一篇：: 机器学习数学基础

最新评论

PCA线性代数讲解
BJUT赵亮: 有一个错误，小明同学实际上是将正交基逆时针转换了45度
PCA线性代数讲解
Reidkm: great!
概率论及logistic回归讲解
liweilovefei: 大师的话真如“大音希声扫阴翳”，犹如“拨开云雾见青天”，使我看到了希望，看到了未来！晴天霹雳、醍醐灌顶或许不足以形容文章的万一；巫山行云、长江流水更难以比拟大师的文才！黄钟大吕，振聋发聩！你烛照天下，明见万里；雨露苍生，泽被万方！透过你深邃的文字，我仿佛看到了你鹰视狼顾、龙行虎步的伟岸英姿；仿佛看到了你手执如椽大笔、写天下文章的智慧神态；仿佛看见了你按剑四顾、指点江山的英武气概！
概率论及logistic回归讲解
学生阿肥: 大师的话真如“大音希声扫阴翳”，犹如“拨开云雾见青天”，使我看到了希望，看到了未来！晴天霹雳、醍醐灌顶或许不足以形容文章的万一；巫山行云、长江流水更难以比拟大师的文才！黄钟大吕，振聋发聩！你烛照天下，明见万里；雨露苍生，泽被万方！透过你深邃的文字，我仿佛看到了你鹰视狼顾、龙行虎步的伟岸英姿；仿佛看到了你手执如椽大笔、写天下文章的智慧神态；仿佛看见了你按剑四顾、指点江山的英武气概！
3.文献检索
hhforest: 大师的话真如“大音希声扫阴翳”，犹如“拨开云雾见青天”，使我看到了希望，看到了未来！晴天霹雳、醍醐灌顶或许不足以形容文章的万一；巫山行云、长江流水更难以比拟大师的文才！黄钟大吕，振聋发聩！你烛照天下，明见万里；雨露苍生，泽被万方！透过你深邃的文字，我仿佛看到了你鹰视狼顾、龙行虎步的伟岸英姿；仿佛看到了你手执如椽大笔、写天下文章的智慧神态；仿佛看见了你按剑四顾、指点江山的英武气概！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。