关于表格型数据的数据挖掘（总）

最新推荐文章于 2024-11-20 16:00:00 发布

置顶

gcaxuxi

最新推荐文章于 2024-11-20 16:00:00 发布

阅读量1.9k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gcaxuxi/article/details/80581198

版权

从本篇开始，我将会开启个人在实习阶段所做的项目经验。以此做好个人笔记，作为以后知识点的汇总，也希望能给各位做个大致的数据挖掘的思路。文章系列分为4篇：数据的获得及处理、频繁项集、聚类和关联规则。顺序是按照项目逻辑进行排序的，本篇我们将对整体的思路进行个说明。

目录

数据的获得及处理
频繁项集
聚类
关联规则

1. 数据的获得及处理

实践过程中，如何获得项目中所需的数据？首先做好项目的前期的先验知识的掌握，确定目标数据的种类。

例如，本次实习的项目为中医妇科病的数据挖掘，那么我们首先确定目标对象——中医妇科病，并和相关专家进行分析。得出可能的目标数据为：中医药数据集，中医医案等等。

确定好目标数据类型后，我们需要思考收集这些数据的渠道。基本上，可以有以下几个方面：
1. 向相关的公司、实验室、机构购买数据；
2. 人工筛选相关网站，爬虫爬取
3. 人工录入，包括图像的拍摄、文本的输入（ocr）

其中，1和3经济成本较为高昂。爬虫作为程序员收集数据的标配，是性价比较为高的一种方法。我将在后面的文章中着重介绍爬虫经验。

爬取大量的原始数据（raw data）后，我们需要对数据进行预处理，这里又称为数据清洗。

目的一是可以将错误、冗余的数据变得易于后面步骤的数据分析，二是对于一些缺失值进行补充，保证数据的准确性。

针对于我们的项目而言，无论是中

最低0.47元/天解锁文章

博客等级

码龄10年

31
原创

35
点赞

30
收藏

54
粉丝

关注

私信

热门文章

最新评论

PCA线性代数讲解
BJUT赵亮: 有一个错误，小明同学实际上是将正交基逆时针转换了45度
PCA线性代数讲解
Reidkm: great!
概率论及logistic回归讲解
liweilovefei: 大师的话真如“大音希声扫阴翳”，犹如“拨开云雾见青天”，使我看到了希望，看到了未来！晴天霹雳、醍醐灌顶或许不足以形容文章的万一；巫山行云、长江流水更难以比拟大师的文才！黄钟大吕，振聋发聩！你烛照天下，明见万里；雨露苍生，泽被万方！透过你深邃的文字，我仿佛看到了你鹰视狼顾、龙行虎步的伟岸英姿；仿佛看到了你手执如椽大笔、写天下文章的智慧神态；仿佛看见了你按剑四顾、指点江山的英武气概！
概率论及logistic回归讲解
学生阿肥: 大师的话真如“大音希声扫阴翳”，犹如“拨开云雾见青天”，使我看到了希望，看到了未来！晴天霹雳、醍醐灌顶或许不足以形容文章的万一；巫山行云、长江流水更难以比拟大师的文才！黄钟大吕，振聋发聩！你烛照天下，明见万里；雨露苍生，泽被万方！透过你深邃的文字，我仿佛看到了你鹰视狼顾、龙行虎步的伟岸英姿；仿佛看到了你手执如椽大笔、写天下文章的智慧神态；仿佛看见了你按剑四顾、指点江山的英武气概！
3.文献检索
hhforest: 大师的话真如“大音希声扫阴翳”，犹如“拨开云雾见青天”，使我看到了希望，看到了未来！晴天霹雳、醍醐灌顶或许不足以形容文章的万一；巫山行云、长江流水更难以比拟大师的文才！黄钟大吕，振聋发聩！你烛照天下，明见万里；雨露苍生，泽被万方！透过你深邃的文字，我仿佛看到了你鹰视狼顾、龙行虎步的伟岸英姿；仿佛看到了你手执如椽大笔、写天下文章的智慧神态；仿佛看见了你按剑四顾、指点江山的英武气概！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。