关于表格型数据的数据挖掘(总)

从本篇开始,我将会开启个人在实习阶段所做的项目经验。以此做好个人笔记,作为以后知识点的汇总,也希望能给各位做个大致的数据挖掘的思路。文章系列分为4篇:数据的获得及处理、频繁项集、聚类和关联规则。顺序是按照项目逻辑进行排序的,本篇我们将对整体的思路进行个说明。


目录

  • 数据的获得及处理
  • 频繁项集
  • 聚类
  • 关联规则

1. 数据的获得及处理

实践过程中,如何获得项目中所需的数据?首先做好项目的前期的先验知识的掌握,确定目标数据的种类。

例如,本次实习的项目为中医妇科病的数据挖掘,那么我们首先确定目标对象——中医妇科病,并和相关专家进行分析。得出可能的目标数据为:中医药数据集,中医医案等等。

确定好目标数据类型后,我们需要思考收集这些数据的渠道。基本上,可以有以下几个方面:
1. 向相关的公司、实验室、机构购买数据;
2. 人工筛选相关网站,爬虫爬取
3. 人工录入,包括图像的拍摄、文本的输入(ocr)

其中,1和3经济成本较为高昂。爬虫作为程序员收集数据的标配,是性价比较为高的一种方法。我将在后面的文章中着重介绍爬虫经验。

爬取大量的原始数据(raw data)后,我们需要对数据进行预处理,这里又称为数据清洗。

目的一是可以将错误、冗余的数据变得易于后面步骤的数据分析,二是对于一些缺失值进行补充,保证数据的准确性。

针对于我们的项目而言,无论是中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值