从本篇开始,我将会开启个人在实习阶段所做的项目经验。以此做好个人笔记,作为以后知识点的汇总,也希望能给各位做个大致的数据挖掘的思路。文章系列分为4篇:数据的获得及处理、频繁项集、聚类和关联规则。顺序是按照项目逻辑进行排序的,本篇我们将对整体的思路进行个说明。
目录
- 数据的获得及处理
- 频繁项集
- 聚类
- 关联规则
1. 数据的获得及处理
实践过程中,如何获得项目中所需的数据?首先做好项目的前期的先验知识的掌握,确定目标数据的种类。
例如,本次实习的项目为中医妇科病的数据挖掘,那么我们首先确定目标对象——中医妇科病,并和相关专家进行分析。得出可能的目标数据为:中医药数据集,中医医案等等。
确定好目标数据类型后,我们需要思考收集这些数据的渠道。基本上,可以有以下几个方面:
1. 向相关的公司、实验室、机构购买数据;
2. 人工筛选相关网站,爬虫爬取
3. 人工录入,包括图像的拍摄、文本的输入(ocr)
其中,1和3经济成本较为高昂。爬虫作为程序员收集数据的标配,是性价比较为高的一种方法。我将在后面的文章中着重介绍爬虫经验。
爬取大量的原始数据(raw data)后,我们需要对数据进行预处理,这里又称为数据清洗。
目的一是可以将错误、冗余的数据变得易于后面步骤的数据分析,二是对于一些缺失值进行补充,保证数据的准确性。
针对于我们的项目而言,无论是中