数据挖掘(1)- 引入
数据挖掘(2)- 数据
数据挖掘(3)- 分类
数据挖掘(4)- 关联分析
数据挖掘(5)- 聚类分析
数据挖掘(6)- 异常检测
1、什么是数据挖掘
数据挖掘是一种再大型数据存储库中,自动地发现有用信息的过程的技术,它将传统的数据分析方法与处理大数据的复杂算法相结合。
这时,我们可能会混淆数据分析和数据挖掘(毕竟都是处理数据,提取有用信息),但是两者有很明显的区别:
(1)数据分析是对数据本身且按照一定约束对数据进行整理、筛选、加工,由此得到信息。而大数据挖掘指对大数据数据分析手段后的信息,进行价值化的分析,不再关注数据本身且没有约束性假设,是一种自动获取信息的技术;
(2)数据分析对结果进行解释,呈现出有效信息,数据挖掘的结果不容易解释,对信息进行价值评估,着眼于预测未来,并提出决策性建议。
看到非常有总结性的一句话:数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。
2、数据挖掘任务
数据挖掘任务可以分为两大类:
(1)预测任务:其目标是根据其他属性的值,预测特定属性的值。
(2)描述任务:其目标是到处概况数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)
具体的可以分为以下四种主要的数据挖掘任务:
(1)预测建模:以说明变量函数的方式为目标变量建立模型(分类、回归)。 例如:使用历史纪录预测某公司未来的股票价格。
(2)关联分析:用来发现描述数据中强关联特征的模型。 例如:购物篮分析。
(3)聚类分析:旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相互之间尽可能类似。
(4)异常检测:识别某特征显著不同于其他数据的观测值(异常点/离群点)。 例如:监视地震活动的地震波。
有个习题:假定你是一个数据挖掘顾问,受雇于一个因特网搜索引擎公司。举例说明如何使用诸如聚类、分类、关联规则挖掘和异常检测等技术,让数据挖掘为公司提供帮助。
答:聚类可以帮助公司对于刻画多种用户模型;
\space\space\space\space\space\space
分类可以预测用户对不同话题是否感兴趣;
\space\space\space\space\space\space
关联规则可以发现一些特定的查询是否有很大的概率紧随其他查询,允许高效率缓存;
\space\space\space\space\space\space
异常检测可以发现不同寻找用户使用模式,发现突然流行的一个话题。