Data Mining 概述:是指通过系统分析从大量数据中提取隐藏于其中的规律,并用这些规律来预测未来或指导未来工作的科学。
过程:
1.数据准备。
a.数据集成。(提取数据,处理数据中的遗漏和清洗)
b.数据选择。(选择自己感兴趣的数据,缩小范围,提高数据挖掘的质量)
c.数据预处理。(检查数据的完整性和一致性,消除噪声)
2.数据挖掘。(利用机器学习,统计分析等方法,发现有用的模式或知识)
a.确定挖掘目标。
b.选择算法。
c.数据挖掘。
3.结果的表达与解释。
a.模式评估。(是否能达到用户的要求,或者自己的预期)
b.知识表示。(运用可视化知识及其它方式,展示结果)
方法:
1.分类。
预测的变量是离散的,就称为分类;如果是连续的,就称为回归。
方法有:决策树,朴素贝叶斯(NBC),逻辑回归,神经网络等。
2.聚类。
统计分析方法,机器学习方法,神经网络方法等
3.关联。
目的在于产生部分数据的概要,找到某些关联关系。
4.预测。
利用历史数据找到变化规律,建立模型,并用其模型来预测未来数据的种类、特征等。
主要方法是回归分析。