一、数据挖掘的基本流程:
1 商业理解:数据挖掘是为业务服务的,从商业的角度理解项目需求的基础上再对数据挖掘的目标进行定义
2 数据理解:收集数据,对数据进行探索,包括数据的描述、数据质量的验证
3 数据准备:对数据进行清洗、集成等操作
4 模型建立:选择和应用合适的模型,并进行优化
5 模型评估:对模型进行评价,确认模型是否实现了预定的商业目标
6 上线发布:呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程
二、数据挖掘的十大算法:
分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN, Adaboost,CART
聚类算法:K-Means,EM
关联分析:Apriori
连接分析:PageRank
三、数据挖掘的数学原理:
1 概率论与数理统计:条件概率,独立性,随机变量,多维随机变量等概念
2 线性代数:向量和矩阵,PCA方法,SVD方法,以及MF,NMF方法
3 图论:对网络结构的分析非常有效,在关系挖掘和图像分割中也有重要作用
4 最优化方法:用最短的时间得到收敛,取得更好地效果