一、数据挖掘的基本流程
1、商业理解:数据挖掘的目的是更好地帮助业务,要从商业的角度理解项目需求。
2、数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等,有助于对数据有个初步认识。
3、数据准备:开始收集数据,并对数据进行清洗、集成等操作,完成数据挖掘前的准备工作。
4、模型建立:选择和应用数据挖掘模型,并进行优化,以便得到更好的分类结果。
5、模型评估:对模型进行评估,并检查构建模型的每一步,确认模型是否实现了预定的商业目标。
6、上线发布:呈现数据挖掘结果,以及后续的监控和维护。
二、数据挖掘十大算法分类
1、分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
2、聚类算法:K-Means,EM
3、关联分析:Apriori
4、连接分析:PageRank
三、数据挖掘十大算法简介
1、C4.5
十大算法之首,是决策树的算法,并创造性地在决策树构造过程中进行了剪枝,可以处理连续的属性,也能对不完整的数据进行处理,是决策树分类中具有里程碑意义的算法。
2、朴素贝叶斯(Naive Bayes)
朴素贝叶斯模型时基于概率论的原理,基本思想是:对于给出的未知物体想要进行分类,就需要求解在这个未知物体出现的条件下各个类别出现的概率,哪个最大,就认为这个未知物体属于哪个分类。
3、SVM
SVM(支持向量机,Support Vector Machine)在训练中建立了一个超平面分类模型。
4、KNN
KNN(K最近邻算法,K-Nearest Neighbor),就是每个样本都可以用它最接近的K个邻居来代表。如果一个样本,它的K个最接近的邻居都属于分类A,那么这个样本也属于分类A。
5、AdaBoost
boost表示提升,所以Adaboost是个构建分类器的提升算法,可以让多个弱的分类器