十大数据分析算法


1.C4.5(分类决策树)
决策树算法需要解决的两个主要问题:
1)先选择哪个属性,后选择哪个属性来进行分裂?2)什么时候树停止生长?
这里,C4.5算法是这样解决的:
1)用信息增益(熵差)率来选择属性分裂;2)构造树的过程中进行剪枝操作降低过拟合风险。
这里引出“信息熵”的概念。“熵”是对混乱程度的度量,越乱熵越大,是一个度量样本集合纯度最常用的指标。划分节点处到底用哪个属性的时候,希望节点处属性纯度大,也就是熵更小。
2.K-均值算法


3.SVM

4.Apriori算法
衡量事务之间的相关联程度



5.KNN算法
之前博客写过
6.PageRank

本文介绍了十大经典的数据分析算法,包括C4.5决策树算法、K-均值算法、SVM、Apriori算法、KNN算法及PageRank等。重点讲解了C4.5算法如何通过信息增益比来选择分裂属性,并采用剪枝操作减少过拟合的风险。
5205

被折叠的 条评论
为什么被折叠?



