GBDT 和随机森林
相同点:
1、都是由多棵树组成
2、最终的结果都是由多棵树一起决定
不同点:
1、组成随机森林的树可以是分类树,也可以是回归树;而 GBDT 只由回归树组成
2、组成随机森林的树可以并行生成;而 GBDT 只能是串行生成
3、对于最终的输出结果而言,随机森林采用多数投票等;而 GBDT 则是将所有结果累加起来,或者加权累加起来
4、随机森林对异常值不敏感,GBDT 对异常值非常敏感
5、随机森林对训练集一视同仁,GBDT 是基于权值的弱分类器的集成
6、随机森林是通过减少模型方差提高性能,GBDT 是通过减少模型偏差提高性能
聚类方法之比较
聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web 文档分类等
主要的聚类算法可以划分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法
每一类中都存在着得到广泛应用的算法,例如:划分方法中的 k-means聚类算法、层次方法中的凝聚型层次聚类算法、基于模型方法中的神经网络聚类算法等。
聚类问题的研究不仅仅局限于上述的硬聚类,即每一个数据只能被归为一类,模糊聚类也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶 属函数来确定每个数据隶属于各个簇的程度,而不是将一个数据对象硬性地归类到某一簇中。目前已有很多关于模糊聚类的算法被提出,如著名的 FCM 算法等。
常用聚类算法
k-means 聚类算法