GDBT Gradient Boosting Decision Tree
以波士顿房价数据为例 输入数据如下
0.00632,18,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,396.9,4.98,24
0.02731,0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.9,9.14,21.6
0.02729,0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
0.03237,0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
0.06905,0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.9,5.33,36.2
最后一列为房价值 前面若干列为一些特征
训练过程如下
第一列为的值去重作为 一个集合 去重后每个值都可能作为切分点 每个值作为切分点 都可将数据集分为两份 计算每份的样本个数 房价总值 均值 以及mse(均方误差 A-B*C A为该节点内房价平方和 B为房屋总价 C为该节点内房屋均值) 已去重后每个值为切分点都可得出一个mse 选中 mse(两个节点之和)最小的那个feature 作为该特征上的切分