第1章 集成发现
将诸模型集成往往比单一模型得到的效果更显著。集成方式包括:平均法、投票法和顾问感知器。在从回声定位信号中提取蝙蝠分类的试验中,每种蝙蝠有3-8种信号。模型建立和交叉验证的结果显示:
基准精度(选择相对多的数量):27%。
决策树的精度:46%
多项式网络的精度:64%
剪枝后的神经网络的精度:69%
八维变量的最近邻的精度:69%
以上各种方法在不同的数据区域出错,尝试平均这些方法的估计值,优化后可得到74%的精度。
1.1 建立集成
两步构成:(1)建立不同模型 + (2)组合其估计组合可由投票完成,主要还是通过带门限的感知器完成。
(1)贝叶斯:后验加权模型进行平均和估计。
(2)Bagging:自助训练数据集采集多数投票或平均。
(3)随机森林:在被组合树间增加随机成员。
(4)AdaBoost:改变(提升或降低)例子的权重递推构建模型并加权估计。