数据挖掘中的集成方法——通过集成预测来提升精度(读书笔记)

本文为数据挖掘的读书笔记,聚焦集成发现。介绍如何通过建立集成,如梯度Boosting,以及正则化技术,如L1、L2正则化,避免过拟合并提升模型精度。在Netflix奖的背景下,讨论了这些方法的实际应用和效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第1章    集成发现

将诸模型集成往往比单一模型得到的效果更显著。集成方式包括:平均法、投票法和顾问感知器。在从回声定位信号中提取蝙蝠分类的试验中,每种蝙蝠有3-8种信号。
模型建立和交叉验证的结果显示:
基准精度(选择相对多的数量):27%。
决策树的精度:46%
多项式网络的精度:64%
剪枝后的神经网络的精度:69%
八维变量的最近邻的精度:69%

以上各种方法在不同的数据区域出错,尝试平均这些方法的估计值,优化后可得到74%的精度。


1.1    建立集成

两步构成:(1)建立不同模型  +  (2)组合其估计
组合可由投票完成,主要还是通过带门限的感知器完成。
(1)贝叶斯:后验加权模型进行平均和估计。
(2)Bagging:自助训练数据集采集多数投票或平均。
(3)随机森林:在被组合树间增加随机成员。
(4)AdaBoost:改变(提升或降低)例子的权重递推构建模型并加权估计。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值