读书会讨论第一讲问题

本文深入探讨了Bagging与Boosting在偏差与方差上的影响,解析了两者如何分别减少variance和bias。同时,文章详细介绍了ROC曲线与PR曲线的绘制方法及其在评估分类器性能方面的区别,提供了丰富的实例分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

读书会讨论第一讲问题

1、Bagging & Boosting

知乎上对于bias与boosting对于偏差方差的影响讲解的比较好,将其链接放这。
为什么说bagging减少variance,boosting减少bias?
引用其中我认为对此问题的必答点

(1)Bagging对样本重采样,对每一重采样得到的子样本集训练一个模型,最后取平均。子样本集的相似性及使用的同种模型,因此各模型有近似相等的bias和variance。
(2)因为 E [ ∑ X i n ] = E [ X i ] E[\frac{\sum{X_i}}{n}]=E[X_i] E[nXi]=E[Xi],所以经过Bagging后bias和单个子模型接近,一般来说不能显著降低bias。另一方面,若各子模型独立,则 V a r ( [ ∑ X i n ] ) = V a r ( X i ) n Var([\frac{\sum{X_i}}{n}])=\frac{Var(X_i)}{n} Var([nXi])=nVar(Xi),此时可以显著降低variance。若各子模型完全相同,则 V a r ( [ ∑ X i n ] ) = V a r ( X i ) Var([\frac{\sum{X_i}}{n}])=Var(X_i) Var([nXi])=Var(Xi),此时不会降低variance
(3)boosting 是串联地最小化损失函数,其bias逐步下降。将许多弱分类器组合成一个强分类器,弱的分类器bias高,强的分类器bias低

对比方面BaggingBoosting
样本选择训练集有放回,各轮训练集独立每轮训练集不变,每个样例的权重改变,据上一轮结果调整
样例权重均匀取样,每个样例权重相等错误率越大,权重越大
预测函数权重相等分类误差小的分类器,权重大
并行计算各个预测函数可以并行生成各个预测函数只能顺序生成

2、P-R图与ROC曲线的绘制

绘图过程:假设给定m个正例子,n个反例子,根据模型预测结果进行排序,首先把分类阈值设为最大,使得所有例子均预测为反例,再将分类阈值依次设为每个样例的预测值,即依次将每个例子划分为正例。

实际类别预测值阈值11阈值10阈值9阈值8阈值7阈值6阈值5阈值4阈值3阈值2阈值1
-10.1-++++++++++
+9.1--+++++++++
+8.1---++++++++
+7.1----+++++++
-6.1-----++++++
-5.1------+++++
+4.1-------++++
+3.1--------+++
-2.1---------++
-1.1----------+
RecallTP/(TP+FN)0/50/51/52/53/53/53/54/55/55/55/5
PrecisionTP/(FP+TP)0/00/11/22/33/43/53/64/75/85/95/10


比较对于同样的样本,不同学习器的好坏
A:[反正正正反反正正反反]
B : [反正反反反正正正正反]
按照绘图过程,可以得到学习器对应的 R O C ROC ROC曲线点

A:
y:[0,0,0.2,0.4,0.6,0.6,0.6,0.8,1,1,1]
x:[0,0.2,0.2,0.2,0.2,0.4,0.6,0.6,0.6,0.8,1]

B:
y:[0,0,0.2,0.2,0.2,0.2,0.4,0.6,0.8,1,1]
x:[0,0.2,0.2,0.4,0.6,0.8,0.8,0.8,0.8,0.8,1]

实际类别预测值阈值11阈值10阈值9阈值8阈值7阈值6阈值5阈值4阈值3阈值2阈值1
-10.1-++++++++++
+9.1--+++++++++
+8.1---++++++++
+7.1----+++++++
-6.1-----++++++
-5.1------+++++
+4.1-------++++
+3.1--------+++
-2.1---------++
-1.1----------+
TPRTP/(TP+FN)0/50/51/52/53/53/53/54/55/55/55/5
FPRFP/(FP+TN)0/51/51/51/51/52/53/53/53/54/55/5
实际类别预测值阈值11阈值10阈值9阈值8阈值7阈值6阈值5阈值4阈值3阈值2阈值1
-10.1-++++++++++
+9.1--+++++++++
-8.1---++++++++
-7.1----+++++++
-6.1-----++++++
+5.1------+++++
+4.1-------++++
+3.1--------+++
+2.1---------++
-1.1----------+
TPRTP/(TP+FN)0/50/51/51/51/51/52/53/54/55/55/5
FPRFP/(FP+TN)0/51/51/52/53/54/54/54/54/54/55/5

在这里插入图片描述
结论:学习器A的ROC图包含了学习器B的ROC图,故学习器A的效果更好。

3、ROC曲线与PR曲线的区别

(1) 不同点:

① ROC曲线是单调,方便调参,可以用AUC的值得大小来评价分类器的好坏,PR曲线不单调。
② 数据不平衡时,PR曲线是敏感的,随着正负样本比例的变化,PR会发生强烈的变化,因此能够看出分类器随着样本比例变化的效果以此进行模型的改进。ROC曲线不敏感,故其曲线能够基本保持不变,面对不平衡数据的一致性表明其能够衡量一个模型本身的预测能力。

(2)使用场景

①ROC曲线由于兼顾正例与负例,所以适用于评估分类器的整体性能,相比而言PR曲线完全聚焦于正例,故如果想要评估在相同的类别分布下正例的预测情况,则宜选PR曲线。
②如果有多份数据且存在不同的类别分布,比如广告点击率预测问题中每个月正例和负例的比例可能都不相同,类别分布改变可能使得PR曲线发生变化时好时坏,则比较分类器的性能时选用ROC曲线比较适合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值