读书会讨论第一讲问题
1、Bagging & Boosting
知乎上对于bias与boosting对于偏差方差的影响讲解的比较好,将其链接放这。
为什么说bagging减少variance,boosting减少bias?
引用其中我认为对此问题的必答点
(1)Bagging对样本重采样,对每一重采样得到的子样本集训练一个模型,最后取平均。子样本集的相似性及使用的同种模型,因此各模型有近似相等的bias和variance。
(2)因为 E [ ∑ X i n ] = E [ X i ] E[\frac{\sum{X_i}}{n}]=E[X_i] E[n∑Xi]=E[Xi],所以经过Bagging后bias和单个子模型接近,一般来说不能显著降低bias。另一方面,若各子模型独立,则 V a r ( [ ∑ X i n ] ) = V a r ( X i ) n Var([\frac{\sum{X_i}}{n}])=\frac{Var(X_i)}{n} Var([n∑Xi])=nVar(Xi),此时可以显著降低variance。若各子模型完全相同,则 V a r ( [ ∑ X i n ] ) = V a r ( X i ) Var([\frac{\sum{X_i}}{n}])=Var(X_i) Var([n∑Xi])=Var(Xi),此时不会降低variance
(3)boosting 是串联地最小化损失函数,其bias逐步下降。将许多弱分类器组合成一个强分类器,弱的分类器bias高,强的分类器bias低
| 对比方面 | Bagging | Boosting |
|---|---|---|
| 样本选择 | 训练集有放回,各轮训练集独立 | 每轮训练集不变,每个样例的权重改变,据上一轮结果调整 |
| 样例权重 | 均匀取样,每个样例权重相等 | 错误率越大,权重越大 |
| 预测函数 | 权重相等 | 分类误差小的分类器,权重大 |
| 并行计算 | 各个预测函数可以并行生成 | 各个预测函数只能顺序生成 |
2、P-R图与ROC曲线的绘制
绘图过程:假设给定m个正例子,n个反例子,根据模型预测结果进行排序,首先把分类阈值设为最大,使得所有例子均预测为反例,再将分类阈值依次设为每个样例的预测值,即依次将每个例子划分为正例。
| 实际类别 | 预测值 | 阈值11 | 阈值10 | 阈值9 | 阈值8 | 阈值7 | 阈值6 | 阈值5 | 阈值4 | 阈值3 | 阈值2 | 阈值1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| - | 10.1 | - | + | + | + | + | + | + | + | + | + | + |
| + | 9.1 | - | - | + | + | + | + | + | + | + | + | + |
| + | 8.1 | - | - | - | + | + | + | + | + | + | + | + |
| + | 7.1 | - | - | - | - | + | + | + | + | + | + | + |
| - | 6.1 | - | - | - | - | - | + | + | + | + | + | + |
| - | 5.1 | - | - | - | - | - | - | + | + | + | + | + |
| + | 4.1 | - | - | - | - | - | - | - | + | + | + | + |
| + | 3.1 | - | - | - | - | - | - | - | - | + | + | + |
| - | 2.1 | - | - | - | - | - | - | - | - | - | + | + |
| - | 1.1 | - | - | - | - | - | - | - | - | - | - | + |
| Recall | TP/(TP+FN) | 0/5 | 0/5 | 1/5 | 2/5 | 3/5 | 3/5 | 3/5 | 4/5 | 5/5 | 5/5 | 5/5 |
| Precision | TP/(FP+TP) | 0/0 | 0/1 | 1/2 | 2/3 | 3/4 | 3/5 | 3/6 | 4/7 | 5/8 | 5/9 | 5/10 |

比较对于同样的样本,不同学习器的好坏
A:[反正正正反反正正反反]
B : [反正反反反正正正正反]
按照绘图过程,可以得到学习器对应的
R
O
C
ROC
ROC曲线点
A:
y:[0,0,0.2,0.4,0.6,0.6,0.6,0.8,1,1,1]
x:[0,0.2,0.2,0.2,0.2,0.4,0.6,0.6,0.6,0.8,1]
B:
y:[0,0,0.2,0.2,0.2,0.2,0.4,0.6,0.8,1,1]
x:[0,0.2,0.2,0.4,0.6,0.8,0.8,0.8,0.8,0.8,1]
| 实际类别 | 预测值 | 阈值11 | 阈值10 | 阈值9 | 阈值8 | 阈值7 | 阈值6 | 阈值5 | 阈值4 | 阈值3 | 阈值2 | 阈值1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| - | 10.1 | - | + | + | + | + | + | + | + | + | + | + |
| + | 9.1 | - | - | + | + | + | + | + | + | + | + | + |
| + | 8.1 | - | - | - | + | + | + | + | + | + | + | + |
| + | 7.1 | - | - | - | - | + | + | + | + | + | + | + |
| - | 6.1 | - | - | - | - | - | + | + | + | + | + | + |
| - | 5.1 | - | - | - | - | - | - | + | + | + | + | + |
| + | 4.1 | - | - | - | - | - | - | - | + | + | + | + |
| + | 3.1 | - | - | - | - | - | - | - | - | + | + | + |
| - | 2.1 | - | - | - | - | - | - | - | - | - | + | + |
| - | 1.1 | - | - | - | - | - | - | - | - | - | - | + |
| TPR | TP/(TP+FN) | 0/5 | 0/5 | 1/5 | 2/5 | 3/5 | 3/5 | 3/5 | 4/5 | 5/5 | 5/5 | 5/5 |
| FPR | FP/(FP+TN) | 0/5 | 1/5 | 1/5 | 1/5 | 1/5 | 2/5 | 3/5 | 3/5 | 3/5 | 4/5 | 5/5 |
| 实际类别 | 预测值 | 阈值11 | 阈值10 | 阈值9 | 阈值8 | 阈值7 | 阈值6 | 阈值5 | 阈值4 | 阈值3 | 阈值2 | 阈值1 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| - | 10.1 | - | + | + | + | + | + | + | + | + | + | + |
| + | 9.1 | - | - | + | + | + | + | + | + | + | + | + |
| - | 8.1 | - | - | - | + | + | + | + | + | + | + | + |
| - | 7.1 | - | - | - | - | + | + | + | + | + | + | + |
| - | 6.1 | - | - | - | - | - | + | + | + | + | + | + |
| + | 5.1 | - | - | - | - | - | - | + | + | + | + | + |
| + | 4.1 | - | - | - | - | - | - | - | + | + | + | + |
| + | 3.1 | - | - | - | - | - | - | - | - | + | + | + |
| + | 2.1 | - | - | - | - | - | - | - | - | - | + | + |
| - | 1.1 | - | - | - | - | - | - | - | - | - | - | + |
| TPR | TP/(TP+FN) | 0/5 | 0/5 | 1/5 | 1/5 | 1/5 | 1/5 | 2/5 | 3/5 | 4/5 | 5/5 | 5/5 |
| FPR | FP/(FP+TN) | 0/5 | 1/5 | 1/5 | 2/5 | 3/5 | 4/5 | 4/5 | 4/5 | 4/5 | 4/5 | 5/5 |

结论:学习器A的ROC图包含了学习器B的ROC图,故学习器A的效果更好。
3、ROC曲线与PR曲线的区别
(1) 不同点:
① ROC曲线是单调,方便调参,可以用AUC的值得大小来评价分类器的好坏,PR曲线不单调。
② 数据不平衡时,PR曲线是敏感的,随着正负样本比例的变化,PR会发生强烈的变化,因此能够看出分类器随着样本比例变化的效果以此进行模型的改进。ROC曲线不敏感,故其曲线能够基本保持不变,面对不平衡数据的一致性表明其能够衡量一个模型本身的预测能力。
(2)使用场景
①ROC曲线由于兼顾正例与负例,所以适用于评估分类器的整体性能,相比而言PR曲线完全聚焦于正例,故如果想要评估在相同的类别分布下正例的预测情况,则宜选PR曲线。
②如果有多份数据且存在不同的类别分布,比如广告点击率预测问题中每个月正例和负例的比例可能都不相同,类别分布改变可能使得PR曲线发生变化时好时坏,则比较分类器的性能时选用ROC曲线比较适合。
本文深入探讨了Bagging与Boosting在偏差与方差上的影响,解析了两者如何分别减少variance和bias。同时,文章详细介绍了ROC曲线与PR曲线的绘制方法及其在评估分类器性能方面的区别,提供了丰富的实例分析。

被折叠的 条评论
为什么被折叠?



