计算机视觉与自然语言处理技术解析
1. 数据采样与AdaBoost分类
1.1 数据采样过程
首先,创建一个与原始数据集大小相同的空数据集。接着,在0到1之间选取一个随机数,依据样本权重的分布来确定该随机数所在区间,进而决定将原始数据集中的哪一行添加到新数据集中。例如:
- 若随机数在0到0.07之间,将第一行添加到新数据集。
- 若在0.07到0.14之间,添加第二行。
- 若在0.14到0.21之间,添加第三行。
- 若在0.21到0.70之间,添加第四行。
重复此过程,不断选取随机数并添加样本到新数据集,直至新数据集大小与原始数据集相同。在此过程中,样本权重较高的行可能会多次被添加到新数据集中。
1.2 AdaBoost分类原理
AdaBoost创建的决策树桩森林用于分类。以判断患者是否患有心脏病为例,假设有四个决策树桩判断患者患有心脏病,其判断值分别为0.97、0.32、0.78和0.63;另外两个决策树桩判断患者未患有心脏病,判断值分别为0.41和0.82。将判断为阳性的决策树桩判断值相加得2.7,判断为阴性的相加得1.23。由于阳性判断值总和大于阴性,所以最终判断患者患有心脏病。这体现了前一个决策树桩的错误会影响后一个决策树桩的生成。
1.3 相关流程
graph LR
A[创建空数据集] --> B[选取0 - 1随机数]
B --> C{判断随机数区间}
C -->|0 - 0.07| D[添加第一行到新数据集]
C --
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



