29、计算机视觉与自然语言处理技术解析

计算机视觉与自然语言处理技术解析

1. 数据采样与AdaBoost分类

1.1 数据采样过程

首先,创建一个与原始数据集大小相同的空数据集。接着,在0到1之间选取一个随机数,依据样本权重的分布来确定该随机数所在区间,进而决定将原始数据集中的哪一行添加到新数据集中。例如:
- 若随机数在0到0.07之间,将第一行添加到新数据集。
- 若在0.07到0.14之间,添加第二行。
- 若在0.14到0.21之间,添加第三行。
- 若在0.21到0.70之间,添加第四行。

重复此过程,不断选取随机数并添加样本到新数据集,直至新数据集大小与原始数据集相同。在此过程中,样本权重较高的行可能会多次被添加到新数据集中。

1.2 AdaBoost分类原理

AdaBoost创建的决策树桩森林用于分类。以判断患者是否患有心脏病为例,假设有四个决策树桩判断患者患有心脏病,其判断值分别为0.97、0.32、0.78和0.63;另外两个决策树桩判断患者未患有心脏病,判断值分别为0.41和0.82。将判断为阳性的决策树桩判断值相加得2.7,判断为阴性的相加得1.23。由于阳性判断值总和大于阴性,所以最终判断患者患有心脏病。这体现了前一个决策树桩的错误会影响后一个决策树桩的生成。

1.3 相关流程

graph LR
    A[创建空数据集] --> B[选取0 - 1随机数]
    B --> C{判断随机数区间}
    C -->|0 - 0.07| D[添加第一行到新数据集]
    C --
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值