29、半监督学习中可靠性评估对自训练算法性能的影响

半监督学习中可靠性评估对自训练算法性能的影响

1. 研究背景与目标

在分类任务里,准确评估分类结果的可靠性至关重要。尽管目前已经有多种评估分类可靠性的方法,但在半监督学习中,选择合适的可靠性评估方法尤为关键。因为在使用未标记数据进行训练时,分类器的性能可能会下降。虽然理论上若基础模型假设正确,未标记数据能降低误差,但一旦存在建模误差,使用未标记数据可能弊大于利。

本文聚焦于特定半监督方法——自训练算法,旨在评估选择合适的可靠性评估技术对其性能的影响,并探寻自训练过程何时能对分类器性能产生积极影响的准则。

2. 自训练半监督方法

自训练半监督学习算法的架构如下:

graph LR
    A[标记样本] --> B[分类器]
    C[未标记样本] --> B
    B --> D[可靠性评估模块]
    D --> E[阈值模块]
    E -->|可靠性>阈值| F[加入训练集]
    F --> B
    E -->|可靠性<阈值| C
  • 分类器最初使用可用的标记样本进行训练,然后对大量未标记样本进行分类。
  • 分类器的输出进入可靠性评估模块,该模块为每个分类结果给出一个介于 0(完全不可靠)到 1(完全可靠)之间的数值可靠性值。
  • 阈值模块依据预先设定的阈值 τ 对样本进行划分,可靠性高于阈值的样本被添加到训练集,分类器重新训练;可靠性低于阈值的样本再次进行处理。
  • 这些步骤通常会重复进行,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值