半监督学习中可靠性评估对自训练算法性能的影响
1. 研究背景与目标
在分类任务里,准确评估分类结果的可靠性至关重要。尽管目前已经有多种评估分类可靠性的方法,但在半监督学习中,选择合适的可靠性评估方法尤为关键。因为在使用未标记数据进行训练时,分类器的性能可能会下降。虽然理论上若基础模型假设正确,未标记数据能降低误差,但一旦存在建模误差,使用未标记数据可能弊大于利。
本文聚焦于特定半监督方法——自训练算法,旨在评估选择合适的可靠性评估技术对其性能的影响,并探寻自训练过程何时能对分类器性能产生积极影响的准则。
2. 自训练半监督方法
自训练半监督学习算法的架构如下:
graph LR
A[标记样本] --> B[分类器]
C[未标记样本] --> B
B --> D[可靠性评估模块]
D --> E[阈值模块]
E -->|可靠性>阈值| F[加入训练集]
F --> B
E -->|可靠性<阈值| C
- 分类器最初使用可用的标记样本进行训练,然后对大量未标记样本进行分类。
- 分类器的输出进入可靠性评估模块,该模块为每个分类结果给出一个介于 0(完全不可靠)到 1(完全可靠)之间的数值可靠性值。
- 阈值模块依据预先设定的阈值 τ 对样本进行划分,可靠性高于阈值的样本被添加到训练集,分类器重新训练;可靠性低于阈值的样本再次进行处理。
- 这些步骤通常会重复进行,
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



