利用自动编码器识别监督学习中的误标记图像及认知复杂度评估
1. 监督学习中的误标记问题
监督学习是一种基于给定输入 - 输出对,将输入映射到输出的机器学习技术。其训练数据由一组标记样本组成,每个标记样本包含输入数据和对应的期望输出。监督学习的目标是分析训练数据并生成一个推断函数,用于映射新的示例。
然而,监督学习基于训练数据中所有标签都准确的假设。在现实世界中,这个假设往往不成立。不准确的训练数据会导致意外的预测结果,在图像分类中,错误的标签可能会使分类模型不准确。
例如,在医学领域,数据标记通常由医学专家(如医生)进行判断,但医生存在一定的误诊率。因此,评估他们的判断并减少训练数据中的误判数据,对于降低训练模型的错误率至关重要。
2. 解决误标记问题的相关工作
为了最小化不准确训练标签的负面影响,有以下几种常见方法:
- 调整损失函数 :许多研究人员在保留网络架构、训练数据和训练程序的同时,仅修改损失函数。例如,使用交叉熵损失和影响函数等两个度量函数来识别误标记数据。
- 调整网络架构 :一些研究提出在深度学习网络的末端添加“去噪层”。例如,通过误差反向传播学习噪声标签和真实标签之间的转换矩阵,或者将质量变量嵌入不同子空间来识别潜在标签和噪声标签之间的不匹配,从而减少噪声影响。
- 修改训练方案 :Mixup 是一种不太直观但简单有效的学习原则,它通过在成对示例及其标签的凸组合上训练神经网络,使神经网络在训练示例之间倾向于简单的线性行为,从而减轻不准确标记的影响。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



