机器学习与图像分析:应对数据缺失与艺术照明分析挑战
1. 缺失或不完整数据的学习
在实际应用中,数据缺失或不完整是一个常见的问题。造成数据缺失的原因多种多样,在工程应用中可能是传感器故障,在医学调查中可能是故意隐瞒某些信息;在监督学习算法中,可能缺少已解决(有标签)的案例。然而,目前很少有模式识别技术能够直接且高效地处理缺失值,这与人类处理未知数据的高效方式形成鲜明对比。
在模式识别或分类系统中,缺失标签和缺失特征的问题通常分开处理。标签的可用性决定了可以使用的学习算法类型,这导致了监督学习、无监督学习以及最近引入的混合/半监督学习算法的分类。
- 监督学习与无监督学习 :监督学习算法通常能设计出性能良好且稳健的分类器,但在许多实际应用中,数据标注成本高昂,只能在一定程度上进行。无监督学习虽然能处理大量未标注数据,但构建的分类器性能往往不如监督学习的分类器。因此,混合监督和无监督学习受到了广泛关注。实验结果表明,在未标注样本的支持下,通常可以使用更少的标注数据来构建分类器,而不影响分类性能。如果只有非常有限的标注数据,随机选择标注样本的结果会有很大的可变性,最终分类器的性能更依赖于标注数据样本的可靠性,而不是额外未标注数据的使用。
- 处理缺失特征值的方法 :处理缺失特征值有很多方法,最常用的方法可以在统计学文献中找到,如多重插补法和期望最大化(EM)算法被认为是最先进的方法。然而,这些修复后的数据集可能不再能很好地代表实际问题,往往导致远非最优的解决方案。
为了解决这些问题,提出了一种不同的统一方法,既可以从有标签和无标签的数据混合中学习,
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



