摘要 解决高光谱图像中样本不足的两种途径有主动学习和半监督学习。前者提高样本的质量,后者试图提高样本数量。 代表信息:有监督的聚类结果获取未标记样本的重要的结构信息。结合主动学习,结合判别信息(SVM分类器)。
介绍
主动学习:考察未标记数据,选择信息量最大的(most informative)的样本加入下一次迭代。选中的样本标记后加入L集(labeled),并从U集(unlabeled)中移除。主动学习需要人力去标记一些样本。
半监督学习:更关注未标记数据,以无监督的方式获取信息。
本文方法:DRDbSSAL: discovering representativeness and discriminativeness by semisupervised active learning. representativeness代表性试图捕捉未标记数据的整体分布,discriminativeness在给定的标记样本下提高分类准确率。两者之间有一个tradeoff。
相关工作
主动学习
选择最不确定的样本
1. entropy query-by-bagging(EQB)算法,考虑学习者中最不一致的样本
2. 基于后验概率的方法,度量候选样本的不确定性
3. 候选样本的不确定性通过衡量其与分类器的margin来表示,比如SVM
考虑uncertainty和diversity,用到的工具有SVM、kernel k means、SOM神经网络等
半监督学习
结合主动学习的方法,主动学习选择信息量最大的样本交给人类专家进行标记,剩余未标记的数据由分类器分类。但以往方法更多关注分类器,也就是判别(discriminative)信息,忽视了代表representative信息。本文方式就可以挖掘到未标记样本的代表信息。
本文方法
记总样本集为D,已知标签的样本集为L,未知的为U(主动学习的candidate pool)。U中的一些样本可以被分给伪标签来改进训练模型,记为T,剩余的不能分配给伪标签的记为S。
A. 主动学习的query function
query function是主动学习的关键,其选择最具信息量的样本交给人类专家做标记。本文提出的DRDbSSAL方法采用了MCLU这种衡量的方法,multiclass level uncertainty。
binary SVM分类器,one-against-all结构,每个样本x∈Ux∈U 到每个hyperplane的距离表示为{
f