Active learning by querying informative andrepresentative examples
PAMI 2014
本文主旨:将优化问题转换为在每一轮中选择的样本使得所有的样本损失最小,包括已标记样本和未标记样本。
Informative and representative :
Informative: 位于分类面边缘上的数据,比如说DNN paper中选取熵最大的数据。但是这样会带来一个问题,容易忽略数据原有的概率分布。特别是在小部分数据出现误检的时候,仅仅依靠离分类面远近是无法判断的。
Representative:寻找数据潜在的分布规律。通常利用聚类实现。不足之处在于,不能确定每类的label相同,同时不便于控制选择的数据量。
本文提出了一种新的方法,QUIRE,给出寻找informative 和representative 的衡量和折中。
QUIRE:
Query informative and representativeexamples
在新的一轮中,不论选中的x的label是什么,都会使得所有样本的损失最小。
SVM classifier
Active learning using pre-clustering
将clustering 和classification 结合起来,避免同一cluster中sample的重复标记。
方法局限于linear logistic regression. 本文目的仅仅为了说明clusteringinformation的优越性。
使用soft clustering membership, 允许一个sample以某一概率和多个cluster相连接。
两类分类问题
Active learning by learning