机器学习领域研究热点与主动学习方法探索
1. 主动学习方法介绍
1.1 样本筛选策略
在主动学习中,有一套有效的样本筛选策略,具体步骤如下:
1. 设置超参数 :设定超参数β,其中βv1, βv2, …, βvn 作为每个类别的阈值。
2. 计算信息熵并排序 :对于所有剩余的未标记样本,根据主视图中网络输出的预测概率计算信息熵,并按照信息熵从高到低对样本进行排序。
3. 样本筛选 :遍历排序后的未标记样本,如果所选未标记样本中没有被预测为同一类别的样本,则直接添加;如果有同一类别的样本,则逐一与所选样本计算方差并取平均值作为样本相似度,然后与阈值进行比较。样本相似度的定义如下:
[u = \frac{1}{q} \sum_{i=1}^{q} D(y_i - y_p)]
其中,q 是候选未标记样本集已添加的相似样本数量,yp 是当前筛选样本的预测概率向量。
- 若相似度大于阈值,意味着该样本与所选样本略有不同,需要手动标记并添加到所选样本集中。
- 若相似度小于阈值,表明该样本与所选样本相似度较高,无需标记,可忽略。
通过这种筛选策略,可以考虑样本的更多特征,使所选待标记样本在样本空间中的分布更加分散。
1.2 实验对比
为了验证该方法的有效性,使用了 CEAL 方法和 VAAL 方法作为对比。VAAL 方法基于样本性能,通过编码器学习样本数据的潜在分布以获得低维特征空间,再用解码器重构编码数据,最后利用对抗网络对标记和未标记数据进行聚类(分类),选择对
超级会员免费看
订阅专栏 解锁全文
846

被折叠的 条评论
为什么被折叠?



