背景
模型训练的一大难点是数据标注,一般是靠标注大规模数据来提升模型效果,但相应的会消耗大量人力和时间成本,因此一些缩减标注数据规模但不减模型效果的方法应运而生,通过主动学习挑选训练样本就是其中比较热门的方法。
主动学习(Active Learning)通过设计合理的样本挑选策略,不断从未标注的数据中挑选出优质数据加入标注后放入训练集。简单来说,主动学习的思想是通过模型自己选择对模型贡献最大的样本作为训练语料,以达到有效地降低标注成本的同时迅速提高模型的识别能力。
样本选择的原则是优先选择对模型“信息量大”的样本,在通常情况下,信息量大被诠释为不确定性较高和多样性高。
基于不确定性:从模型预测结果来看,挑选模型预测不准的,即当前模型较难解决的部分样本。
基于多样性:从样本间相似性来看,从未标注样本中挑选与已标注样本差异大的,覆盖问题信息比较多的样本。
策略介绍
如果挑选样本,有很多策略,这里主要介绍目前几种主流的策略。
下面都是基于序列标注模型介绍,样本的每个文字都会预测输出多个标签,每个标签有一个概率值(可以理解成预测为该标签的置信度)
1 NLC-每字最高分的平均值
基于置信度-平均分(NLC)
公式:
y*表示字符串x的最大概率的标签
策略:取每个字预测最高分的平均值作为筛选分
优劣势:该方法是基础策略,简单实用,但效果不是很好
2 去掉高分后平均值
基于置信度-平均分(去掉高分)
策略:考虑到一般大部分字的预测分数很高,只有重点个别字分数较低,按第一种策略平均后容易导致整体分数较高,看不出个别字差的问题,因此舍弃高分字后再按第一种策略筛选
优劣势:效果并没有明显改善
3 MNLP-最高分取log后的平均值
基于置信度-平均分(MNLP)
Maximum Normalized Log-Probability (MNLP)
公式:
策略:相比第一种策略,对预测分取了log,变化不大
优劣势:效果并没有明显改善
4 每字信息熵的平均值
基于置信度-平均分(entropy)

ŷ是x所有可能的标签
策略:每个字按上面公式计算信息熵,一个样本再取每个字信息熵的平均值作为筛选分
优劣势:利用到的信息更多,计算更全面,但效果还是没有明显改善
5 LTP-每字最高分中的最低分
基于置信度-最低分(LTP)