基于序列标注模型的主动学习实验

文章介绍了主动学习在减少数据标注成本和提升模型效果方面的应用,特别是针对序列标注模型的策略,如NLC、MNLP、信息熵和LTP等。实验表明,LTP和LTP+未登录实体概率策略在降低标注需求的同时能保持模型性能,其中LTP+未登录实体概率策略效果最佳,但复杂度较高,一般推荐使用LTP策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

模型训练的一大难点是数据标注,一般是靠标注大规模数据来提升模型效果,但相应的会消耗大量人力和时间成本,因此一些缩减标注数据规模但不减模型效果的方法应运而生,通过主动学习挑选训练样本就是其中比较热门的方法。

主动学习(Active Learning)通过设计合理的样本挑选策略,不断从未标注的数据中挑选出优质数据加入标注后放入训练集。简单来说,主动学习的思想是通过模型自己选择对模型贡献最大的样本作为训练语料,以达到有效地降低标注成本的同时迅速提高模型的识别能力。

样本选择的原则是优先选择对模型“信息量大”的样本,在通常情况下,信息量大被诠释为不确定性较高和多样性高。

基于不确定性:从模型预测结果来看,挑选模型预测不准的,即当前模型较难解决的部分样本。

基于多样性:从样本间相似性来看,从未标注样本中挑选与已标注样本差异大的,覆盖问题信息比较多的样本。

策略介绍

如果挑选样本,有很多策略,这里主要介绍目前几种主流的策略。

下面都是基于序列标注模型介绍,样本的每个文字都会预测输出多个标签,每个标签有一个概率值(可以理解成预测为该标签的置信度)

1 NLC-每字最高分的平均值

基于置信度-平均分(NLC)

公式:

y*表示字符串x的最大概率的标签

策略:取每个字预测最高分的平均值作为筛选分

优劣势:该方法是基础策略,简单实用,但效果不是很好

2 去掉高分后平均值

基于置信度-平均分(去掉高分)

策略:考虑到一般大部分字的预测分数很高,只有重点个别字分数较低,按第一种策略平均后容易导致整体分数较高,看不出个别字差的问题,因此舍弃高分字后再按第一种策略筛选

优劣势:效果并没有明显改善

3 MNLP-最高分取log后的平均值

基于置信度-平均分(MNLP)

Maximum Normalized Log-Probability (MNLP)

公式:

策略:相比第一种策略,对预测分取了log,变化不大

优劣势:效果并没有明显改善

4 每字信息熵的平均值

基于置信度-平均分(entropy)

ŷ是x所有可能的标签

策略:每个字按上面公式计算信息熵,一个样本再取每个字信息熵的平均值作为筛选分

优劣势:利用到的信息更多,计算更全面,但效果还是没有明显改善

5 LTP-每字最高分中的最低分

基于置信度-最低分(LTP)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值