23、主动学习在不同机器学习任务中的应用

主动学习在不同机器学习任务中的应用

1. 序列标注中的主动学习

在序列标注中应用主动学习,需要在验证数据上进行训练。此时,需确定验证数据中“正确”和“错误”的定义。若更关注某些特定序列,可仅将这些序列的错误标记为新模型中的“错误”,着重处理最关心的错误类型。同时,要决定是按每个标记的错误率还是按整个序列来计算错误率。作为起点,可采用与机器学习模型计算准确率相同的方法来计算错误率,也可尝试其他方法。

1.1 按置信度和标记进行分层抽样

无论采用何种方法,都应将预测范围的阈值设低,避免只找到与数据中已存在的范围相似的范围,以免加剧偏差。可以使用与目标检测中相同的按置信度分层抽样方法,例如,按 0% - 10%、10% - 20% 等置信度区间,抽取相同数量的范围。此外,还可根据标记本身进行分层抽样,比如对“旧金山”(或其他序列)的范围样本进行限制,最多抽取 5 个或 10 个实例,从而使整体标记样本更具多样性。

1.2 创建与预测相似的代表性抽样训练数据样本

若对未标记文本进行裁剪以进行代表性抽样,那么训练数据也应进行相同的操作。若仅使用训练数据中的完美范围注释,而使用未标记数据中的不完美预测,那么“代表性”样本可能是不同裁剪策略的结果,而非实际范围的差异。可参考相关策略对训练数据和未标记数据进行裁剪以减少偏差,这些策略同样适用于范围抽样。与目标检测类似,可考虑对未裁剪的文本使用一些抽样方法,因为范围的上下文通常是为编码信息而优化的语言相关部分,而目标检测的背景更可能是随机的无用信息。一些简单的代表性抽样方法可能很有效,甚至无需构建模型,也可只关注训练数据中尚未出现的预测范围。

1.3 全序列标注
<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值