主动学习在不同机器学习任务中的应用
1. 序列标注中的主动学习
在序列标注中应用主动学习,需要在验证数据上进行训练。此时,需确定验证数据中“正确”和“错误”的定义。若更关注某些特定序列,可仅将这些序列的错误标记为新模型中的“错误”,着重处理最关心的错误类型。同时,要决定是按每个标记的错误率还是按整个序列来计算错误率。作为起点,可采用与机器学习模型计算准确率相同的方法来计算错误率,也可尝试其他方法。
1.1 按置信度和标记进行分层抽样
无论采用何种方法,都应将预测范围的阈值设低,避免只找到与数据中已存在的范围相似的范围,以免加剧偏差。可以使用与目标检测中相同的按置信度分层抽样方法,例如,按 0% - 10%、10% - 20% 等置信度区间,抽取相同数量的范围。此外,还可根据标记本身进行分层抽样,比如对“旧金山”(或其他序列)的范围样本进行限制,最多抽取 5 个或 10 个实例,从而使整体标记样本更具多样性。
1.2 创建与预测相似的代表性抽样训练数据样本
若对未标记文本进行裁剪以进行代表性抽样,那么训练数据也应进行相同的操作。若仅使用训练数据中的完美范围注释,而使用未标记数据中的不完美预测,那么“代表性”样本可能是不同裁剪策略的结果,而非实际范围的差异。可参考相关策略对训练数据和未标记数据进行裁剪以减少偏差,这些策略同样适用于范围抽样。与目标检测类似,可考虑对未裁剪的文本使用一些抽样方法,因为范围的上下文通常是为编码信息而优化的语言相关部分,而目标检测的背景更可能是随机的无用信息。一些简单的代表性抽样方法可能很有效,甚至无需构建模型,也可只关注训练数据中尚未出现的预测范围。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



