主动学习在不同机器学习任务中的应用
1. 序列标注中的主动学习
在序列标注任务中,利用验证数据进行训练时,需要明确验证数据中“正确”和“错误”的定义。若对某些序列更为关注,可仅将这些序列的错误视为新模型中的“错误”,聚焦于最关心的错误类型。同时,要决定是按每个标记(token)的错误还是整个序列的错误来计算误差。作为起始点,可采用与机器学习模型计算准确率相同的方法来计算误差,也可尝试其他方法。
以下是一些具体的采样策略:
- 按置信度和标记进行分层采样
- 无论使用何种方法,都应将预测跨度的阈值设置得较低,避免仅找到与数据中已存在的跨度相似的跨度,以免延续偏差。可采用与目标检测中相同的按置信度分层采样方法,例如在 0% - 10%、10% - 20% 等置信度区间内采样相同数量的跨度。
- 还可根据标记本身进行分层采样。例如,对“旧金山”(或其他序列)的跨度样本进行限制,最多采样 5 或 10 个实例,从而使整体标记的多样性更高。
- 创建与预测相似的训练数据样本用于代表性采样
- 若为代表性采样裁剪未标记文本,对训练数据也应进行相同操作。若仅使用训练数据中的完美跨度注释,而使用未标记数据中的不完美预测,“代表性”样本可能是不同裁剪策略的结果,而非实际跨度差异。
- 可考虑对未裁剪文本使用一些采样方法。由于跨度的上下文通常是经过优化以编码信息的语言相关部分,而目标检测的背景更可能是随机的无用信息,因此在这里可能更适合这样做。一些简单的代表性采样方法可能很有效,甚至可能无需构建模型,也可仅关注训练数据中尚未出现的预测跨度。
- 全序列标注
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



