[论文笔记] 2021-AAAI-Continual Learning for Named Entity Recognition
0 写在前面
什么是持续学习?
我们人类有能够将一个任务的知识用到另一个任务上的能力,学习后一个任务时也不会忘记如何做前一个任务。这种能力叫持续学习 (continual learning/ life-long learning) 总结为两点:
- 如何能把之前任务的经验用上,使得更快更好的学习当前任务;
- 学习当前任务时,不会忘记之前已经学会的任务。
Introduction
Motivation
-
一些真实场景下,需要经常引入新的实体类型
举例语音助手Siri,
-
当存储限制或安全问题限制访问时,为新的实体类型标注新的数据集代价昂贵,甚至不可能
-
原始的训练数据可能不再提供
-
原始的训练数据也不一定包含足够数量的新的实体类型
思路
-
为模型应该识别的所有实体注释一个新的数据集
随着实体类型的增加,为所有实体类型标注新的数据集不切实际且容易出错
-
仅为新的实体类型进行标注一个新的数据集,并结合持续学习,以此数据来更新模型
容易受到以前实体类型的灾难性遗忘
所以寻求让现有的NER模型的知识传授给一个新的模型
- 自训练
确实只用标新的实体类型了,但是旧模型的误差被传播到了新的模型[1]^{[1]}[1]中,而没有考虑到旧模型预测的不确定性可以帮助新模型更好的了解旧实体[2]^{[2]}[2]
[1] 自训练是用能识别旧实体的模型去标注新数据集中旧实体,这是hard label,旧模型也不是百分百准确的,旧模型的误差被传播到了新的模型中就是说的这个问题
[2] 这种不确定性是指soft label 取代one-hot
- 知识蒸馏
采用KD是为了避免以前实体类型的灾难性遗忘,而不是为了压缩模型
为了学生模型和教师模型的行为相似,学生模型被鼓励学习教室模型的输出概率分布,而不是标签
-
contribution
- 将CL技术应用到了NLU领域,以逐步学习NER的新的实体类型
- 方法可以是模型能够持续学习新的实体类型而不失去识别旧实体类型的能力
- 以半监督策略取得与完全监督设置相当的结果
Method
符号定义
最初已经训练好的模型为MiM_iMi,可识别的实体类型有Ei={ e1,…,en}E_{i}=\left\{e_{1}, \ldots, e_{n}\right\}Ei={ e1,…,en}
我们想要训练一个新的模型Mi+1M_{i+1}Mi+1,以期望识别新的实体类型Enew ={ en+1,en+2,…,en+m}E^{\text {new }}=\left\{e_{n+1}, e_{n+2}, \ldots, e_{n+m}\right\}Enew ={ en+1,en+2,…,en+m}和旧的实体类型EiE_iEi
我们仅标注一个新的数据集DnewD^{new}Dnew中的新实体类型EnewE^{new}Ene

最低0.47元/天 解锁文章
1235






