11/16
BERT for Coreference Resolution
- Coreference Resolution(共指解析/指代消解)
1.共指解析是指NLP中的一个基本任务,目的在于自动识别表示同一个实体的名词短语或者代词,并将他们归类。
2.实体(entity):知识库中唯一存在的条目,所有名词代词所指的这个东西就是实体。
3.指称(mention):实体的指代形式。
4.共指(coreferent):如果多个指称所指是同一个实体,则指称之间有共指关系。
5.前指(anaphoric):指称在另一个指称前面。
6.回指:代词具体指的事物依赖与先行词的内容。
7.应用:信息抽取,文本摘要,自动问答,机器翻译等。
8.评测指标:MUC F-score,B-Cubed (B^3) F-score ,Constrained entity-alignment F-measure(CEAF)
- 指代消解模型
Mention Pair models
Mention ranking models
Entity-Mention models
监督Mention-Pair model:根据指代关系构建正负样本,然后二分类(二分类器也会结合相应语法规则)。
- 神经网络指代消解模型
1.首先找出所有指称
2.对于某个词,和之前的指称构成pair,对每一个pair打分,new表示该词没有被指代
3.每次打分最高的构成指代关系
- 强化学习
1.几种错误类型:False New,False Anaphoric,Wrong Link
2.根据不同的错误类型,在训练时乘以不同的惩罚系数
3.在训练中自动学习权重系数
4.Action序列:对每个pair设置action值ai,同时利用b3来设计奖励函数
5.REINFORCE 算法来训练:利用softmax归一化打分情况,然后最大化决策序列的奖励期望,这种方法仍然要手动设定系数,同时优化目标并不是我们的最终目标。
6.Reward-Rescaling算法来训练:没有奖励系数,而是将某个改动带来的奖励下降作为惩罚系数