论文阅读-Towards Quantifiable Dialogue Coherence Evaluation

目录

出处

背景

1. 现有的自动评价方式

 2. 本文出发点

模型

效果

1. 和其他自动评价指标相比

2. 采用不同的loss

3. GoodCase及BadCase


出处

中山大学2021年提出的评价指标训练框架QuantiDCE,输出一个分数来衡量对话连贯性。论文开源代码

背景

连贯性可以很好很直观的评价对话效果。

1. 现有的自动评价方式

1. 大多自动评价指标都是照搬机器翻译的,比如基于词overlap的BLEU、ROUGE等。

2. 现在转向基于深度神经网络的自动指标,希望模型能自动学习连贯不连贯的情况,并具有一定的泛化能力。

        (1)比如2018年的RUBER、2019年的BERT-RUBER、2020年的GRADE(STOA)。这类指标从结果上看比BLEU在整体能给出更准确的评价。

        (2)这类模型结构上看,输入是context和Response,编码器(如RNN,transformer)来进行特征提取,最后接一个分数预测模块输出。在loss的选择上,常用的有CEL(交叉熵损失)和MRL(排序损失)。

        (3)将原始对话数据作为正样本,再用一些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值