目录
出处
中山大学2021年提出的评价指标训练框架QuantiDCE,输出一个分数来衡量对话连贯性。论文及开源代码
背景
连贯性可以很好很直观的评价对话效果。
1. 现有的自动评价方式
1. 大多自动评价指标都是照搬机器翻译的,比如基于词overlap的BLEU、ROUGE等。
2. 现在转向基于深度神经网络的自动指标,希望模型能自动学习连贯不连贯的情况,并具有一定的泛化能力。
(1)比如2018年的RUBER、2019年的BERT-RUBER、2020年的GRADE(STOA)。这类指标从结果上看比BLEU在整体能给出更准确的评价。
(2)这类模型结构上看,输入是context和Response,编码器(如RNN,transformer)来进行特征提取,最后接一个分数预测模块输出。在loss的选择上,常用的有CEL(交叉熵损失)和MRL(排序损失)。
(3)将原始对话数据作为正样本,再用一些