How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for

How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation

Abstract

本文调研了各种nlg系统的metric

近期的nlg metric从MT发展而来,本文发现这些metric与人类在Twitter领域非技术语料和Ubuntu领域技术语料的判断相关度很低,证明了现有的auto metric非常weak,并提出了将来automatic evaluation metrics可能的发展方向

Introduction

之前的研究发现,对于task-oriented的dialogue system,现有的auto metric可以得到与人类判断相近的判断

针对nontask-oriented的dialogue system(chatbot),端到端的nn不需要大规模的有标签数据

目前常用的一些automatic evaluation metrics

  • machine translation
    • BLEU
    • METEOR
  • automatic summarization
    • ROUGE

这些metrics假设合法的回答与标准回答有重叠的词语,但有些合法的回答并没有显著的word-overla

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值