How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation
Abstract
本文调研了各种nlg系统的metric
近期的nlg metric从MT发展而来,本文发现这些metric与人类在Twitter领域非技术语料和Ubuntu领域技术语料的判断相关度很低,证明了现有的auto metric非常weak,并提出了将来automatic evaluation metrics可能的发展方向
Introduction
之前的研究发现,对于task-oriented的dialogue system,现有的auto metric可以得到与人类判断相近的判断
针对nontask-oriented的dialogue system(chatbot),端到端的nn不需要大规模的有标签数据
目前常用的一些automatic evaluation metrics
- machine translation
- BLEU
- METEOR
- automatic summarization
- ROUGE
这些metrics假设合法的回答与标准回答有重叠的词语,但有些合法的回答并没有显著的word-overla