22、第二届对话智能挑战赛（ConvAI2）解读-优快云博客

本文链接：https://blog.youkuaiyun.com/lambda/article/details/152640132

第二届对话智能挑战赛（ConvAI2）解读

1. 模型提问问题分析

在对话中，模型提问的频率和质量对对话体验有着重要影响。例如，某个模型使用疑问词进行回应达 107 次，而人类仅 12 次。当模型提问过多时，会让对话显得脱节，尤其是当问题与之前的对话无关时。友好的闲聊需要在提问和回答之间取得微妙的平衡。以 Hugging Face 模型为例，其过度提问的倾向可能对人类评估结果产生了负面影响。因此，未来的工作应考虑如何自动评估这种对话层面的表现，而不仅仅是语句层面的表现。

2. 角色检测情况

从 Mechanical Turk 评估的角色检测分数来看，大多数模型在这一指标上表现相对较好（Happy Minions 模型除外）。该分数是标注者能够将模型的角色与随机角色区分开的百分比。我们经常观察到模型几乎逐字重复角色语句，这可能导致角色检测分数较高，但参与度分数较低。如何训练模型利用角色来创建引人入胜的回应，而不仅仅是复制角色语句，仍然是一个有待解决的问题。

3. 参赛模型概述