第二届对话智能挑战赛(ConvAI2)解读
1. 模型提问问题分析
在对话中,模型提问的频率和质量对对话体验有着重要影响。例如,某个模型使用疑问词进行回应达 107 次,而人类仅 12 次。当模型提问过多时,会让对话显得脱节,尤其是当问题与之前的对话无关时。友好的闲聊需要在提问和回答之间取得微妙的平衡。以 Hugging Face 模型为例,其过度提问的倾向可能对人类评估结果产生了负面影响。因此,未来的工作应考虑如何自动评估这种对话层面的表现,而不仅仅是语句层面的表现。
2. 角色检测情况
从 Mechanical Turk 评估的角色检测分数来看,大多数模型在这一指标上表现相对较好(Happy Minions 模型除外)。该分数是标注者能够将模型的角色与随机角色区分开的百分比。我们经常观察到模型几乎逐字重复角色语句,这可能导致角色检测分数较高,但参与度分数较低。如何训练模型利用角色来创建引人入胜的回应,而不仅仅是复制角色语句,仍然是一个有待解决的问题。
3. 参赛模型概述
以下是一些顶级参赛模型的简要介绍:
| 团队名称 | 模型概述 |
| — | — |
| Lost in conversation | 基于 OpenAI GPT 的生成式变压器。在 PERSONA - CHAT(原始 + 修订版)、DailyDialog 和 reddit 评论上进行训练 |
| Hugging face | 预训练的生成式变压器(Billion Words + CoNLL 2012),并迁移到 PERSONA - CHAT |
| Little baby | 通过多粒度深度匹配网络进行配置文
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



