22、第二届对话智能挑战赛(ConvAI2)解读

第二届对话智能挑战赛(ConvAI2)解读

1. 模型提问问题分析

在对话中,模型提问的频率和质量对对话体验有着重要影响。例如,某个模型使用疑问词进行回应达 107 次,而人类仅 12 次。当模型提问过多时,会让对话显得脱节,尤其是当问题与之前的对话无关时。友好的闲聊需要在提问和回答之间取得微妙的平衡。以 Hugging Face 模型为例,其过度提问的倾向可能对人类评估结果产生了负面影响。因此,未来的工作应考虑如何自动评估这种对话层面的表现,而不仅仅是语句层面的表现。

2. 角色检测情况

从 Mechanical Turk 评估的角色检测分数来看,大多数模型在这一指标上表现相对较好(Happy Minions 模型除外)。该分数是标注者能够将模型的角色与随机角色区分开的百分比。我们经常观察到模型几乎逐字重复角色语句,这可能导致角色检测分数较高,但参与度分数较低。如何训练模型利用角色来创建引人入胜的回应,而不仅仅是复制角色语句,仍然是一个有待解决的问题。

3. 参赛模型概述

以下是一些顶级参赛模型的简要介绍:
| 团队名称 | 模型概述 |
| — | — |
| Lost in conversation | 基于 OpenAI GPT 的生成式变压器。在 PERSONA - CHAT(原始 + 修订版)、DailyDialog 和 reddit 评论上进行训练 |
| Hugging face | 预训练的生成式变压器(Billion Words + CoNLL 2012),并迁移到 PERSONA - CHAT |
| Little baby | 通过多粒度深度匹配网络进行配置文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值