31、探索非目标导向对话系统:ConvAI2的洞察与展望

探索非目标导向对话系统:ConvAI2的洞察与展望

无效对话分析

在对话数据处理中,部分虽长度足够但仍被舍弃的对话值得深入分析。经手动分析发现,部分对话存在技术问题,如聊天机器人和人类反复重复相同短语。此外,人类回复过短(1 - 3 个单词)的对话,按规则被标记为不良对话,但这类对话是否应舍弃存疑。在现实场景中,人们与聊天机器人交流时往往较为被动保守,不愿主导对话,而是等待系统给出有趣或搞笑的回应。有时,人类评估者会因聊天机器人的意外表述而给出更长回复,分析此类情况有助于提升用户参与度。还有一些对话中,人类参与者表现正常,但偶尔使用了粗俗语言,这类对话按规定被舍弃,但在现实与聊天机器人的交互中很常见,对其分析有助于了解人们在不受控环境下的沟通策略。

任务比较

ConvAI竞赛旨在为非目标导向对话系统制定评估方案。在2017年和2018年的竞赛中,分别测试了关于维基百科文章的讨论和个性化闲聊两个任务,目的是确定哪个任务更适合评估闲聊系统。一个好的任务应明确定义用户行为并限制话题范围,无限制的对话对聊天机器人和用户都具有挑战性。此前的手动分析表明,许多用户不喜欢维基百科文章讨论任务,因其提供的文本往往枯燥难读。通过比较2017年和2018年的对话,可了解新任务是否提高了用户参与度。
- 用户参与度 :2018年对话平均长度从2017年的17个语句增加到22个,这表明聊天机器人能更长时间吸引用户注意力,可能反映了提交到ConvAI2的模型质量更高以及用户对任务的兴趣增加。但需注意,对话长度与质量的相关性较弱,不过吸引用户注意力是实现良好对话的重要一步。
- 聊天机器人任务难度 :2018年对话得分更高,用户更频繁地给对话打“4”和“5”分。这可能是由于用户参与度提高以及任务对聊天机器人来说更简单,系统在这类对话中表现更好。为排除个别优秀模型影响平均值的可能性,计算了单个聊天机器人的平均对话级和语句级得分,结果显示2018年表现最好和最差的聊天机器人得分都高于2017年,说明任务总体上对对话系统更容易。

年份 最佳机器人对话级得分 最差机器人对话级得分 平均对话级得分 最佳机器人语句级得分 最差机器人语句级得分 平均语句级得分
2017 2.4 1.4 2.2 0.52 0.19 0.44
2018 3.3 2.1 2.9 0.72 0.29 0.61
评估方案分析
  • 多指标评估 :去年使用了对话整体质量、对话广度和同伴参与度三个对话级评估指标,结果显示这些指标高度相关,皮尔逊r得分达到0.85。
  • 一致性评估 :今年只保留了质量指标,并引入了聊天机器人一致性评估的新指标。通过让用户在对话后从两个角色描述中选择同伴所属角色来评估一致性。然而,质量和角色检测得分的相关性为0.45,表明模型可能在保持一致性的同时无法产生高质量对话,例如随机讲述与对话无关的角色信息虽能提高角色检测得分,但不能提升系统质量,因此角色检测得分不能用于衡量系统质量。
  • 对话质量代理指标 :去年尝试寻找能作为对话质量代理的参数,发现对话级质量与对话中的语句数量、唯一单词数量和唯一三元组数量的相关性较弱。重新评估对话长度与质量的关系发现,除了得分“1”更多出现在短对话中外,任何长度的对话获得其他得分的可能性相同。因此,短对话可能质量较差,但对话长度对了解用户体验的作用有限。
志愿者与付费工人比较

实验中使用了付费工人和志愿者两类人类评估者,他们的动机不同,对其表现进行比较。付费工人(Yandex.Toloka的用户)中重复用户(在实验中进行多次对话的用户)数量更多,约100名付费工人至少进行了10次对话,而只有约10名志愿者进行了超过2次对话。大量重复用户有利于研究,可评估用户行为并消除评分偏差,但当前任务对志愿者的吸引力不足,导致他们很少再次与系统聊天。志愿者的对话数据中长对话比例较低,且倾向于给聊天机器人更低的评分,这可能是因为志愿者中重复用户较少,单次聊天时期望过高。

graph LR
    A[对话数据] --> B[无效对话分析]
    A --> C[任务比较]
    C --> C1[用户参与度]
    C --> C2[聊天机器人任务难度]
    A --> D[评估方案分析]
    D --> D1[多指标评估]
    D --> D2[一致性评估]
    D --> D3[对话质量代理指标]
    A --> E[志愿者与付费工人比较]

综上所述,通过对ConvAI2竞赛相关数据的分析,我们对非目标导向对话系统的评估和优化有了更深入的理解。不同任务对用户参与度和聊天机器人难度有显著影响,评估方案需要不断改进以准确衡量系统质量,同时在选择评估人员时,应考虑志愿者和付费工人的特点。未来的研究可以围绕设计更具吸引力的任务、寻找可靠的隐式评估指标以及提高志愿者参与度等方向展开,以推动对话系统的发展。

探索非目标导向对话系统:ConvAI2的洞察与展望

获奖方案剖析

在对话和对话模型领域,生成式方法正引领着技术前沿。有团队在2018年NeurIPS会议的ConvAI2竞赛中提出了获胜方案。该方案结合了基于改进版OpenAI GPT的编码器 - 解码器架构和迁移学习方法进行训练,先在一个单独的大型数据集上预训练模型,然后针对实际的对话数据集进行微调。值得注意的是,该方案在常用指标的自动评估中未获第一,但在人工评估中却以明显优势获胜,这表明对话模型的自动评估仍有很大的研究空间。

ConvAI2竞赛聚焦于当前先进聊天机器人仍存在的三个问题:
- 缺乏长期记忆 :对话模型通常仅基于近期对话历史进行训练,导致缺乏长期记忆。简单的seq2seq模型受此问题影响最大,即使是分层编码器 - 解码器架构也难以充分考虑对话的长期历史。
- 缺乏一致个性 :聊天机器人大多在来自不同来源、不同人话语的对话上进行训练,导致缺乏一致的个性。一个有说服力的聊天机器人应拥有自己的传记、环境、家庭、宠物和性格特征等,尽管有相关研究在尝试改善,但这仍是一个待解决的问题。
- 陷入通用回答 :通用对话模型为了回避棘手问题,常陷入提供通用回答(如“我不知道”或“你是谁”)的局部最优解,虽然这比完全不连贯的回答要好,但最终仍无法令人满意,相关研究虽有进展,但该问题依旧重要。

为促使参赛者关注这些问题,ConvAI2使用了Persona - Chat数据集。该数据集由众包的真实人类之间的对话组成,参与者的任务是自然地闲聊、相互了解并根据提供的个人资料交流。理想情况下,对话模型应能够模拟正常对话,了解对话者的兴趣,讨论自己的兴趣,并找到共同话题。

未来方向与建议
  • 任务设计 :2017年关于维基百科文章的讨论任务对用户吸引力不足,且对聊天机器人难度较大;2018年的闲聊任务虽有改进,但可能仍不足以吸引评估者。未来的ConvAI挑战需要设计更具吸引力的任务,以提高用户参与度。
  • 评估人员选择 :目前付费工人在评估方面更“合适”,他们的对话更长,更负责,输出更稳定可预测。但最终目标是让无报酬的用户也能享受对话,因此需要在志愿者上测试系统,因为这种评估更接近聊天机器人的实际使用场景。
  • 任务游戏化 :对于志愿者参与的评估,任务游戏化至关重要。可以通过为完成的任务提供非物质奖励(如积分),并根据积分对用户进行排名,激励用户进行更多对话。也可以将评估任务设计成任务,例如要求用户从模型中获取特定信息或围绕一系列主题进行对话。
  • 评估指标改进 :ConvAI旨在解决对话系统的主要缺陷以改进系统。当前在衡量聊天机器人一致性方面缺乏可靠方法,除了直接询问用户外,需要找到可靠的隐式评估方法,理想情况下应仅通过用户行为来定义对话质量,而无需明确反馈。
改进方向 具体措施
任务设计 设计更具吸引力的任务,提高用户参与度
评估人员选择 在志愿者上测试系统,接近实际使用场景
任务游戏化 提供非物质奖励、排名,或设计成任务形式
评估指标改进 寻找可靠的隐式评估方法,仅通过用户行为定义对话质量
graph LR
    A[未来方向] --> B[任务设计]
    A --> C[评估人员选择]
    A --> D[任务游戏化]
    A --> E[评估指标改进]
    B --> B1[设计更具吸引力任务]
    C --> C1[在志愿者上测试系统]
    D --> D1[提供非物质奖励]
    D --> D2[设计成任务形式]
    E --> E1[寻找隐式评估方法]

总之,非目标导向对话系统的发展需要在任务设计、评估人员选择、任务游戏化和评估指标改进等方面不断探索和创新。通过这些努力,可以提高对话系统的质量和用户体验,推动对话技术向更自然、更智能的方向发展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值