对话模型,DialogBERT和DialogWAE优势何在?

本文探讨了DialogBERT通过层次化BERT解决对话历史表示难题,并提出掩藏句编码回归和分布式顺序预测。DialogWAE则通过高斯混合先验增强对话多样性。实验结果显示,新策略能生成更连贯、信息丰富的应答。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载自:对话模型,DialogBERT和DialogWAE优势何在? - 知乎 (zhihu.com)

多轮对话生成一直是一项典型的NLP应用,并且在众多任务上取得成功。多轮对话问题一直面临两大挑战,即如何准确地学习对话历史的向量表示,以及如何更好地学习应答与历史之间的关系,以保证对话的连贯性

围绕这两大主题,讲者分别提出一种针对多轮对话生成预训练模型DialogBERT多模态应答生成模型DialogWAE,前者采用层次化BERT构建句子级的连贯关系,并提出两种预训练方法:掩藏句编码回归分布式句子顺序预测;后者采用高斯混合先验生成对话,提高对话的多样性和丰富性;对比实验验证了讲者所提策略能更好的获得语义更丰富,更加连贯的应答。

一、对话模型面临的两个挑战

开放领域对话生成是一项典型自然语言应用问题,可概括为基于对话历史(即,上下文),采用机器学习算法,预测下一句对话。目前解决该问题的方法主要围绕图1所示的框架展开研究,首先给定模型一段对话历史,然后采用深度学习的方法学习对话历史的语义向量,最后通过构建对话历史与应答间的语义关系实现应答生成。上述过程存在两个挑战:

a.由于对话历史通常很长,信息量大,这对将对话历史表示为精确的语义向量带来很大困难;

b.如何学习应答与对话历史之间的关系,以保证对话的连贯性。

图1.对话模型常用框架流程介绍

二、DialogBERT预训练策略

1、问题概述

针对第一个挑战,如何学习复杂上下文的语义向量?近期的相关研究是采用预训练语言模型来处理对话历史,比如,Transformer、GPT2等。

其缺陷之一在于:模型将对话历史看作一个较长的单词序列(通常,前句和后句间具有非常连贯的语义),但对话中句子间存在多种关系,比如转折等,因此很难将对话历史看作是很长的文本序列处理;

缺陷之二在于:基于自注意力机制Transformer模型,关注的是单词层级的相关性,而不是学习句子间的连贯性。该策略难以准确获取句子层级的连贯关系,并且在时间上很低效。

基于此,讲者提出DialogBERT模型,即采用层次化BERT模型的思想,学习长序列对话上下文丰富的语义,如图2所示。首先使用句子级别的编码器学习每个句子的向量;然后将每句话的向量作为篇章级编码器的输入,从而学习句子间的语义关系。同时,讲者提出两种预训练策略:隐藏句子回归以及分布式句子顺序预测

2、训练策略

训练任务一:隐藏句子回归。首先是对层次化BERT模型得到的隐藏变量进行解码,以生成目标应答,如图3所示。

图3.应答生成

然后随机mask一些句子,再通过训练编码器复原被mask的句子。讲者提出从向量的角度做回归,即对mask的句子进行编码得到的向量,与经过预测得到的向量做均方误差。

图4. 隐藏句子回归

训练任务二:学习句子顺序。指将原始句子顺序打乱,然后预测句子的顺序,但现有的工作是将句子的每一种排序作为一类,通过分类模型进行训练。其局限性在于,对句子排列组合得到非常多的句子序列,且存在大量重复排序,比如,某两种排序中,只有最后两个顺序对调, 这两种排序仍然是高度相关的,而简单的分类模型难以捕捉这种相关性。

讲者提出分布式句子顺序预测方法,即将encoder得到的句子向量通过排序网络对每句话打分,然后按照分数对句子进行降序排列。在该过程中,训练目标是衡量由softmax得到句子顺序的概率分布与目标顺序分布间的距离,即采用KL散度表示。

图5. 分布式句子顺序预测

3、实验验证

实验所用数据集、评价指标以及baseline 模型如图6所示。

图6.实验数据集、指标以及baselines介绍

通过定量实验分析结果可知,将应答生成、隐藏句子回归以及分布式序列预测这三项组合,可以得到更好的效果。

图7.实验结果


进一步,讲者进行消融实验来验证不同模块对实验结果的影响,图8上表是对不同大小的上下文编码器进行对比实验,即取不同Transformer层数时的实验结果表明,层数大小对编码结果影响不明显,即上下文编码器很容易识别上下文的语义关系

图8下表是指与其他预训练策略进行对比,实验结果表明采用分布式序列预测比全局分类具有非常大提升。

图8.消融实验对比结果

最后,随机选取200个对话,由Amazon的Crossing平台进行人工评估,结果表明讲者所提策略能学习到更连贯更具信息量的应答。

图9. 人工评估结果

从MultiWOZ数据集上的实验可知,讲者所提策略能得到更具信息量的回答;在DailyDialog数据集上的实验表明,所提方法能够生成更连贵,同时具有信息量的应答。

图10.示例研究


 

热电制冷器利用塞贝克效应,通过电子在不同温度端点间的运动来实现热量转移,具体来说,当直流电流通过两种不同导电类型的半导体材料时,电流方向的一侧会吸收热量而另一侧会释放热量,从而产生冷却效果。这种现象称为珀尔帖效应,是热电制冷器工作原理的核心所在。 参考资源链接:[热电制冷技术:珀尔帖元件的原理与优势](https://wenku.youkuaiyun.com/doc/7xkwe36ygr?spm=1055.2569.3001.10343) 热电制冷器与传统的机械制冷(如压缩机式制冷)的主要区别在于工作原理结构。机械制冷依赖于压缩机压缩制冷剂循环,通过改变制冷剂的物态(液态气态)来吸收释放热量。这种循环过程中伴随着机械运动,因此需要定期维护。而热电制冷器则无需任何运动部件,通过电流控制进行制冷,因此可靠性更高,维护更简便。 热电制冷器的优势主要体现在以下几个方面:1)结构紧凑,无运动部件,减少了故障点维护需求;2)便于精确控制温度,适合对温度敏感的精密设备;3)可实现快速温度变化响应,便于即时调整制冷量;4)环保,没有制冷剂泄漏风险,且运行时几乎无噪音;5)适用范围广,尤其适合小空间或需要便携式制冷的场合。 设计一个基于热电效应的制冷系统需要考虑材料的选择、热电偶的设计、电流的控制以及热管理。选择适当的半导体材料掺杂水平以优化热电性能,设计合理的热电偶结构以提高热电转换效率,通过电子控制系统精确控制电流方向大小,以及确保良好的热接口散热设计,都是实现高效温度控制的关键因素。 有关热电制冷技术更深入的了解,建议参考《热电制冷技术:珀尔帖元件的原理与优势》一书。该书详细探讨了热电制冷器的工作原理,优势,以及在实际应用中如何通过优化设计提高其性能。对于希望进一步研究热电制冷器的读者来说,这是一本不可多得的资源。 参考资源链接:[热电制冷技术:珀尔帖元件的原理与优势](https://wenku.youkuaiyun.com/doc/7xkwe36ygr?spm=1055.2569.3001.10343)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值