一种多领域动态融合对话模型介绍

提出DynamicFusionNetwork,解决神经网络对话模型在数据不足领域表现不佳的问题,通过共享-私有网络和动态融合模块,提升模型跨领域适应性和效果。

Dynamic Fusion Network for Multi-Domain End-to-end Task-Oriented Dialog

论文链接:https://arxiv.org/abs/2004.11019 (文中的代码开源)

摘要

绝大多数神经网络对话模型都依赖大量的训练数据,但并非所有对话领域都能有大量的数据可用。然而,关于如何有效地使用来自所有域的数据来改进每个域和不可见域的性能的研究相对较少。为此,文中研究了明确利用领域知识和引入共享-私有网络来学习共享的和特有的知识的方法。此外,文中提出了一种新颖的动态融合网络(DF-Net),它能自动探索目标领域和每个源领域之间的关系,结果显示,该模型表现优于现有的多领域对话模型,获得了SOTA的效果。此外,在训练数据较少的情况下,模型的迁移能力比之前最好的超过了13.9%左右。

介绍

现有的方法可以被分为两类:如图 (a) 所示,第一种是简单将各种领域的数据混合起来训练,这样的方法可以隐式地提取共享的特性,但是不能有效地捕获领域特定的知识。第二种如图(b)所示,模型在每个领域上单独训练,这样能够更好的捕获领域特定的知识,但是却忽略了领域间共享的知识。

tMEk

有一种简单的基线模型是将领域共享的和领域特有的特征在一个共享-私有框架中进行合并,图(c),它包括用于捕获域共享特性的共享模块和用于每个域的私有模块,该方法明确区分了共享知识和私有知识。然而这种框架依然存在两个问题:1)给定一个数据量很少的新领域,私有模块很难有效地提取出相应的领域知识;2)该框架忽略了跨特定领域子集的细粒度相关性(例如:schedule领域与navigation领域的相关性要超过weather领域)

为了解决上述问题,文中提出了一种动态融合网络,如图(d)所示,对比于共享-私有模型,该模型进一步引入动态融合模块显式地捕捉领域之间的相关性。特别地,利用一个门控机制自动寻找当前输入和所有的领域特定模型之间的相关性,以便为每个领域分配权重用于提取知识。编码器和解码器以及基于特征查询知识的记忆模块都用上了这种机制。给定一个几乎没有训练数据的新领域时,这个模型仍然可以充分利用现有域,这是基线模型做不到的。

模型结构

模型是基于seq2seq对话生成模型的,如下图(a)所示,为了显式集成领域认知,文中提出使用shared-private框架来学习共享的和相应的领域特定特征,如图(b)。接下来,文中提出了使用一个动态融合网络来动态地利用所有领域之间的相关行以进行细粒度的知识传输,如图(c)。此外,文中还使用了对抗性训练来促使共享模块生成领域共享特性。

 

1. seq2seq对话生成

文中将seq2seq任务型对话生成任务定义为根据输入对话历史 X 和知识库 B 来寻找系统响应 Y。不同于典型的seq2seq模型,任务型对话系统中成功的会话依赖于精确的知识库查询。文中采用了global-to-local记忆指针机制(GLMP)来查询知识库中的实体。外部知识记忆用来存储知识库 B 和对话历史 X。KB 记忆是为知识库设计的,而对话记忆是用于直接复制历史词汇。外部知识记忆中的实体以三元组的形式表示,并存储在记忆模块中。对于一个K-hop 记忆网络,外部知识是由一组可训练的embedding矩阵&nbs

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值