多模态指代消解模型技术解析

多模态指代消解模型解析

多模态指代消解挑战赛获胜模型

带屏幕的语音设备日益普及,为多模态交互创造了新机会。用户可通过口语指代屏幕上的项目,更高效地传达意图。利用自然语言理解选择屏幕上正确对象的任务被称为多模态指代消解。

屏幕对象可通过视觉属性(“红色外套”)、绝对位置(“右边第二个”)或相对位置(“黑色外套旁边”)描述,也可通过对话历史或元数据(“之前提到的"或"某品牌外套”)进行指代。

模型架构

该模型基于视觉语言BERT(VL-BERT),通过对文本和图像对进行训练。模型采用典型的BERT掩码语言模型训练方法,输入中的某些方面(句子单词或图像区域)被掩码,模型必须学会预测它们。

我们对这种方法进行了三个主要改进:

  1. 使用图表示图像中对象间关系,通过图神经网络捕获图形信息
  2. 添加对象元数据形式的知识源,支持基于非视觉特征(如品牌或价格)的指代
  3. 通过显式采样对象邻域并生成描述对象的标题,补充对象周围环境信息

技术实现细节

图形表示

利用场景中对象的相对位置,模型生成一个图,节点代表对象,边描述场景中对象间关系。边编码五种关系类型:上、下、左、右和内部关系。图然后传递给图神经网络(特别是图卷积网络),为每个节点生成嵌入,捕获图中节点邻域信息。

局部信息处理

为解析如"柜台上的那个"这类指代,我们通过两种方式捕获对象的局部环境信息:

首先,在对象周围八个方向生成新框,编码这些框内图像区域的视觉特征,并将其附加到指代消解模型的视觉输入流中。

其次,在模型训练期间,使用图像标题生成模型描述感兴趣对象附近的其他对象(如架子、桌子、架子等),使模型能够基于周围上下文描述识别对象。

性能表现

结合这些改进与对话轮次距离度量,我们的模型在DSTC10多模态指代消解挑战赛中取得第一名,性能通过同时考虑假阳性和假阴性的F1分数衡量。

这项技术有望改善带屏幕的语音助手用户体验,使用户更轻松地表达意图。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值