《E-Commerce Knowledge Extraction via Multi-modal Machine Reading Comprehension》中文校对版

文章汉化系列目录



摘要

 从非结构化数据中提取商品属性是电子商务领域一个重要的信息抽取任务。它在商品推荐和商品知识库扩展等任务中起着重要作用。传统模型通常只利用文本模态信息,这不足以全面描述商品。在近年来,我们越来越多地看到使用多模态数据(如文本、图像和视频)来描述商品,这为更好地进行商品属性抽取提供了可能性。为此,我们提出了一种新颖的模型,称为基于多模态机器阅读理解的电子商务知识抽取方法(EKE-MMRC)。具体来说,该方法从现有知识库中发现缺失的属性并生成问题,然后将其与多模态描述打包,并编码为融合向量。随后,根据描述与属性的相关性进行解码,从融合向量中生成答案。最后,将相关性作为投票权重以确定答案。同时,我们基于公开的电子商务数据构建了一个用于该任务的数据集:电子商务多模态商品属性抽取数据集(E-MCAE)。此外,我们还在公开数据集上进行了实验。实验结果表明,所提出的方法是有效的,相较于当前单模态抽取方法(SOTA),性能提升超过了15%。
关键词: 多模态 · 机器阅读理解 · 信息抽取

1 引言

 商品属性是由属性名称和属性值组成的一对。例如,(颜色,蓝色) 是一个属性,表示商品的颜色是蓝色。从非结构化数据中提取商品属性是电子商务领域一个重要的信息抽取任务。这些提取出的商品属性可以构成一个结构化的商品知识库。这些结构化数据被广泛应用于商品推荐中,从而大大提高了消费者与商家之间的交易效率。

 近年来,从半结构化和非结构化文本中提取信息取得了突破性进展 [3,11]。在电子商务领域,这些方法也被成功用于从商品文本描述和用户评价中提取有价值的信息。在现实世界中,文本、视觉和听觉信息同样在电子商务平台中发挥着重要作用。多模态信息,即不同形式或来源的信息,帮助我们更好地理解世界。对于机器而言也是如此。例如,在机器翻译 [16]、机器对话 [12]、共指解析 [14] 等任务中,结合多模态数据后,模型能够处理更复杂和更贴近实际的任务。这与单模态模型相比,表现出明显的优势。多模态数据爆炸的现象在电子商务领域尤为显著。

 因此,我们定义了一个新任务,即从多模态商品描述中提取商品属性。为了解决这一任务,我们基于公开的电子商务数据构建了一个数据集:电子商务多模态商品属性抽取数据集(E-MCAE)。该数据集包含5000件商品的结构化信息及其多模态描述。

 针对上述挑战,我们提出了一种新颖的模型,称为基于多模态机器阅读理解的电子商务知识抽取方法(EKE-MMRC)。具体而言,该方法从现有知识库中发现缺失的属性并生成问题,然后将其与多模态描述打包并编码为融合向量。随后,根据描述与属性的相关性进行解码,从融合向量中生成答案。最后,将相关性作为投票权重以确定答案。

本文的贡献总结如下:

  1. 我们首次考虑从结合现有知识库的多模态描述中提取属性,并为这一具有挑战性的任务构建了一个新的数据集;
  2. 我们进行了广泛的实验,评估了我们模型相对于主流方法的表现。在构建的数据集上的实验结果表明,我们提出的方法是有效的,与基线相比,F1分数从51.52%显著提高到63.67%。

2 相关工作

2.1 机器阅读理解

 教机器读取和理解大规模文本描述是自然语言理解的一个长期且有前景的目标。机器阅读理解(MRC)模型旨在完成这一任务。在这方面,近年来提出了多个基准数据集,推动了MRC的发展,包括SQuAD和Natural Questions。在过去一两年里,将信息抽取任务转化为MRC问答的趋势逐渐显现。

 Levy 等人 [6] 将关系抽取任务形式化为QA(问答)任务。例如,关系 MARRY-WITH 可以映射为“谁是X的丈夫/妻子?”。受 [6] 的启发,我们的工作将属性值抽取形式化为多段式机器阅读理解任务。与上述工作不同的是,我们使用生成式模型来生成更为多样化的属性值,而不是在预定义的关系集上进行分类。

2.2 多模态信息抽取

 现实世界中的信息通常以多模态形式出现,但由于技术问题,多模态研究进展较为缓慢。近年来,随着单模态研究的进展,多模态研究有了更加坚实的基础。多模态信息抽取是一种结合多模态学习与信息抽取技术的研究方向 [4]。

 在实体链接任务中,Moon 等人 [10] 将图片与文本结合,用于实体消歧,并使用注意力机制融合图片、文本和知识库信息。最终,通过计算实体提及与知识库中实体的相似性获得实体链接结果。在链接预测任务中,IKRL [15] 通过扩展 TransE [1] 的能量函数,并添加实体的原始表示与实体图片表示之间的能量函数,来融合多模态信息。

 我们的工作同样利用多模态信息来更好地进行知识抽取。Zhu 等人 [17] 尝试通过图片和文本信息抽取商品属性。与此工作相比,我们的模型在多模态特征融合方面表现更好,并且能够抽取出不在预定义字典中的属性。

3 框架

3.1 描述-问题对的准备

这一步将缺失的属性转换为问题。对于前一步找到的缺失属性,模型会将其打包成一个三元组。然后,根据简单的模板,从三元组中生成问题,将信息抽取 (IE) 任务转化为问答 (QA) 任务。基于这些查询三元组,我们可以使用简单的模板生成问题。与传统的问答任务不同,这一步并非旨在生成真实世界的问题,而是为了引导模型在描述中找到正确答案。

3.2 多模态编码器

多模态编码器用于提取和融合描述和问题的多模态特征。此组件的概览显示在图2的底部部分。

在这里插入图片描述

图2说明 文本描述与生成的问题被拼接在一起,并与图像序列一起送入多模态阅读理解模型。

基于Transformer的模态融合模块 近年来,基于Transformer的模型在各种任务中表现出色。具体来说,Transformer由多个相同的层连接而成,每一层包括两个子层。第一个子层是自注意力层,第二个子层是全连接层。在层与层之间加入了残差连接和层归一化。 我们在框架中引入了一种特殊的基于Transformer的多模态融合模型,如图2所示。我们将视觉和语言的第 l l l层隐藏层特征分别表示为 H l V H_l^V HlV H l T H_l^T HlT。模块按照标准Transformer编码器的方式计算查询(query)、键(key)和值(value)。然而,每种模态的Transformer会将键和值发送到另一模态的Transformer中。第 l l l层视觉Transformer的注意力层可以形式化为如下公式:

Co-Att l V = softmax ( Q l − 1 V ( K l − 1 T ) T d k ) V l − 1 T , \text{Co-Att}_l^V = \text{softmax}\left(\frac{Q_{l-1}^V (K_{l-1}^T)^T}{\sqrt{d_k}}\right) V_{l-1}^T, Co-AttlV

仅从现有的引用中无法获取关于“Dual - Aspect Noise-Based Regularization for Multi - Modal Relation Extraction in Media Posts”相关研究的内容。一般而言,媒体帖子中的多模态关系提取旨在从多种模态(如文本、图像等)的数据中识别和抽取实体之间的关系。 基于双方面噪声的正则化方法可能会考虑不同模态数据中存在的噪声。一方面可能是数据本身的噪声,例如图像的模糊、文本的错误表述等;另一方面可能是模型学习过程中引入的噪声,像模型的过拟合等问题导致的不准确。通过正则化方法,可以在损失函数中加入与噪声相关的约束项,以提高模型在提取多模态关系时的鲁棒性和准确性。 在实际操作中,可能会对不同模态的数据进行预处理,减少数据噪声的影响。同时,在训练模型时,调整正则化参数,使得模型在学习关系特征时能够更好地适应噪声环境。 ```python # 这里是一个简单的展示在深度学习中加入正则化项的示例代码 import torch import torch.nn as nn import torch.optim as optim # 定义一个简单的神经网络模型 class SimpleModel(nn.Module): def __init__(self): super(SimpleModel, self).__init__() self.fc1 = nn.Linear(10, 20) self.fc2 = nn.Linear(20, 1) def forward(self, x): x = torch.relu(self.fc1(x)) x = self.fc2(x) return x model = SimpleModel() # 定义损失函数和优化器,这里加入 L2 正则化(可以类比噪声正则化的一种简单形式) criterion = nn.MSELoss() optimizer = optim.Adam(model.parameters(), lr=0.001, weight_decay=0.001) # 假设的输入数据和目标数据 inputs = torch.randn(32, 10) targets = torch.randn(32, 1) # 前向传播和反向传播 outputs = model(inputs) loss = criterion(outputs, targets) optimizer.zero_grad() loss.backward() optimizer.step() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值