《E-Commerce Knowledge Extraction via Multi-modal Machine Reading Comprehension》中文校对版

醒了就刷牙

已于 2024-11-24 17:37:31 修改

阅读量1k

点赞数 23

CC 4.0 BY-SA版权

分类专栏：论文文章标签：人工智能语音识别学习深度学习计算机视觉

于 2024-11-22 10:10:51 首次发布

本文链接：https://blog.youkuaiyun.com/buyaotutou/article/details/143962273

论文专栏收录该内容

170 篇文章

订阅专栏

文章汉化系列目录

文章目录

文章汉化系列目录
摘要
1 引言
2 相关工作
- 2.1 机器阅读理解
- 2.2 多模态信息抽取
3 框架
4 实验
5 结论

摘要

从非结构化数据中提取商品属性是电子商务领域一个重要的信息抽取任务。它在商品推荐和商品知识库扩展等任务中起着重要作用。传统模型通常只利用文本模态信息，这不足以全面描述商品。在近年来，我们越来越多地看到使用多模态数据（如文本、图像和视频）来描述商品，这为更好地进行商品属性抽取提供了可能性。为此，我们提出了一种新颖的模型，称为基于多模态机器阅读理解的电子商务知识抽取方法（EKE-MMRC）。具体来说，该方法从现有知识库中发现缺失的属性并生成问题，然后将其与多模态描述打包，并编码为融合向量。随后，根据描述与属性的相关性进行解码，从融合向量中生成答案。最后，将相关性作为投票权重以确定答案。同时，我们基于公开的电子商务数据构建了一个用于该任务的数据集：电子商务多模态商品属性抽取数据集（E-MCAE）。此外，我们还在公开数据集上进行了实验。实验结果表明，所提出的方法是有效的，相较于当前单模态抽取方法（SOTA），性能提升超过了15%。
关键词: 多模态 · 机器阅读理解 · 信息抽取

1 引言

商品属性是由属性名称和属性值组成的一对。例如，(颜色，蓝色) 是一个属性，表示商品的颜色是蓝色。从非结构化数据中提取商品属性是电子商务领域一个重要的信息抽取任务。这些提取出的商品属性可以构成一个结构化的商品知识库。这些结构化数据被广泛应用于商品推荐中，从而大大提高了消费者与商家之间的交易效率。

近年来，从半结构化和非结构化文本中提取信息取得了突破性进展 [3,11]。在电子商务领域，这些方法也被成功用于从商品文本描述和用户评价中提取有价值的信息。在现实世界中，文本、视觉和听觉信息同样在电子商务平台中发挥着重要作用。多模态信息，即不同形式或来源的信息，帮助我们更好地理解世界。对于机器而言也是如此。例如，在机器翻译 [16]、机器对话 [12]、共指解析 [14] 等任务中，结合多模态数据后，模型能够处理更复杂和更贴近实际的任务。这与单模态模型相比，表现出明显的优势。多模态数据爆炸的现象在电子商务领域尤为显著。

因此，我们定义了一个新任务，即从多模态商品描述中提取商品属性。为了解决这一任务，我们基于公开的电子商务数据构建了一个数据集：电子商务多模态商品属性抽取数据集（E-MCAE）。该数据集包含5000件商品的结构化信息及其多模态描述。

针对上述挑战，我们提出了一种新颖的模型，称为基于多模态机器阅读理解的电子商务知识抽取方法（EKE-MMRC）。具体而言，该方法从现有知识库中发现缺失的属性并生成问题，然后将其与多模态描述打包并编码为融合向量。随后，根据描述与属性的相关性进行解码，从融合向量中生成答案。最后，将相关性作为投票权重以确定答案。

本文的贡献总结如下：

我们首次考虑从结合现有知识库的多模态描述中提取属性，并为这一具有挑战性的任务构建了一个新的数据集；
我们进行了广泛的实验，评估了我们模型相对于主流方法的表现。在构建的数据集上的实验结果表明，我们提出的方法是有效的，与基线相比，F1分数从51.52%显著提高到63.67%。

2 相关工作

2.1 机器阅读理解

教机器读取和理解大规模文本描述是自然语言理解的一个长期且有前景的目标。机器阅读理解（MRC）模型旨在完成这一任务。在这方面，近年来提出了多个基准数据集，推动了MRC的发展，包括SQuAD和Natural Questions。在过去一两年里，将信息抽取任务转化为MRC问答的趋势逐渐显现。

Levy 等人 [6] 将关系抽取任务形式化为QA（问答）任务。例如，关系 MARRY-WITH 可以映射为“谁是X的丈夫/妻子？”。受 [6] 的启发，我们的工作将属性值抽取形式化为多段式机器阅读理解任务。与上述工作不同的是，我们使用生成式模型来生成更为多样化的属性值，而不是在预定义的关系集上进行分类。

2.2 多模态信息抽取

现实世界中的信息通常以多模态形式出现，但由于技术问题，多模态研究进展较为缓慢。近年来，随着单模态研究的进展，多模态研究有了更加坚实的基础。多模态信息抽取是一种结合多模态学习与信息抽取技术的研究方向 [4]。

在实体链接任务中，Moon 等人 [10] 将图片与文本结合，用于实体消歧，并使用注意力机制融合图片、文本和知识库信息。最终，通过计算实体提及与知识库中实体的相似性获得实体链接结果。在链接预测任务中，IKRL [15] 通过扩展 TransE [1] 的能量函数，并添加实体的原始表示与实体图片表示之间的能量函数，来融合多模态信息。

我们的工作同样利用多模态信息来更好地进行知识抽取。Zhu 等人 [17] 尝试通过图片和文本信息抽取商品属性。与此工作相比，我们的模型在多模态特征融合方面表现更好，并且能够抽取出不在预定义字典中的属性。

3 框架

3.1 描述-问题对的准备

这一步将缺失的属性转换为问题。对于前一步找到的缺失属性，模型会将其打包成一个三元组。然后，根据简单的模板，从三元组中生成问题，将信息抽取 (IE) 任务转化为问答 (QA) 任务。基于这些查询三元组，我们可以使用简单的模板生成问题。与传统的问答任务不同，这一步并非旨在生成真实世界的问题，而是为了引导模型在描述中找到正确答案。

3.2 多模态编码器

多模态编码器用于提取和融合描述和问题的多模态特征。此组件的概览显示在图2的底部部分。

在这里插入图片描述

图2说明 文本描述与生成的问题被拼接在一起，并与图像序列一起送入多模态阅读理解模型。

基于Transformer的模态融合模块 近年来，基于Transformer的模型在各种任务中表现出色。具体来说，Transformer由多个相同的层连接而成，每一层包括两个子层。第一个子层是自注意力层，第二个子层是全连接层。在层与层之间加入了残差连接和层归一化。我们在框架中引入了一种特殊的基于Transformer的多模态融合模型，如图2所示。我们将视觉和语言的第 $l$ 层隐藏层特征分别表示为 $H_l^V$ 和 $H_l^T$ 。模块按照标准Transformer编码器的方式计算查询（query）、键（key）和值（value）。然而，每种模态的Transformer会将键和值发送到另一模态的Transformer中。第 $l$ 层视觉Transformer的注意力层可以形式化为如下公式：

$\text{Co-Att}_l^V = \text{softmax}\left(\frac{Q_{l-1}^V (K_{l-1}^T)^T}{\sqrt{d_k}}\right) V_{l-1}^T,$

其中：

$Q_{l-1}^V$ 是由第 $l - 1$ 层视觉Transformer生成的查询向量；
$K_{l-1}^T$ 和 $V_{l-1}^T$ 分别是由第 $l - 1$ 层语言Transformer生成的键和值向量。

通过这种结构，注意力块（attention block）会生成另一模态的注意力池化特征（attention-pooled features）。在上述公式中，注意力块对视觉数据执行语言注意力（language attention）。其他模块结构与标准Transformer相同，包括残差连接（residual connection）和层归一化（layer normalization）。这种视觉与语言的共注意力块最早在计算机视觉领域被提出（参考文献 [13]），其有效性已通过实验验证。在双流多模态表示学习模型中 [8]，通过堆叠更多共注意力块，可以获得良好的表示效果，并在多个下游任务中取得优异性能。

3.3 数据过滤

此步骤用于筛选出更可能包含答案的多模态描述。随着网络技术的发展，每天都会产生越来越多的信息。在生成有价值信息的同时，也产生了大量的无关数据，这些数据在任务中被视为噪声。阅读理解模块难以同时具备理解问题、搜索答案以及过滤无关信息的能力。在实际操作过程中，文本-图像对及前一步生成的问题将通过一个多模态表示模型进行编码。该表示模型将在下一节详细介绍。此步骤可以视为一个解码器，模型将学习一个线性层，对特征向量进行二分类。

3.4 基于机器阅读理解的属性抽取

该组件是用于从多模态数据中抽取属性值的第二个解码器。在本任务中，我们无法保证属性值一定出现在文本描述中，因此无法使用传统的抽取式问答方法。为此，我们采用了自回归模型来生成答案。自回归生成的过程意味着解码阶段按单词逐步递归生成，其形式化的概率分布为：

$p(y_1, \ldots, y_n|x) = p(y_1|x) \cdot p(y_2|x, y_1) \cdot \ldots \cdot p(y_n|x, y_1, \ldots, y_{n-1}).$

生成过程中的第 $i$ 个词 $y_i$ 将受到前 $i - 1$ 个词 $y_1$ 到 $y_{i-1}$ 的影响。在每一步中，模型会选择概率最高的 $y_i$ 。由于多个多模态描述可以描述同一个实体，每个描述与一个问题的组合都可以解码出一个答案，因此我们通过投票来确定最终答案。投票的权重依据数据过滤步骤中生成的概率。与问题更相关的描述应赋予更高的权重。

4 实验

4.1 数据集

我们从京东（JingDong）获取了一些商品及其介绍页面。京东是一个受欢迎的电子商务平台，商品的图片和文本描述非常丰富。
我们收集的数据包含了5000件商品的信息，数据集的详细信息如表1所示。我们收集了五类商品：鞋子、柜子、桌子、椅子和沙发。表2展示了所收集的多模态描述和知识库的一些统计信息。
在这里插入图片描述

基于知识库和实体描述的构建，我们构建了电子商务多模态商品属性抽取数据集（E-MCAE）。在该数据集中，任务是给定实体和属性名称，从描述中抽取属性值。此外，我们还在公开数据集MEPAVE [17] 上进行了实验，确保需要抽取的属性均出现在文本描述中。

4.2 基线模型

由于该任务相对新颖，相关模型较少，我们报告了使用不同模态信息的主流方法作为基线模型。我们比较了以下方法：

Single-LSTM [5]：经典模型，广泛应用于各种编码器和解码器中。
BERT QA [2]：使用Whole Word Masking技术，缓解了BERT预训练中部分WordPiece标记遮掩所带来的缺陷。
Neural Image QA [9]：经典视觉问答（VQA）模型，使用CNN和LSTM对图像和问题进行编码，并最终输出答案。
Multi-modal Attribute Extraction [7]：将文本和图像特征连接后送入全连接层，并使用LSTM进行解码。
M-JAVE [17]：一种用于电子商务商品属性抽取的多模态输入模型。
（Proposed）我们的方法：如图2所示，是本文提出的模型方法。

这些基线方法涵盖了从单模态到多模态的多种模型框架，以便全面评估我们方法的有效性。

4.3 结果与分析

在这里插入图片描述

主要结果
表3展示了各模型在E-MCAE和MEPAVE数据集上的F1分数。以下是对实验结果的分析：

BERT引入背景知识的显著提升
通过对比前两个实验可以发现，使用BERT的模型由于引入了背景知识，性能有了显著提升。这表明背景知识对提高模型性能至关重要。
多模态提取方法的优越性
多模态提取方法在性能上超越了Single-LSTM和Neural Image QA，证明结合多模态描述能够更有效地完成任务。
背景知识的重要性
所有结合背景知识的方法均优于其他方法，这说明在回答正确的属性值时，结合背景知识并理解描述是必要的。
模态特征融合的局限性
直接连接两种模态特征的方法未能充分利用图像特征，因此其效果有限。
MEPAVE数据集的单模态表现
在MEPAVE数据集上，由于所有属性均明确提及在文本中，仅使用文本模态（如LSTM或BERT-QA）的模型也能取得较好的表现。
对比M-JAVE的性能提升
与M-JAVE相比，我们的模型采用了更复杂的多模态特征融合层，其属性提取结果表现更优。这表明复杂的多模态特征融合机制能有效提升模型的性能。

5 结论

本文提出了一种新颖的属性抽取框架，称为EKEMMRC，用于从多模态描述中抽取实体属性。在我们的框架（如图1所示）中，我们将复杂的多模态属性抽取问题分为四个步骤，并证明现有方法能够很好地解决前几个步骤。对于最困难的属性抽取任务，我们将其转化为机器阅读理解问题，并通过我们的编码器-解码器模型加以解决。我们还构建了一个大规模的电子商务多模态商品属性抽取数据集（E-MCAE）。我们的多模态编码器首先在一个大规模通用图像描述数据集上进行预训练，然后在收集到的领域数据上继续预训练，最终在E-MCAE数据集上进行微调。我们将该模型与流行的信息抽取模型在E-MCAE上进行了比较，结果表明我们的模型性能得到了显著提升。

未来工作