在电子商务场景中,存在大量基于商品的应用任务,如下图所示,通常商品会包含图片、标题和结构化的知识,这是一个典型的多模态场景。这张图是产品的多模态数据示例。每个个体都有一个标题、一个图像和一个PKG,PKG通过三元组(<item,property,value>)描述产品的客观属性。PKG是产品知识图谱。

多模态在电子商务领域的挑战:模态丢失和模态噪声。在实际的电子商务场景中,一些卖家没有上传商品图片(或标题)到平台,一些卖家提供的商品图片(或标题)主题不明确或语义不准确,使得信息特别令人困惑。图中的Item-2和Item-3分别展示了我们场景中的模态噪声和模态丢失示例。

为了解决上述问题,引入了产品知识图谱(PKG),并将其视为一种新模态,称为知识模态。PKG以三元组形式表示,例如<Item-1, Material, Cotton> 表示Item-1的材质是棉花。
引入PKG主要有两个原因:(1) PKG具有高质量。PKG描述了商品的客观属性,结构化且易于管理,通常会进行维护和标准化工作,因此PKG相对干净且可信。(2) PKG与其他模态的信息存在重叠。以图中的Item-1为例,一方面,图片、标题和PKG都说明Item-1是一件长袖T恤。另一方面,PKG显示这件长袖T恤不仅适合秋季,也适合春季,这在图片或标题中是无法得知的。因此,当存在模态噪声或模态丢失时,PKG可以对其他模态进行纠正或补充。

最低0.47元/天 解锁文章
2545

被折叠的 条评论
为什么被折叠?



