《AliCoCo2: Commonsense Knowledge Extraction, Representation and Application in E-commerce》中文校对版

文章汉化系列目录



摘要

 人类在进行网上购物时所使用的常识知识非常宝贵,但现有运行在电商平台上的系统却很难捕捉到这些知识。尽管构建电商领域的常识知识图谱极具挑战性,但与已经被广泛研究的开放领域知识图谱(例如 Freebase)相比,在这些图谱上进行表示学习(representation learning)更是面临独特的挑战。通过利用常识知识和表示学习技术,电商中的各种应用可以从中受益。基于 AliCoCo [16](一个大规模的电商概念网络,已支持阿里巴巴的一系列核心业务),我们进一步丰富了它的常识关系,并提出了 AliCoCo2,这是第一个为电商使用而构建的常识知识图谱。我们设计了一个多任务编码器-解码器框架,为 AliCoCo2 中的节点和边提供高效的表示。为了探索常识知识对提升电商业务的潜力,我们将新挖掘的常识关系和学习到的嵌入分别应用于电商搜索引擎和推荐系统,并以不同方式验证其效果。实验结果表明,我们提出的表示学习方法在知识图谱补全(KGC)任务上达到了当前最优性能(state-of-the-art),并且在搜索和推荐系统中的应用也展现了常识知识图谱在电商领域的巨大潜在价值。此外,在构建 AliCoCo2 的过程中,我们提出了一个电商问答(QA)任务,并设计了一个新的基准,用于测试机器在电商领域的常识推理能力。这一任务可以帮助研究界进一步探索常识推理技术的发展。

引言

 常识知识反映了我们对世界和人类行为的自然理解,是全人类共同分享的认知。在网上购物时,诸如“天气变冷时需要穿得暖和”“商务风格的T恤通常有尖领”“孕妇需要防滑鞋和防辐射服”等常识会影响我们的购物决策。然而,这些知识是人类通过日常生活经验隐式获得的,因此机器很难捕获和利用这些知识。

 为了向用户提供智能且友好的电商搜索和推荐服务,全球最大的中国电商平台阿里巴巴构建了大规模概念网络 AliCoCo [16]。在 AliCoCo 中,提出了一个四层结构来描述电商中复杂的用户需求,其中包含数百万个定义明确类型系统的原始概念,这些概念构成了电商的基础语言体系。在本文中,我们系统地扩展了 AliCoCo,通过在原始概念层中添加丰富的常识关系,引入了 AliCoCo2,这是第一个为电商用途构建的常识知识图谱。图1展示了 AliCoCo2 的快照,其中电商中的常识知识通过短语概念及其之间的关系进行表示。在图谱中定义了不同类型的常识关系,包括:概念与类别之间的 “isa” 关系,两个类别之间的 “互补” 关系,以及诸如 “style_to_design”“season_to_function”“映射” 关系。特别地,对于某些关系存在额外约束,这使得传统的三元组 ⟨ s , p , o ⟩ \langle s, p, o \rangle s,p,o(主语-谓语-宾语)变为四元组 ⟨ s , p , o , c ⟩ \langle s, p, o, c \rangle s,p,o,c c c c:约束)。以图1中的“商务风格”(图中央加粗边框)为例,四元组: ⟨ business_style , r:style_to_design , pointed_collar , T-shirts ⟩ \langle \text{business\_style}, \text{r:style\_to\_design}, \text{pointed\_collar}, \text{T-shirts} \rangle business_style,r:style_to_design,pointed_collar,T-shirts描述了“商务风格的T恤通常有尖领”这一常识。但类别约束 c c c 不可缺失,因为“商务风格”并不总是映射到尖领。例如,对于公文包而言,“商务风格”意味着包应为横向布局。
 不同领域的知识图谱已逐渐被应用于许多下游任务中,例如问答系统 [9, 15]、搜索 [6] 和推荐系统 [17, 26]。然而,传统三元组的离散表示方式难以很好地支持这些应用 [28]。近年来,知识图谱嵌入(Knowledge Graph Embedding, KGE)方法逐渐兴起并被发展为一个有前景的方向,其目的是将离散的实体和关系映射到连续的向量空间中。这种向量表示(即嵌入)能够保留原始三元组中的信息,并且可以与其他机器学习技术结合使用。然而,大多数现有的 KGE 模型主要针对开放领域的事实型知识图谱,例如 Freebase。针对常识知识图谱(如 ConceptNet [21])的工作相对较少,更不用说电商场景下的知识图谱了。在电商常识知识图谱中开发 KGE 模型的关键挑战来自以下两个方面:

  1. 常识性挑战(Common Sense)
    与传统知识图谱相比,常识知识图谱更加稀疏,因为其节点通常由自由形式的短语甚至句子表示。这种概念的多样性和图谱的表达能力意味着节点的数量往往比传统知识库(KB)大几个数量级,图谱也比传统知识库更加稀疏。例如,类似百科知识库的 FB15K-237 [23] 的密度是 ConceptNet [19] 的 100 倍。

  2. 电商特性(E-commerce)
    如上所述,当知识图谱用于电商场景时,常识关系的结构具有特殊性。例如,“子类/isa”关系在类别领域中形成了层次结构,而在欧几里得空间中,通用的 KGE 模型可能缺乏嵌入树状结构数据的灵活性。另一种特殊的关系结构是概念之间的“n元”映射关系(n-ary mapping relations),该映射关系通常受某些约束条件的限制。基于二元关系结构的现有 KGE 模型无法直接应用于此类四元组结构,因而如何正确地嵌入这些知识成为一个独特的挑战。

 在本文中,我们提出了一种多任务编码器-解码器框架,用于正确嵌入 AliCoCo2 的节点和关系。针对“常识”带来的图稀疏性挑战,我们在编码阶段利用大型预训练语言模型增强语义特征,并通过图神经网络捕获结构特征。针对“电商”带来的独特而复杂的关系结构挑战,我们在解码阶段采用多任务学习的思想,分别对不同类型的常识关系进行建模。该方法在知识库补全(KBC)这一评估不同 KGE 模型的标准任务中取得了当前最优性能。基于 AliCoCo2 及其学习到的嵌入,电商实际场景中的多种下游任务可以从中受益。AliCoCo2 所携带的丰富语义关联可以帮助缓解电商搜索引擎中查询-商品对语义差距这一核心挑战。“补充”和“季节需求”等常识关系可以帮助推荐系统跳出用户的历史行为,挖掘隐式用户兴趣。商品表示对许多电商模型至关重要,而 AliCoCo2 的嵌入中包含的关系知识可以帮助在嵌入空间中拉近相关但不完全相同的商品的距离,从而提高商品嵌入质量。本文将 AliCoCo2 的常识关系和学习到的嵌入应用于三个应用场景:查询重写、搜索相关性和商品表示,并取得了令人鼓舞的实验结果。
 我们将本文的贡献总结如下:

  • 引入 AliCoCo2:我们提出了 AliCoCo2,这是电商领域的第一个常识知识图谱。我们定义了电商中的常识知识,并展示了如何以有效的方式挖掘这些关系。在构建 AliCoCo2 的过程中,我们提出了一个新的具有挑战性的电商问答任务,并发布了一个新的基准数据集,可帮助研究社区探索机器常识推理。

  • 建模 KGE 的主要挑战:我们指出了在电商常识知识图谱中建模知识图谱嵌入(KGE)的两个主要挑战,并提出了一种多任务编码器-解码器框架,用于有效嵌入电商常识知识图谱中的节点和关系。知识图谱补全(KGC)任务的表现验证了该方法的有效性。

  • 实际应用:我们将挖掘的常识知识和表示技术应用于真实工业场景中的搜索和推荐任务,并获得了积极的反馈,这可能有助于进一步的电商常识研究。

 本文其余部分的结构如下:

  • 首先,我们正式定义电商中的常识知识,并概述 AliCoCo2(第2节)。
  • 接下来,我们介绍如何通过一种机器阅读理解的形式,从文本语料中挖掘各种常识关系(第3节)。
  • 第4节介绍了一个框架,用于嵌入常识知识图谱的节点和边。
  • 第5节中,我们将挖掘到的知识和学习到的嵌入应用于电商的两个核心业务:搜索引擎和推荐系统。
  • 第6节报告了实验结果并进行分析。
  • 第7节给出了结论。

2. ALICOCO2

AliCoCoAliCoCo2,我们在 Primitive Concepts 层定义并丰富了多种常识关系 [16]。电商中的常识关系可以分为两种类型:

  1. 同类节点之间的关系:包括同义/上位关系和互补关系。
  2. 不同类别节点之间的关系:例如 “<winter, r:season_needs_material, cotton, c:jeans>”。大多数此类关系描述了头尾概念之间的映射关系:当人们提到头部概念时,实际上指的是尾部概念。

AliCoCo 中,第一类关系已经构建得非常完善,而在 AliCoCo2 中我们主要专注于丰富第二类关系。我们定义了跨类别的91种有意义的常识关系,一些示例如图1所示。电商常识知识图谱与传统知识图谱的主要结构差异在于前者包含更多的 n元关系。n元关系在传统知识图谱中也存在,例如 Freebase 使用“中介节点”(Mediators)作为虚拟节点连接多个实体,以表示 n元关系。然而,这种结构为知识图谱嵌入(KGE)建模带来了额外的难度,因此两个标准数据集 FB15k 和 FB15k-237 将一个 n元关系拆分为 n n n 个二元关系,以简化后续的 KGE 建模。然而,这种方法无法直接应用于 AliCoCo2,因为三个二元关系的含义并不等同于原始关系。解决 n元关系的一种可能方法是添加新的概念和虚拟关系(我们将在第6.3节讨论具体细节)。这种方法在保持语义不变的同时,会显著增加节点和边的数量,从而导致知识图谱的冗余性增加,并在训练 KGE 模型时带来额外的计算和内存负担。因此,我们在 AliCoCo2 中保留了 n元关系的结构。

在这里插入图片描述

3 提取

 在本节中,我们介绍了一种有效的方法,用于在特定类别约束下提取两个不同类别节点之间的常识关系。给定预定义的关系、头概念和约束类别,我们将尾概念的提取任务转化为从上下文中识别答案片段的任务 [7, 13]。让我们回顾一下“冬季牛仔裤”这个例子,我们将其转化为一个问题,比如:“什么材料的牛仔裤适合冬季?”然后从一篇购物指南中找到答案,比如:“…冬天快到了,是时候准备温暖的棉质毛衣了…有售羊绒牛仔裤…”。这种问题回答(QA)形式化带来了几个关键优势:

  • 这个问题编码了关于头概念和我们关注的类别约束的重要信息,QA提供了一种自然的方式来联合建模实体、关系和其他约束;
  • 它使我们能够利用近年来在机器阅读理解(MRC)模型中取得显著进展的技术;
  • 生成的自然语言问题可以直接呈现给众包工作者,从而减轻了直接标注原始常识关系三元组的困难。

 整个常识关系挖掘过程是迭代的和半自动化的。在实际操作中,最重要的一步是收集高质量的种子训练数据集,我们将详细描述这一过程,包括问题-答案收集、标注和内容提取。首先,我们从阿里巴巴的用户搜索购买行为和产品评论中收集问题-答案对。然后,我们通过众包工作标注这些问题-答案对,以生成种子数据集。接着,从电商业务中编辑的产品描述中提取相关内容。这种构建数据集的方式可以生成大量候选项,同时众包标注任务相对简单,与直接从嘈杂的长文本中标注三元组相比具有更低的难度。在构建了包含相关内容的种子数据集后,可以训练MRC模型来预测更多的常识关系,并继续增强训练过程。

3.1 问题-答案收集

 电子商务平台中丰富的查询日志和用户行为是挖掘种子关系实例的初步来源。我们利用搜索日志和用户行为(包括购买和评论)来挖掘不同类别概念之间的关联性。具体来说,对于每一对查询相关的商品,我们建立查询中的头概念和商品标题或评论中出现的尾概念之间可能的关系。然后,我们使用传统的检索方法,如TF-IDF(词频-逆文档频率)得分,来计算它们之间的关联程度。需要注意的是,由于搜索引擎中的冷启动问题,只有少数期望的关系对可以通过这种方式挖掘出来。因此,我们设置了一个严格的阈值,剔除那些关联得分较低的候选对。一旦种子数据集构建完成,我们就需要训练模型从大规模语料库中提取更多的常识关系。
 我们不是让人们直接从长文本中寻找答案,而是使用众包来判断答案是否根据常识是合理的。每个候选项是一个三元组,由头概念、产品类别和尾概念组成。我们根据AliCoCo2中定义的头和尾概念类别,将每个候选三元组转化为一个“是/否”问题。我们用来生成问题的部分模板显示在表1中。然后,我们要求众包标注员根据常识判断问题是否合理。标注员的指导原则是:1) 问题中描述的信息适用于大多数情况。2) 主体的表达合理。3) 问题流畅。
在这里插入图片描述
 为了控制数据集的质量,我们标注了300对问答对并得到了真实标签。工人只有通过一个小数据集的测试后才会被雇佣,且工人标注的准确率应高于90%。为了避免标注员随机选择的行为,我们将标注的问答对随机分配给标注员,以判断他们是否认真参与回答。此外,我们将每个问题分配给至少五个人,并将一致性率达到80%或更高的答案视为有效。

3.2 内容提取

 在积累了一定数量的高质量问答对后,我们在阿里巴巴平台上搜索由编辑编写的大规模产品描述作为段落,构建SQuAD风格的数据集。这些人工编写的产品描述以自然语言形式呈现,并包含了丰富的常识知识,适用于在线购物。我们收集了一个包含25.1百万产品描述对和20.2百万不同描述内容的语料库。我们通过将头概念与语料库中的产品标题匹配,提取与问答对对应的段落,并确保答案同时出现在产品描述中。对于每对问答,87.4个内容候选可以被匹配,最多有超过1000个候选,包含大量相似文本。我们使用Jaccard相似度和预训练语言模型来计算每个候选的相似度和困惑度,并保留20个不同的高质量内容作为候选。总的来说,我们生成了420千个不同的<问题,内容,答案>三元组,作为后续模型训练的种子数据集。

3.3 阅读理解

 MRC模型基于BERT[5],这一强大的预训练模型已经在阅读理解任务中取得了显著的表现。我们在一个包含20.3百万由人工编辑编写的产品描述的大规模电子商务语料库上进行了微调,并在训练集上训练了MRC模型。对于AliCoCo中的每个可能的头概念,我们通过标题匹配检索相关产品,并使用模板生成问题。然后,经过训练的MRC模型自动从相应的人工编写的产品描述中提取可能的答案。提取的候选对随后分发给众包标注员,整个过程迭代进行。

4 表示

对于知识表示学习,我们正式定义了“电子商务常识知识图谱(ECKG)”和“ECKG的知识图谱嵌入(KGE)”如下:
定义1. 电子商务常识知识图谱(ECKG)是一个三元组 < 𝐸, 𝑅, 𝐼 >,其中:
𝐸 是 ECKG 中所有概念节点的有限集合;
𝑅 是 ECKG 中所有关系名称的有限集合;
𝐼 是关系实例的有限集合,形式为 < 𝑒_1, 𝑟, 𝑒_2, 𝑐 >,其中 𝑒_1, 𝑒_2, 𝑐 ∈ 𝐸 且 𝑟 ∈ 𝑅。

定义2. 给定 ECKG < 𝐸, 𝑅, 𝐼 >,ECKG 的知识图谱嵌入(KGE)目标是将每个概念 𝑒 ∈ 𝐸 和关系 𝑟 ∈ 𝑅 表示为低维向量空间中的向量,并且学习到的嵌入能够提高下游任务的表现。

在这里插入图片描述

 我们提出了一个多任务编码-解码表示框架,如图2所示,用于解决第1节第三段提到的挑战。为了应对常识知识图谱稀疏性的问题,我们使用预训练语言模型来增强上下文特征,并在编码阶段使用图神经网络学习局部图结构特征。为了应对电子商务中数据结构的特殊性,我们采用多任务学习的思想,分别使用不同的模型解码不同类型的关系,然后在训练过程中进行联合优化。

4.1 来自语言和图的编码

 为了充分利用图中节点文本描述的语义信息,我们采用了广泛使用的预训练语言模型BERT[5]作为文本编码器。我们通过掩码语言建模损失对BERT进行微调,以获得所有概念基于其文本短语的丰富语义表示。我们将所有概念短语列出,作为微调的输入,格式为 [ CLS \text{CLS} CLS] + e ′ e' e + [ SEP \text{SEP} SEP],其中 e ′ e' e e ∈ E e \in E eE 的文本短语。然后,我们使用来自BERT模型最后一层的 [ CLS \text{CLS} CLS] 标记的表示作为节点表示,并得到语言嵌入矩阵 T ∈ R ∣ E ∣ × M T \in \mathbb{R}^{|E| \times M} TRE×M,其中 M M M 是 BERT 嵌入的维度。我们使用 t i t_i ti 来表示语言模型中节点 e i e_i ei 的语义编码。

3、

六、

1、

2、

3、

七、

1、

2、

3、

八、

1、

2、

3、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值