《AliCoCo: Alibaba E-commerce Cognitive Concept Net》中文校对版

文章汉化系列目录



摘要

 电子商务平台的终极目标之一是满足用户的各种购物需求。为了实现这一目标,许多努力集中在电子商务中的分类体系或本体的构建上。然而,电子商务中的用户需求尚未得到明确定义,现有的本体在深度和广度上均不足以实现对普遍用户需求的全面理解。二者之间的语义鸿沟阻碍了购物体验的进一步智能化。在本文中,我们提出构建一个大规模的电子商务认知概念网,命名为“AliCoCo”,这是在全球最大的中国电子商务平台阿里巴巴中实践的。我们正式定义了电子商务中的用户需求,并将其概念化为网络中的节点。文章详细介绍了AliCoCo是如何半自动化构建的,以及其在电子商务中的成功应用、正在进行的应用和潜在应用。

引言

 电子商务平台的一个主要功能是将客户的购物需求与海量候选商品集中筛选为一个小的商品集合。随着搜索引擎和推荐系统的快速发展,客户能够迅速找到他们所需的商品。然而,这种体验距离“智能化”仍有很大差距。一个重要原因是用户心中所需与电子商务平台上商品的组织方式之间存在巨大的语义鸿沟。在阿里巴巴(实际上几乎所有电子商务平台)中,用于组织商品的分类体系通常基于CPV(类别-属性-值):数千个类别根据不同的粒度构成了一个层级结构,并在每个叶节点上定义了诸如颜色和尺寸等属性。这是一种组织和管理当今电子商务平台上数十亿商品的自然方式,并且已经成为搜索和推荐等下游应用的基本组成部分。然而,由于语义鸿沟的存在,现有的电子商务分类体系或本体难以全面准确地解释用户的各种需求,这一点将在接下来的两个场景中进行解释。
 多年来,电子商务搜索引擎一直在引导用户如何明智地输入关键词,以便快速找到所需商品。然而,基于关键词的搜索似乎只适用于那些明确知道自己想购买的具体产品的用户。问题在于,用户并不总是知道确切的产品。他们更可能心中有一个产品类型或类别,并带有一些额外的特征。更糟糕的是,他们可能仅有一个场景或问题,但完全不知道哪些商品能够解决问题。在这种情况下,用户可能会选择在电子商务平台之外进行一些研究,以缩小到具体的产品范围,这不仅损害了用户体验,还使得电子商务搜索引擎显得毫无智能可言。追溯其根本原因,在于现有的电子商务本体中并不包含结构化知识,例如哪些商品适合“户外烧烤”或什么商品可以“防止老人迷路”。输入这样的搜索查询不可避免地导致用户需求的错配,而查询理解则简单退化为关键词匹配。
 同样的问题也存在于商品推荐中。在现实工业场景中,由于交易数据规模巨大,推荐算法广泛采用基于商品的协同过滤(item-based CF)[24]的思路。这种方法依赖于商品对之间的预计算相似性,在较少计算量的情况下,可以从极大的选项集中推荐商品。推荐系统利用用户的历史行为作为触发器,召回一小部分最相似的商品作为候选项,然后通过排名模型对候选商品打分并推荐权重最高的商品。这种框架的一个关键缺点是,它并非以用户需求为驱动。这不可避免地导致一个困境:推荐的商品难以解释,除了诸如“与用户已浏览或购买的商品相似”这样琐碎的理由外,几乎无法说明推荐逻辑。此外,这种方法也阻碍了推荐系统跳脱出用户历史行为,去探索其他隐性或潜在的用户兴趣。因此,尽管这种方法被广泛采用,但当前推荐系统的表现仍备受批评。用户抱怨一些推荐结果过于冗余且缺乏新意,因为现有的推荐系统只能满足非常有限的用户需求,比如对某一特定类别或品牌的需求。当前电子商务本体中缺乏能够表示各种用户需求的中间节点,这一问题限制了推荐系统的发展。
 在本文中,我们尝试通过构建一个面向普遍用户需求理解的新本体,来弥合实际用户需求与现有电子商务平台本体之间的语义鸿沟。研究表明,人类的认知系统是基于概念的[4, 20],而概念的分类和本体赋予人类理解能力[30]。受此启发,我们主要基于概念构建本体,并将其命名为“AliCoCo”,即阿里巴巴认知概念网。与大多数仅包含类别或品牌等节点的现有电子商务本体不同,我们引入了一种新的节点类型,例如“户外烧烤”和“孩子保暖”,作为桥接用户和商品的概念节点,以满足一些高级用户需求或购物场景。如图1顶部所示,我们称这些节点为“电子商务概念”,其结构代表了一组来自不同类别并具有特定约束条件的商品(更多细节见第5节)。例如,“户外烧烤”是一个电子商务概念,包含烤架、黄油等商品,这些商品是举办成功的户外烧烤派对所需的必备物品。因此,AliCoCo可以在用户输入关键词“烧烤户外”后,帮助搜索引擎直接向客户建议“举办户外烧烤所需的商品”,或者帮助推荐系统在预计下周将有暴风雪时,提醒用户准备一些“让孩子保暖的物品”。

在这里插入图片描述

图1:“AliCoCo”概览,由四个层级组成:

  1. 电子商务概念(E-commerce Concepts):这是最顶层,包含如“户外烧烤”或“孩子保暖”这样的桥接概念,直接映射用户的高层需求和购物场景。
  2. 原始概念(Primitive Concepts):作为中间层,原始概念为电子商务概念提供支持,将其分解为更加基础的组成要素,例如特定功能或属性。
  3. 分类体系(Taxonomy):现有电子商务平台的分类体系,包含具体类别和属性节点,如类别(烤架、户外椅)和属性(大小、颜色)。
  4. 商品层(Items):最底层,具体到平台上实际存在的商品,与分类体系中的节点直接关联。
    这种分层结构实现了用户需求到实际商品的跨层级映射,使“AliCoCo”能够弥补语义鸿沟并优化用户的搜索与推荐体验。
  • 我们认为,当前电子商务平台中的本体无法很好地表示和理解实际的用户需求,因此阻碍了购物体验变得更加智能化。为了解决这一语义鸿沟,我们正式定义了电子商务中的用户需求,并提出构建一个端到端的大型综合知识图谱“AliCoCo”,其中的“概念”节点能够明确表示用户的各种购物需求。

  • 为了构建这样一个大规模的知识图谱,我们采用了一种半自动化的方法,将机器学习与人工结合。我们详细介绍了AliCoCo的四层结构以及五个关键技术组件。对于每个组件,我们定义了问题,指出了挑战,描述了有效的解决方案,并进行了全面的评估。

  • AliCoCo已经在中国最大的电子商务平台阿里巴巴中投入使用,并为包括搜索和推荐在内的一系列应用提供了支持。我们相信,用户需求理解的理念可以进一步应用于更多的电子商务场景。“用户需求驱动”的电子商务领域仍然有广阔的想象空间和创新潜力。

本文其余部分的结构如下:首先,我们概述AliCoCo(第2节),然后介绍如何构建其四个层级:分类体系(第3节)、原始概念(第4节)、电子商务概念(第5节)和商品关联(第6节)。第7节展示了AliCoCo的总体统计数据以及五个主要技术模块的评估结果。接着,我们在第8节讨论了一些成功的、正在进行的以及潜在的应用。第9节提到了相关工作,最后,第10节给出了结论并描绘了未来可能的工作方向。

2 概述

AliCoCo 提供了一种在统一框架内描述和理解电子商务中用户需求和商品的替代方法。如图1所示,AliCoCo由四个组成部分构成:电子商务概念(E-commerce Concepts)、原始概念(Primitive Concepts)、分类体系(Taxonomy)和商品(Items)。
 作为核心创新,我们在图1的顶层将各种用户需求表示为电子商务概念(橙色框)。电子商务概念是简短、连贯且合理的短语,例如“户外烧烤”、“送爷爷的圣诞礼物”或“孩子保暖”,这些短语描述了特定的购物场景。此前,电子商务中的用户需求未被正式定义,通常使用层级类别或浏览节点来表示用户需求或兴趣[34]。然而,我们认为用户需求远比类别或浏览节点更广泛。设想一个用户计划进行户外烧烤,或者关心如何解决花园里的浣熊问题。他们面临一个场景或问题,但不知道哪些商品可以帮助解决。因此,在AliCoCo中,用户需求通过各种概念来表示,更多细节将在第5节中介绍。
 为了进一步理解高层用户需求(即电子商务概念),我们需要一种基础语言来描述每个概念。例如,“户外烧烤”可以被表达为“<事件:烧烤> | <地点:户外> | <天气:晴朗> | …”。因此,我们构建了一个原始概念层,其中“原始”意味着该层中的概念短语相对简短且简单,例如“烧烤”、“户外”和“晴朗”(图1中的蓝色框)。相比之下,电子商务概念通常是复合短语。为了将所有原始概念归类到不同的类别中,我们还定义了一个电子商务分类体系(Taxonomy,分类学,分类法),其中具有不同粒度的类别通过isA关系形成了一个层级结构。例如,分类体系中有一条自上而下的路径:“类别->服装与配饰->服装->连衣裙”(图1中的紫色椭圆)。
 我们还在分类体系上定义了一个模式,用于描述不同原始概念之间的关系。例如,在“类:类别-服装->裤子”和“类:时间->季节”之间定义了一个“适用时”(suitable_when)的关系,因此原始概念“棉裤”在“冬季”时是“适用时”(suitable_when)的。
 在商品层,阿里巴巴平台上的数十亿商品同时与原始概念和电子商务概念相关联。原始概念更类似于商品的属性,例如颜色或尺寸。然而,电子商务概念与商品之间的关联表示某些商品在特定购物场景下是必需的或推荐的。如图1所示,例如烤架和黄油等商品与电子商务概念“户外烧烤”相关,但它们单独并不能与原始概念“户外”相关联。
 总体而言,我们将用户需求表示为电子商务概念,然后采用带有分类体系的原始概念来在同一框架内描述和理解用户需求与商品。此外,电子商务概念还直接与商品相关联,从而形成了AliCoCo的完整结构。

3 分类体系

 AliCoCo的分类体系是一个用于索引数百万(原始)概念的预定义类的层级结构。分类体系的一个快照如图3所示。多个领域专家付出了巨大努力以手动定义整个分类体系。在第一层级中定义了20个类别,其中以下类别是专为电子商务设计的,包括“类别”(Category)、“品牌”(Brand)、“颜色”(Color)、“设计”(Design)、“功能”(Function)、“材质”(Material)、“图案”(Pattern)、“形状”(Shape)、“气味”(Smell)、“味道”(Taste)和“风格”(Style)。其中,“类别”是最大的类别,拥有近800个叶节点,因为商品分类是几乎所有电子商务平台的骨干。其他类别如“时间”(Time)和“地点”(Location)则更接近通用领域。一个值得特别提及的类别是“知识产权”(IP,Intellectual Property),其中包含了数百万现实世界中的实体,如名人、电影和歌曲。这些实体在AliCoCo中也被视为原始概念。分类体系第一层级中定义的20个类别也被称为“领域”(domains)。
在这里插入图片描述

4 原始概念

 具有分类体系的原始概念旨在准确且全面地描述电子商务中的每个商品和用户需求。它们是理解客户高层次购物需求的基础构建块。在本节中,我们主要介绍如何挖掘这些原始的原始概念(可以视为词汇),并将它们组织成层次结构。

4.1 词汇挖掘

 在定义分类体系后,扩展原始概念规模有两种方法。第一种方法是通过本体匹配从多个来源整合现有知识。在实践中,我们主要采用基于规则的匹配算法,并结合人工手动对每个数据源的分类体系进行对齐。本文中不详细介绍具体细节。
 第二种方法是从电子商务领域生成的大规模文本语料中挖掘新概念,这些语料包括搜索查询、商品标题、用户评论和购物指南。针对特定类别挖掘新概念可以被建模为序列标注任务,其中输入是一个词序列,输出是一个预定义标签的序列。然而,由于分类体系的层级结构过于复杂,无法直接用于这一任务,因此在实际操作中,我们仅使用第一层级的20个类别作为标签。
 图4展示了BiLSTM-CRF模型的主要架构,这是目前在各种序列标注任务中表现最好的模型之一[14, 23]。BiLSTM-CRF模型由一个BiLSTM层和一个CRF层组成,其中BiLSTM(双向长短期记忆网络,Bidirectional-LSTM)能够使隐藏状态捕获单词的历史和未来上下文信息,而CRF(条件随机场,Conditional Random Field)则考虑了当前标签与相邻标签之间的相关性。
在这里插入图片描述

 所有通过自动方法挖掘的“概念-类别”对随后都会经过人工检查以确保其正确性,具体细节将在第7.2节中介绍。一旦类别确定后,一个表面形式就会成为一个真正的原始概念,每个概念将被分配一个唯一的ID。同名但具有不同ID(意义)的原始概念可以共存,这使得AliCoCo具备对原始文本进行消歧的能力。

4.2 上位词发现

 在挖掘了20个第一层级类别(领域)的原始概念后,我们进一步将每个原始概念细化分类到各领域内的细粒度类别。在每个领域中,这一任务可以被建模为上位词发现(Hypernym Discovery),即需要预测任意原始概念对之间的“下位词-上位词”关系。在实际操作中,我们结合了两种方法:一种是无监督的基于模式的方式,另一种是有监督的投影学习模型。

4.2.1 基于模式的方法

基于模式的上位词发现方法由Hearst [12] 首创,他定义了特定的文本模式,例如“Y such as X”,用于从语料库中挖掘下位词-上位词对。然而,这种方法因假设下位词-上位词对必须共同出现在这些模式中而导致召回率较低,而在匹配语料库中的模式时,这种假设通常并不成立。除了这些模式外,我们还采用了其他规则,利用中文的一些特殊语法特性直接发现上位词。例如,“XX裤”(XX Pants)必然是“裤”(Pants)这一类别的上位词,等等。

4.2.2 投影学习

投影学习的核心思想是学习一个函数,该函数以可能的下位词 p p p 和候选上位词 h h h 的词嵌入为输入,并输出 p p p h h h 之间存在上位关系的可能性。为了发现给定下位词 p p p 的上位词,我们将该判别函数应用于所有候选上位词,并选择可能性最高的那些。对于一个候选对 ( p , h ) (p, h) (p,h),我们首先通过一个查找表获得它们的词嵌入 p p p h h h,这些嵌入是在电子商务语料库上预训练的。然后,我们使用一个投影张量 T T T 来衡量是否存在上位关系。在 T T T 的第 k k k 层,我们通过以下公式计算分数 s k s_k sk

s k = p T T k h s_k = p^T T_k h sk=pTTkh

其中, T k T_k Tk 是矩阵, k ∈ [ 1 , K ] k \in [1, K] k[1,K]。结合 K K K 个分数后,我们获得一个相似度向量 s s s。接着,经过一个带有 sigmoid 激活函数的全连接层,我们得到最终的概率 y y y

y = σ ( W s + b ) y = \sigma(Ws + b) y=σ(Ws+b)

4.2.3 主动学习

 由于为每个领域标注大量的下位词-上位词对显然无法扩展,我们采用了一种更有指导性的主动学习方法,通过选择需要标注的示例,使得在降低标注成本的同时,能够经济地学习一个准确的模型。其前提是,如果允许模型选择对其训练最有益的数据点,并从标注人员处查询其标注信息,模型的性能将会得到更好的提升。我们提出了一种不确定性和高置信度采样策略(Uncertainty and High Confidence Sampling, UCS)来选择样本,这些样本可以有效地提高模型的性能。迭代的主动学习算法如算法1所示。
在这里插入图片描述
 如第3至7行所示,我们首先从未标注数据集 D D D 中随机选择一个包含 K K K 个样本的数据集 D 0 D_0 D0,并请求领域专家对 D 0 D_0 D0 中的样本进行标注。由此,我们获得了初始标注数据集 L 0 L_0 L0,同时从 D D D 中移除 D 0 D_0 D0。接着,我们使用 L 0 L_0 L0 训练投影学习模型 f f f,并在测试数据集 T T T 上测试其性能,性能指标记为 f s f_s fs。最后,我们使用训练好的模型 f ^ \hat{f} f^ 对未标注数据集 D D D 进行预测,并获得得分 S 0 S_0 S0
 接下来,我们通过迭代选择未标注样本进行标注,并利用它们来增强模型的性能。我们提出了一种主动学习采样策略,称为不确定性和高置信度采样(Uncertainty and High Confidence Sampling, UCS),其从两个因素出发选择未标注样本。第一个因素基于经典的不确定性采样(Uncertainty Sampling, US)[16]。如果某个样本的预测分数接近 0.5,这表明当前模型难以判断该样本的标签。如果专家对该样本进行标注,模型可以通过学习该样本来提升能力。在第9行中,我们通过公式 ∣ S i − 0.5 ∣ / 0.5 |S_i - 0.5| / 0.5 Si0.5∣/0.5 来计算这一概率。此外,我们认为高置信度的样本在上位词发现任务中同样有帮助,因为模型可能会以高置信度将一些困难的负样本预测为正样本,特别是在遇到关系如 “same_as” 或 “similar” 时。通过人类标注发出的信号可以及时纠正这一问题。因此,我们在第10行中也选择了那些具有高分数的样本。另外,我们引入了参数 α \alpha α 来控制不同采样规模的权重。然后,我们获得了新的人工标注数据集,用于训练更优的模型。随着标注数据数量的增加,模型的性能也会随之提升。
 最终,当模型的性能 f s f_s fs n n n 轮内不再提升时,此迭代过程将停止。在这一过程中,我们不仅获得了一个更好的模型,还有效地降低了人工标注的成本。

5 电子商务概念

在电子商务概念层,每个节点代表一个特定的购物场景,并且至少可以通过一个原始概念进行解释。在本节中,我们首先通过一些示例介绍高质量电子商务概念的标准,然后展示如何生成所有这些电子商务概念,并进一步提出一种算法,将电子商务概念与原始概念层进行关联。

5.1 标准

如第2节所述,在AliCoCo中,用户需求被概念化为电子商务概念,一个高质量的电子商务概念应满足以下标准:

  1. 电子商务相关性
    应能让人轻松联想到电子商务平台中的某些商品,能够自然地表示一个特定的购物需求。例如,“蓝天”或“母鸡下蛋”不是电子商务概念,因为我们很难联想到相关商品。

  2. 连贯性
    应该是一个连贯的短语。反例包括“礼物爷爷圣诞节”或“孩子保暖为”,而正确的表达应为“圣诞节给爷爷的礼物”或“孩子保暖”。

  3. 合理性
    应符合常识知识,是一个合理的短语。例如,“性感婴儿裙”或“欧式韩式窗帘”是反例,因为人们不会用“性感”来描述婴儿的裙子,而窗帘不可能同时是欧式和韩式风格。

  4. 清晰性
    电子商务概念的含义应清晰易懂。例如,“儿童和婴儿的辅食”是一个反例,因为其主体可能是较大年龄的儿童,也可能是新生儿,这会导致用户困惑。

  5. 正确性
    不应有任何发音或语法错误。

5.2 生成

关于定义此类电子商务概念的研究尚属首次,针对从文本中挖掘此类短语的研究也寥寥无几。在实践中,我们提出了一个两阶段框架:首先,通过两种不同的方法生成大量可能的电子商务概念候选项;然后,提出一个二分类模型,用于识别符合我们标准的概念。

5.2.1 候选项生成

生成概念候选项有两种不同的方法:

  1. 从文本中挖掘原始概念
    实际操作中,我们采用AutoPhrase[25] 从电子商务的大规模语料中挖掘可能的概念短语,这些语料包括搜索查询、商品标题、用户评论以及商家编写的购物指南。

  2. 使用现有的原始概念生成新候选项
    例如,我们可以将“地点:室内”与“事件:烧烤”结合生成一个新概念“室内烧烤”。这种概念由于相对不常见,很难直接从文本中挖掘。然而,这是一个非常好的电子商务概念,因为AliCoCo的目标之一是尽可能覆盖更多的用户需求。 组合不同类别的原始概念的规则是通过一些自动挖掘然后手工调整的模式生成的。例如,我们可以通过模式“[类:功能] [类:类别] for [类:事件]”生成一个可能的概念“适合旅行的保暖帽”。表1展示了一些实践中使用的模式及其生成的电子商务概念,包括一些不符合标准的概念,这些将在后续步骤中被过滤掉。 此外,如果一个单一的原始概念符合所有五个标准,它也可以被视为一个电子商务概念。

    在这里插入图片描述

5.2.2 分类

 为了自动判断一个候选概念是否符合成为合格电子商务概念的标准,主要挑战在于测试其合理性(Plausibility)。对于其他四个标准,字符级和词级的语言模型以及一些启发式规则已经能够实现目标。然而,机器难以像人类那样掌握常识知识,例如“性感”一词不适合用来描述为儿童设计的衣服。此外,由于缺乏上下文信息,这一问题变得更加具有挑战性,因为我们的概念短语非常简短(平均2-3个单词)。

 为了解决这个问题,我们提出了一种知识增强的深度分类模型,首先将概念中的每个词链接到一个外部知识库,然后从中引入丰富的语义信息。模型架构如图5所示,基于Wide & Deep [7] 框架。输入为一个候选概念 c c c,输出为一个评分,表示 c c c 作为优秀电子商务概念的概率。在本文中,我们将一个字符定义为一个中文或英文字符,而一个分词(或术语)是一组由多个字符组成的序列,例如“Nike”或“牛仔裤(jeans)”。在将输入概念送入模型之前,我们对所有概念进行了中文分词处理。

在这里插入图片描述

 在Deep侧,主要有两个部分。首先,使用字符级BiLSTM通过简单的嵌入查找将候选概念 c c c的字符级嵌入序列 { c h 1 , c h 2 , … , c h n } \{ch_1, ch_2, \ldots, ch_n\} { ch1,ch2,,chn}进行编码。经过均值池化后,得到概念嵌入 c 1 c_1 c1。另一个部分是知识增强模块。输入由以下三部分组成:1)预训练的词嵌入;2)通过查找表生成的词性(POS)标签嵌入;3)通过查找表生成的命名实体识别(NER)标签嵌入。将这三种嵌入拼接后,形成候选概念 c c c的输入嵌入序列 { w 1 , w 2 , … , w m } \{w_1, w_2, \ldots, w_m\} { w1,w2,,wm} m < n m < n m<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值