作者:熊飞宇(非宇) 阿里业务平台团队

知识图谱是用图的方式描述实体以及实体之间的关联关系, 是实现认知智能的重要支撑技术之一。目前,阿里巴巴利用知识图谱对商业要素进行建模,已开发了智能商品发布、商铺管理、品类规划、平台治理等智能化应用场景,本文将会集中介绍该项目的核心技术以及业务应用。
一、背景介绍
知识是人类认识世界过程中总结的经验性成果,它包括事实描述、概念本体、规则和逻辑、原理和策略等。知识图谱是当前应用最广泛的知识表示方法和知识库建设技术,它用图的方式描述实体以及实体之间的关联关系, 是实现认知智能的重要支撑技术之一。知识图谱在语义搜索、智能问答、推荐计算、语言理解、大数据分析等技术领域发挥着重要作用,并已经在商务金融、生命健康等众多领域得到广泛重视和深入应用。
知识图谱在数字时代的高质量智能化发展方面,发挥着越来越重要的推动作用。亚马逊、沃尔玛、eBay等都把建设商务知识图谱平台作为提升智能化水平的重点。在数字商业场景中,阿里巴巴利用知识图谱对商业要素进行建模,例如,利用本体表示方法建模商品类目体系和定义商品标准属性;通过概念图谱(Conceptual Graph)建立场景、人群、主题、市场等核心商业概念的层次体系等。知识图谱在商品表示模型标准化、商业要素关系建模、多源异构商务数据的融合集成等方面发挥着基础性作用。
目前,阿里巴巴数字商业知识图谱已开发了智能商品发布、智能铺货、商铺管理、品类规划、平台治理等智能化应用场景,支撑了阿里集团旗下天猫、淘宝、淘宝特价版、饿了么、盒马鲜生、银泰百货等30多个零售业务单元,并拓展至旅游、文娱等多个领域。阿里知识图谱还先后获得了中国中文信息学会钱伟长科技奖一等奖、中国大数据技术大会最佳实践奖、中国物品编码中心委员会创新项目奖等多个创新应用奖。在近日揭晓的2021年度浙江省科学技术奖中,阿里巴巴与浙江大学等单位一起,以“面向数字商务的知识图谱构建与处理技术及产业化应用”为项目成果名称,获得浙江省科技进步二等奖,在学术与科技领域再创佳绩。本文将会集中介绍该项目的核心技术以及业务应用。
二、知识图谱核心技术介绍
2.1 知识图谱建设中的挑战
过去20年我国零售业的高速发展,沉淀了大量可用数据,我们利用知识图谱技术对商业要素进行建模,在理解商业活动本质的过程中,建设成了数字商业知识图谱,其相关技术支撑着下游数据和服务的产出和沉淀。在知识图谱的建设周期中,知识图谱构建帮助从无到有构建知识图谱;知识图谱补全可以帮助提升知识图谱的整体规模;知识图谱推理帮助沉淀知识图谱的整体规模和智能服务能力;知识图谱的数据管理帮助提供更好的知识服务。因此构建、补全、推理以及数据管理是在知识图谱生命周期中十分重要的环节。
整个数字商业知识图谱项目针对上述不同环节进行了详细的研究,主要包括:商品关系抽取任务、知识图谱补全中的链接预测任务、知识图谱推理中的表示学习以及规则学习任务、噪声数据中文命名实体识别等任务。这些核心任务存在着不同的关键挑战:
-
低资源构建问题:相较于通用知识图谱侧重于理解热点头部实体,商业数据存在大量长尾领域,在大量依赖数据训练模型的背景下,知识构建技术面临的低资源挑战突出。
-
可解释性问题:商业活动涉及生产、营销、触达、交易、配送、售后等长周期链路,商业活动参与角色众多,需要运营和算法实时互动。目前基于向量空间计算表示学习面临的核心挑战是对于预测结果的可解释性。规则学习作为有效的推理手段,需要达到一定的高效性才能保证真实知识图谱中的应用效果。如何通过推理提高模型的可解释性对于业务应用尤为关键。
-
大规模知识图谱应用问题:如何有效地提取图谱中的信息,做数字化表示,更加高效地应用在下游相关业务和算法中,也是知识图谱在应用时碰到的关键挑战。
该项目针对这些关键挑战进行了一系列的研究,包括:
1)低资源条件下的大规模知识图谱构建,提出了低资源知识图谱构建技术,实现了在低资源条件下基于知识图谱嵌入和图神经网络的长尾关系抽取和基于规则学习的零样本关系抽取;
2)可微可解释的知识图谱推理:提出了可微可解释知识推理技术;
3)大规模知识图谱应用:提出了多元语义结构的大规模数字商业知识图谱预训练系列模型。
以下分为四个部分,第一部分介绍数字商业知识图谱引擎架构,后面三个部分分别针对上述三项研究的技术内容进行介绍。
2.2 数字商业知识图谱引擎架构
截至今日,数字商业知识图谱已经形成了整套的工业级端到端的大数据知识化解决方案,整个知识图谱引擎架构系统(图1)包括知识建模、知识获取、知识融合、知识推理、知识服务5大模块。这些模块的定义如下:
-
知识建模是定义通用/特定领域知识描述的概念、事件、规则及其相互关系的知识表示方法,建立通用/特定领域知识图谱的概念模型。业务应用包括商品类目属性树的搭建等。
-
知识获取是对知识建模定义的知识要素进行实例化的获取过程,将非结构化数据结构化为图谱里的知识。业务应用包括商品属性预测,商品类目预测等。
-
知识融合是对异构和碎片化知识进行语义集成的过程,通过发现碎片化以及异构知识之间的关联,获得更完整的知识描述和知识之间的关联关系,实现知识互补和融合。业务应用包括商品同款识别,商品信息映射等。
-
知识推理是根据知识图谱提供知识计算和推理模型,发现知识图谱中的相关知识和隐含知识的过程。业务应用包括卖点、推荐理由生成等。
-
知识服务则是通过构建好的知识图谱提供以知识为核心的知识智能服务,提升应用系统的智能化服务能力。

图1:数字商业知识图谱引擎架构
2.3 低资源知识图谱构建技术
我们提出了低资源知识图谱构建技术,实现了基于规则学习的零样本关系抽取 [1],以及基于关系对抗网络的低资源知识图谱构建 [2]。
2.3.1 基于规则学习的零样本关系抽取
⍟ 技术思路
关系抽取(Relation Extraction)是信息抽取的子任务,有监督的学习方法是目前关

本文介绍了阿里巴巴数字商业知识图谱的核心技术与应用场景,包括低资源条件下的大规模知识图谱构建、可微可解释的知识图谱推理技术以及大规模知识图谱预训练模型。通过这些技术,知识图谱在商品智能发布、消费者体验提升、商品实时管控和跨渠道商品流通铺货等方面发挥了重要作用。
最低0.47元/天 解锁文章
1140

被折叠的 条评论
为什么被折叠?



