知识图谱学习(二):电商知识图谱
——本文摘自机械工业出版社华章图书《阿里巴巴B2B电商算法实战》,参考文献请参见原书。
目录
前言
互联网创业潮
互联网是20世纪最伟大的技术发明之一。 在20世纪60年代至80年代,各种互联网核心技术突飞猛进。从20世纪90年代开始,基于互联网的商业创新层出不穷,伴随技术变革而产生的创新商业模式已经完全改变了人们的衣、食、住、行、社交、消费等生活方式,在技术的驱动下,商业在不断为人们创造美好的生活。中国互联网的商业化始于1994年,20世纪90年代最后5年创建的互联网公司奠定了后续20年中国互联网的商业格局,其中不乏成长为商业巨头的公司,如阿里巴巴和腾讯。互联网商业化在中国演进的近30年历史中,经历了3次大的浪潮。
第一次浪潮:PC互联网(1995-2000)
20世纪90年代最后的5年,以网易、搜狐、新浪为代表的门户网站纷纷成立,并在后续5年改变了人们获取信息的方式。同时,阿里巴巴(电商)、腾讯(社交)、百度(搜索)、携程(出行) 也先后于这段时期创立。延续第一次浪潮的余波,2005年,Web 2.0开始在中国绽放,天涯社区、人人网、QQ空间等与传统门户网站不同的新的内容生产和消费形式陆续出现,网民从信息接收者和消费者变为户网站不同的新的内容生产和消费形式陆续出现,网民从信息接收者和消费者变为内容生产者,为后续自媒体和移动化社交的进一步发展埋下伏笔。
第二次浪潮:移动互联网(2009-2015)
随着4G网络和智能手机的普及,2012年手机网民数量达到4.2亿,超过PC网民数量。移动互联网的爆发,激发了新的商业模式和生活方式,成就了手机淘宝、微信等超级App。延续移动互联网浪潮,移动出行、共享单车、团购、外卖又引爆了一波创业浪潮,滴滴与快的、摩拜与ofo、美团与大众点评,商战交锋,跌宕起伏。
第三次浪潮:产业互联网(2015年至今)
2015年,“互联网+”的概念首次被提出,产业互联网已逐渐成为行业聚焦点,移动互联网、云计算、大数据与工业制作结合,促进了现代制造企业的转型升级。消费互联网以在线个性化的方式将商品推送给消费者;产业互联网则从更上游切入,聚焦基于下游需求洞察的柔性生产制造供应链升级。其中,典型的案例是电商界的“黑马”拼多多。拼多多聚焦下沉市场,撼动了整个电商格局。拼多多当下正致力于C2M转型和品牌升级,推出了"新品牌”计划。当然,阿里巴巴和京东作为电商行业的领跑者也不会静观其变,分别推出了"厂销通”和"厂直优品”计划。优质供给产业链的竞争又必将是一场腥风血雨。
回顾近30年的互联网创业潮,其内在驱动力都可以归因于科技进步。从技术角度看,互联网的变迁可分为以下阶段。
- 第一阶段:门户时代,核心技术是分类索引。
- 第二阶段:搜索时代,核心技术是搜索引擎。
- 第三阶段: SNS时代, 核心技术是关系图谱。
- 第四阶段:信息时代,核心技术是推荐算法。
电商生态
互联网中最丰富的资源是流量,而流量变现最直接的方式是电商,所以放眼当前各个主流App,诸如今日头条、快手、微信等,都在尝试直播带货和社交分销的运营模式。当然,以电商为核心商业模式的平台App,也都在以各种形式构建自己独特的营销玩法和商业壁垒。正如本书书名所表明的,本书内容强调阿里巴巴B2B商业模式背后的算法技术支撑力和驱动力。在正文开始之前,我们先简要介绍主流的电商业态以及相应的核心算法和技术能力,以便读者迅速了解全貌。
平台模式是当下主流电商形态,即便是以社交电商自居的拼多多也绕不开平台模式,笔者认为其背后的关键是基于平台中心化流量的强抓手和强管控特性,设计商业化变现机制,从而实现商业营收、资本回报。整体而言,打造有竞争力的平台,核心切入点是实现供需两端的匹配。在供给端,寻找优质供给商家和工厂,通过算法技术提供商品数字化、线上化的工具,并且通过平台流量分发机制给予增量买家扶持。在需求端,洞察消费者需求,通过算法技术提供搜索和推荐触达方式,提供更精准、优质的服务。对于匹配机制,结合商家能力、商品特性、买家身份和行为偏好,构建以点击率和转化率为变量因子的匹配模型。当然,深耕平台价值,还需要关注外围电商基础设施的建设,包括商家和商品的质量认证体系、交易担保体系、供应链履约体系等。以阿里巴巴为例,集团内部有“平台质量”一级部门来把控整体质量风险。2004年, 支付宝的出现,简化了交易流程; 2014年, 菜鸟物流的出现,标志着完备的智能物流体系已构建好。
电商业态主要分为B2B (Business to Business)、B2C (Business to Customer)和C2C (Customer to Customer) 3种模式。
B2B平台的参与方通常都是商家,平台的核心价值是工具化赋能供需两端,其商业化变现方法是收取会员费和增值服务费。典型代表公司是阿里巴巴CBU事业部、慧聪网、敦煌网。
B2C平台将商家生产的具有品牌价值的商品传递给消费者,平台的核心价值体现为降本提效,其商业变现方法是佣金提成。典型代表公司是京东和天猫,这两家公司在整个B2C市场中的份额超过80%。
C2C平台的绝对领导者是淘宝,2019年“双十一”大促期间,整个淘宝系电商平台的GMV (成交总额)达到了2684亿元。除了在算法技术层面对搜索和推荐功能持续深度优化外,淘宝也在强化内容带货的价值,主流玩法包括淘宝直播和哇哦视频。
除了上述3种典型模式,同时串联起B2B、B2C、 C2C模式的C2M模式也逐渐成为当下各主流电商平台的争夺点,平台基于大数据智能洞察和挖掘市场机会,并通过集单议价牵弓|供给,为买家提供极具性价比的供给,为工厂卖家提供货品销售的更多机会,同时也为中小工厂开店、选品、营销提供全方位的技术支持。
毫不夸张地说,阿里巴巴的发家史就是中国电商的演进史,阿里人始终直面“战争”,通过商战赢得胜利,同时也助推经济发展和产业升级。阿里CBU和淘宝分别成为当下B2B和C2C市场的第一梯队领跑者, 它们近20年的核心技术发展历程如下图所示,并且两者在2019年形成合力,互通供需两个主赛道。
一、知识工程与专家系统
在1977年第五届国际人工智能会议上,美国斯坦福大学计算机科学家Edward A. Felgenbaum发表的文章 The art of artificial intelligence. 1. Themes and case studies of knowledge engineering,系统性地阐述了“专家系统”的思想,并且提出了“知识工程”的概念。他认为:“知识工程利用了人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的一般准则和工具。在1984年8月全国第五代计算机专家讨论会上,史忠植教授提出:“知识工程是研究知识信息处理的学科,提供开发智能系统的技术,是人工智能、数据库技术、数理逻辑、认知科学、心理学等学科交叉发展的结果。”专家系统最成功的案例是DEC的专家配置系统XCON。1980年,XCON最初被用于DEC位于新罕布什尔州萨利姆的工厂,它拥有大约2500条规则。截至1986年,它一共处理了80 000条指令,准确率达到95%~98%。据估计,通过减少技师出错时送给客户的组件以加速组装流程和增加客户满意度,它每年为DEC节省2500万美元。一个典型的专家系统如图1所示,其特点主要包括:
- 在特定领域里要具有和人一样或者超出人的高质量解决困难问题的能力;
- 拥有大量、全面的关于特定领域的专业知识;
- 采用启发的方法来指导推理过程,从而缩小解决方案的搜索范围;
- 能够提供对自己的推理决策结果进行解释的能力;
- 引入表示不同类型知识(如事实、概念和规则)的符号,专家系统在解决问题的时候用这些符号进行推理;
- 能够提供咨询建议、修改、更新、拓展能力,并能处理不确定和不相关的数据。
可以看到,专家系统大量依靠领域专家人工构建的知识库。在数据量激增、信息暴涨的当下,人工维护知识库的方式在效率和覆盖率上都难以达到令人满意的水平。另外,推理规则的增加也增加了系统的复杂度,从而导致系统非常难以维护。
二、语义网络与知识图谱
1. 语义网络
伴随着Web技术的不断发展,人类先后经历了以网页的链接为主要特征的Web 1.0时代到以数据的链接(Linked Data)为主要特征的Web 2.0时代,目前Web技术正逐步朝向Web之父Berners Lee在2001年提出的基于知识互联的语义网络(semantic Web),也就是Web 3.0时代迈进。在Web 2.0时代,互联网发展迅猛,数据的规模呈爆发式增长,基于统计的机器学习方法占据主流,并且在各个领域取得不错的成果。例如搜索引擎,搜索的流程大致可拆分为基于用户查询、召回、L2R这3个过程,一定程度提升了用户获取信息的效率。但是这种服务模式仍然是把一系列信息抛给用户,用户最终还是需要对数据