知识图谱增强下的智能推荐系统与应用-于敬

本文探讨了知识图谱在智能推荐系统中的作用,包括基于协同过滤、内容过滤等传统推荐方法的局限性,以及知识图谱如何增强推荐系统的精准度和可解释性。知识图谱提供了丰富的领域知识,通过基于嵌入、连接和传播的推荐方法,解决数据稀疏性和冷启动问题。未来研究方向包括动态推荐、跨域推荐以及知识增强的推荐系统。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

随着互联网技术的迅速发展,尤其是移动互联网的兴起,新产生的信息呈现爆炸式的增长。为了更好地解决信息获取中的信息过载(Information Overload)和长尾问题(Long Tail),推荐系统应运而生,目前基本上已经成为了各种产品的标配功能。推荐系统是信息过滤系统的一个分支,它可以自动地挖掘用户和物品之间的联系。具体来说,它试图基于用户本身的多维度属性数据(如年龄、地域、性别等)以及行为数据的反馈(如点击、收藏、点赞、购买等),结合物品自身属性数据(如标题、标签、类别、正文等),以预测用户对待推荐物品的评分或偏好。从用户的角度来看,推荐系统是基于用户个人的兴趣偏好进行千人千面的自动推荐,则有助于缓解信息过载问题。从物品的角度来看,其自身属性及对应的交互行为差异,通过各种推荐方式是可以触达到对其更感兴趣的用户群体中,缓解了曝光不足带来的长尾问题。从企业的角度来看,推荐系统带来了更好的产品交互方式,达到了沉浸式体验的效果,从而进一步提升了用户的黏性,并最终大幅度提升了转化收益。

图1 达观智能推荐系统

在智能推荐ToB企业服务领域,达观数据已经有了10余年的推荐技术沉淀和上千家客户的行业应用实践经验。早在2012年的时候,由达观数据创始人陈运文博士带领团队参加了在伦敦举办的EMI数据黑客竞赛并获得了国际冠军,该竞赛主要是围绕音乐推荐场景,如何基于用户听歌行为等数据进行分析挖掘来对预测用户兴趣偏好并进行歌曲推荐。经过激烈鏖战,由他们开发的智能推荐系统对500万听歌用户的数据进行建模,根据每个用户的个性化兴趣偏好从数十万首歌曲库中为每个用户生成千人千面的歌曲推荐结果,推荐精度力克包括来自剑桥大学、牛津大学、密歇根大学等等的300多支参赛队伍,一举获得冠军。达观智能推荐基于前沿的人工智能和大数据分析挖掘技术,经过多年的产品打磨和持续的行业应用探索,累计服务客户数量达到了上千家。(https://www.datagrand.com/products/recommend/)

基于过滤思想的推荐方法

经过多年的推荐系统理论发展,已经产生了三代主要的推荐系统。第一代推荐系统(1995-2005),主要包括三种方法:基于内容过滤的方法、基于协同过滤的方法和混合方法,技术上主要是规则统计和机器学习。第二代推荐系统(2003-2014),主要是基于时间、位置、用户组评分等特征上下文,对这一代推荐系统的研究目前仍在进行中。第三代推荐系统的研究更侧重在基于表示学习的语义模型以及在推荐过程中会有较多的关于知识组件的使用。

01基于协同过滤的推荐方法

协同过滤方法(Collaborative Filtering,CF)是一种传统的推荐方法,体现的是群体智慧,它基于用户的兴趣偏好和与物品的历史交互行为进行推荐。这种方法可以分为基于记忆的方法和基于模型的方法。而基于记忆的方法可以分为两类:基于用户的(User-based CF)和基于物品的(Item-based CF)。基于内存的方法最流行的算法是KNN算法,该算法使用了一些传统的相似性度量,如 Pearson、Spearman、Cosine、Jaccard 等。另一方面,在基于模型的方法中,最常用的是矩阵分解(MF)及其变体(NMF、SVD)。目前,又出现了一些新的基于模型的协同过滤方法,如贝叶斯、基于聚类的、基于规则的和基于图的推荐方法。

协同过滤主要存在两个问题:当用户与物品之间的交互很少时用户数据的稀疏性,以及冷启动问题(新用户和新物品)。另外就是是传统的推荐技术没有利用推荐场景中的诸多语义信息、关键字关系和层次结构。

02基于内容过滤的推荐方法

基于该方法的推荐系统通过学习和用户过去偏好的物品在内容特征方面比较相似的新物品进行推荐。这类方法可以分为基于案例推理(case-based reasoning)和基于属性(attribute-based)的技术。基于案例推理的技术主要是推荐与用户过去喜欢的物品高度相关的物品。相比之下,基于属性的技术基于将物品属性与用户属性相匹配来进行推荐结果生成。大多数基于内容过滤的推荐系统使用的模型包括:关键字匹配或向量空间模型(VSM)、基于词频-逆文档频率(TF-IDF)加权、主题建模等。

基于内容过滤的推荐方法,推荐出来的物品具有较高的文本相关性,同时可以很好的解释推荐结果,但是推荐出来的结果往往惊喜度较差,同时文本特征较为稀疏时也会影响相关性的计算。

03基于人口统计信息过滤的推荐方法

该方法的主要思想是具有某些共同个人属性(性别、年龄、国家等)的用户也具有共同偏好这一事实。基于此,这些系统可以通过根据人口统计属性对用户进行分类来生成推荐结果。当物品的信息量很有限时,这些方法特别有用。该方法的一个优点是它不需要用户对基于内容和协同过滤方法所必需的物品进行评分或者有交互反馈。

然而,这种类型的推荐方式的主要问题,一是由于涉及安全和隐私问题,为用户收集完整的信息是不切实际的;二是该方法向相关人口统计群体的用户推荐相同的商品,个性化程度受限。

04基于上下文感知过滤的推荐方法

该类推荐系统结合场景上下文信息进行推荐。这种方法假设当前推荐场景的上下文是用一组预定义的可观察属性定义的,其结构不会随着时间的推移而发生显着变化。所谓的上下文信息主要包括时间、位置或者其他人(如朋友、亲戚或同事)。这些上下文信息为推荐结果的生成提供了额外的信息,相对于仅考虑用户或者物品自身信息,会有更多的补充。

05基于知识过滤的推荐方法

该类推荐系统主要是基于领域知识考虑如何推荐以满足用户的兴趣偏好。这些系统应该使用三种类型的知识:关于用户的知识、关于物品的知识以及关于物品与用户需求之间对应关系的知识。总体上来说,该方法主要是依靠知识图谱来为推荐系统更多的辅助信息以提升推荐精准度。后面会展开来详细介绍。

06混合过滤的推荐方法

这些系统通常将协同过滤与内容过滤或协同过滤与任何其他推荐方法相结合进行推荐。结合的目标是利用每种方法的优势以提高整体系统性能和推荐效果。目前,一些关于混合方法的工作包括基于深度学习方法、贝叶斯网络、聚类、潜在特征和图结构等等。

近年来,基于深度神经网络的方法,如 DNN 、Wide & Deep、DeepFM在排序学习(Learn to Rank,LTR)方面取得了令人瞩目的表现。这些方法遵循嵌入(Enmbedding)和多层感知机(Multilayer Perceptron,MLP)范式,其中大规模稀疏特征首先嵌入到低维向量中,然后连接在一起输入多层感知器以学习特征之间的非线性关系。先进的LTR方法发现了从用户的历史行为中提取用户兴趣以进行排名的有效性。具体来说,DIN(Deep Interest Network)使用注意力机制从用户对候选物品的历史行为中学习用户兴趣的表示。DIEN(Deep Interest Evolution Network)使用循环神经网络来捕捉用户兴趣的演变。DMT(Method Deep Multifaceted Transformers)利用多个转换器对用户的不同行为序列进行建模。


总体上来说,推荐算法是推荐系统的核心元素。基于协同过滤的推荐方式是以交互数据中用户或物品的相似性对用户兴趣偏好进行建模,而基于内容过滤的推荐方法则主要是利用物品的内容特征。基于协同过滤的推荐系统已被广泛应用,因为它们可以有效地捕获用户偏好,并且可以在多种场景中可以快速方便的实现,而无需像基于内容过滤的推荐系统中提取各种特征。然而,基于协同过滤的推荐方法存在数据稀疏和冷启动问题。为了解决这些问题,已经提出了很多类型的混合推荐系统来统一交互级相似性和内容级相似性。在这个过程中,也探索了多种类型的辅助信息,例如物品属性、评论数据、用户的社交网络等等。实践证明,混合推荐系统通常可以获得更好的推荐结果,并且近年来越来越受欢迎。
 

知识图谱概述

知识图谱(Knowledge Graph,KG)是一种描述实体或概念并使用不同类型的语义关系将它们连接起来的结构。2012 年,Google提出术语“知识图谱”来指代语义知识在网络搜索中的使用,目的是提高搜索引擎的能力,增强用户的搜索体验。在“知识图谱”一词流行之前,DBPedia和其他链接数据集是由语义Web技术和Berners-Lee提出的链接数据设计问题生成的。如今,KG已经在业界获得了广泛关注并进行了大规模的系统应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值