正阳门下

这些时间一直在看正阳门下电视剧,非常不多,每个演员的角色都很有特点,女主角太好强,可又强不过男主角。石头与石头相碰,能好吗?

转载于:https://www.cnblogs.com/zyfa/p/3276437.html

基于内容的推荐算法是最早被提出的个性化推荐算法。该算法依据用户的历史行为数据,从物品自身内容出发,例如视频的简介、视频标签、视频创作者等,为用户推荐与其之前偏好的物品内容相似的物品。所以为用户做基于内容的推荐时候,并不涉及其他用户的数据,如果用户喜欢看电视剧《大明风华》,可以很容易得知该剧领衔主演是演员朱亚文,那么可以将由同一个演员出演的剧《正阳门下》推荐给该用户。视频的特征即决定了目标用户将来被推荐的视频具有哪些关键特点。因此基于内容的推荐算法核心在于从物品的内容中提取出物品具有代表性的关键特征。以下三个步骤介绍了该算法计算流程:步骤 1:构建物品特征。物品的内容含有丰富的语义信息,分析物品的各种内容信息得到能够代表该物品的特征向量;步骤 2:构建用户兴趣特征。通过用户信息以及用户与物品的历史交互数据建立用户兴趣特征;步骤 3:做出推荐。根据用户兴趣特征和物品的内容特征,为用户构造推荐列表。图 2.3 为一个具体的基于内容的推荐算法实例。视频 a 的类型为“喜剧、现代”,视频 b 的类型为“科幻、动作”,视频 c 的类型为“喜剧、现代”。首先根据视频类型描述信息提取到特征向量,可以得到视频 a 和视频 c 的类型特征向量相似,所以分析得出视频 a 和视频 c 属于相似物品。再分析用户的行为数据可知用户喜欢视频 a,因此根据基于内容的推荐算法会将视频 c 推荐给用户。图 2.3 基于内容的推荐算法实例Fig.2.3 Example of content-based recommendation algorithm基于内容的推荐算法简单方便,不需要使用其他用户信息便可以对目标用户进行个性化推荐。然而现实世界中物品的信息纷繁复杂,该方法很难对物品做出全面、完整的刻画,因此往往提取到的物品特征仅仅是某一方面的,无法保证推荐的准确性。视频a喜剧、现代视频b科幻、动作视频c喜剧、现代喜欢推荐用户 物品江苏科技大学工学硕士学位论文12并且该算法完全是利用目标用户交互过的物品信息做推荐,所以会导致推荐结果单一化,无法挖掘出用户新的兴趣点。2.2.2 协同过滤推荐算法如果让推荐系统领域的研究员们和学者们投票选举对学术界和工业界影响力最大的推荐算法,那么必定是 CF。CF 核心思想即为用户进行个性化推荐时,协同大家的评价、意见,为目标用户推荐其兴趣度高的物品。CF 基于这样一种假设:兴趣相似的用户,同样会对同一类物品有着相似的偏好。协同过滤算法简单快捷,为用户进行个性化推荐只需要找到拥有相同爱好的群体或者相似的物品。例如,在打开视频网站的时候,用户并没有确定想要看的片子,这时候他就可以去询问自己的好朋友,问问他们最近有没有遇到什么比较好看的剧。接下来主要介绍基于用户的协同过滤、基于物品的协同过滤以及基于模型的协同过滤算法。(1)基于用户的协同过滤算法基于用户的协同过滤算法最早出现在邮件系统中,该算法通过对目标用户行为进行数据分析,寻找到兴趣类似的一群用户,接着将目标用户已经接触过的物品排除,最终为目标用户推荐相邻用户评价高的物品。如图 2.4 所示,对用户和物品进行分析,用户 A 和 C 都喜欢视频 a 和视频 c,因此用户 A 和用户 C 为相似用户,当对用户 A 进行个性化推荐时,由于用户 C还喜欢视频 d,因此推荐系统会将视频 d推荐给用户 A。视频a视频b视频c视频d喜欢推荐用户 物品ABC图 2.4 基于用户的协同过滤算法示例Fig.2.4 Example of user-based collaborative filtering algorithm该算法主要包含以下三个步骤:步骤 1:根据用户 id 和物品 id 构建用户-物品评分矩阵。其中的评分通常是用户对物品的评分信息[54],图 2.5 展示了一个非常理想状态下的用户-物品评分矩阵:第 2 章 推荐系统相关技术13图 2.5 用户-物品评分矩阵Fig.2.5 User-item rating matrix步骤 2:寻找最近邻用户。用户和用户之间相似程度通过相似度计量公式进行量化,值越高代表用户和用户之间的兴趣品味越接近。计算得到相似度后,将相似度较高的用户作为目标用户的最近邻用户,该步骤直接影响到目标用户兴趣相近用户群的准确程度[55],式(2.2)为余弦相似度计算公式:( ) ( )( ) ( )uvN u N vw N u N v= I(2.2)其中uvw 表示目标用户u 与近邻用户v 的相似程度,( )N u 表示目标用户u 留下显性反馈行为的物品集合,( )N v 为相似用户v 曾留下显性反馈的物品集合。步骤 3:生成推荐结果。综合近邻用户对目标用户未接触过的物品的评分,计算出目标用户对物品的预测评分,预测评分越高代表用户对该物品越满意,接着根据预测评分将物品从高到低进行排序,最终将排名前列的若干个物品反馈给用户。式(2.3)表示用户u 对物品i 的评分预测:( , ) ( )( , ) uv viv S u k N ip u i w r = (2.3)其中S u k( , ) 代表与目标用户兴趣最接近的K 个用户组成的集合,N i( ) 代表与物品i 产生交互的用户集合,vir 代表用户v 对物品i 的评分。(2) 基于物品的协同过滤算法随着网站用户数量的不断增长,基于用户的协同过滤需要耗费大量时间在寻找相似用户上,时间成本较高。然而电商网站中的物品数量却是趋于稳定的。因此亚马逊公司实现了一种基于物品的协同过滤算法[56],该算法与基于用户的协同过滤算法类似,只不过将计算相似用户变为计算“相似物品”,由于电商网站中的物品数量远远小于用户数量,因此该算法更加合理有效。而“相似物品”实际上还是通过计算用户用户D用户C4.0用户A用户B144.013.5554.5433.521233物品W 物品X 物品Y 物品Z4江苏科技大学工学硕士学位论文14对物品的显性评分反馈得出。该算法被广泛应用于物品数量明显小于用户数目的应用场景中。视频a视频b视频c喜欢推荐用户 物品ABC图 2.6 基于物品的协同过滤算法示例Fig.2.6 Example of item-based collaborative filtering algorithm如上图 2.6 所示,用户 A 喜欢视频 c,用户 B 喜欢视频 a 和视频 b,这里的需求是为用户 C 推荐视频,由基于物品的协同过滤算法可以将视频 a 与视频 b 列为相似物品,用户 C 没有接触过视频 b,因此可以将视频 b 推荐给用户 C,这里认为物品 a 和物品b 具有很大相似度的原因是因为喜欢 a 的用户大都喜欢 b。基于物品的协同过滤和基于用户的协同过滤算法步骤类似,只是在计算关键的相似度这一步骤中,将计算用户之间的相似度变成了计算物品之间的相似度。(3)基于模型的协同过滤上面两种协同过滤算法在实际应用中会耗费很长时间根据用户 id 和物品 id 寻找相似用户或者相似物品,并且容易遭遇到数据稀疏问题,进一步产生相似度计算错误以及最近邻居生成困难等连锁的问题。为了解决该弊,研究人员开始将模型引入到协同过滤算法中,通过创建模型参数,使用已有的评分数据来填补空白评分,最终为用户推荐合适的物品。该方法主要通过机器学习来训练模型,主流的方法包括基于线性回归的算法、聚类算法、矩阵分解等。其中矩阵分解具有扩展性好,易于建模等优点,是目前应用最广泛的协同过滤推荐算法之一。本文使用矩阵分解对评分矩阵建模,具体介绍见第三章。(4)协同过滤算法的优缺点协同过滤算法自从诞生以来,就被广泛应用于学术界和工业界。该算法可解释性强、效果好,为各种电商推荐提供了很好的解决方案。在实际应用中,有以下几个方面的优点:a. 适用范围广。协同过滤算法的基础是用户对物品的大量交互行为数据。多数情第 2 章 推荐系统相关技术15况下,只需要提供用户-物品评分数据即可实现基于协同过滤的个性化推荐,并不需要对用户或者物品进行特征分析,也就是说不需要提供用户和物品信息。因此,该算法适用范围很广,被应用于各种应用中。b. 能够挖掘出用户潜在的兴趣点。协同过滤算法以用户为中心进行推荐,不需要关注物品自身特征信息和用户属性特征,就可以生成千人千面的推荐效果,随着用户参与度的提高,推荐质量会越来越高。该算法可以有效地避免推荐结果单一化的问题,能够在一定程度上挖掘出用户潜在的兴趣点,为用户实现推荐多样化的效果。在实际应用中,大多数情况下协同过滤算法只会使用用户对物品的单一评分信息,因此该算法不可避免的会有一些固有的缺点,主要包括以下几个方面:a. 数据稀疏性。随着互联网的快速发展,电商平台的用户数量和物品数量越来越庞大,而用户对物品的显性反馈数据较少,因此在这个数量级别下任意两个用户对物品的反馈的稀疏都会被放大。用户-物品评分矩阵过于稀疏,会导致推荐性能急剧下降。b. 冷启动问题。当新用户或者新物品进入推荐系统时,用户和物品数据均一片空白。推荐算法没有可以使用的用户行为数据,因此系统无法做出准确的推荐。c. 无法提取深层次特征。如今互联网中的各类信息层出不穷,在这种情况下,协同过滤算法只使用单一并且稀疏的用户-物品评分矩阵信息进行个性化推荐是难以提取到用户、物品深层次特征的。2.2.3 混合推荐算法在机器学习的监督学习中,集成学习是一种非常热门的方法,该方法通过多个回归或者分类算法[57],构建出多个有差异的弱监督模型,再组合弱监督模型,最终得到一个比单个模型更加全面稳定的强监督模型。集成学习实现了“集思广益”,结合了不同类型算法的优点,达到了降低系统性误差的目的。由上文可知,进行个性化推荐时,不同推荐算法的优缺点和使用场景不一,产生的效果也会不同。如果要满足用户多方面的需求,必定要混合多种算法。混合推荐算法类似于集成学习[58],在推荐过程的不同阶段混合两种或者两种以上的算法,即使某一个推荐算法出现了错误判断,其他的算法也可以改善最终结果。因此混合推荐算法能够最大限度发挥出各种算法的优势,为用户做出更加个性化的推荐。混合推荐算法的混合机制主要包括以下 4 种[59]:(1)加权型加权型混合推荐算法将不同的推荐方法产生的候选结果,使用线性加权的方式组合。在评分预测场景中,加权混合算法首先得到每一个推荐算法的预测评分,接着将各个算法的结果按照权重比例组合起来,得到最终预测评分。最原始的加权方法赋予江苏科技大学工学硕士学位论文16每个推荐算法固定的权重,然而不同的算法在不同的应用中表现不同,因此需要使用动态加权策略,及时调整每种算法的权重比例,实现推荐性能的进一步优化。加权型混合算法要求选用的算法得到的结果相近,并且需要分别计算每一种推荐算法的预测评分,计算成本高,但是该算法由于易于实现,仍然得到了广泛的应用。(2)动态切换型简单的加权型混合推荐结果不会随着时间的变化而变化,无法计算得出用户对物品的当下得分情况,因此考虑到推荐场景和用户兴趣动态改变的特殊情况,需要针对当前具体的应用场景,灵活地选择多种合适的推荐算法。例如在冷启动背景下,可以切换使用基于热度的算法和基于协同过滤的推荐算法。当新用户进入一个新系统时,首先为用户推荐热门榜单的物品,当系统中有了用户的行为数据,此时再切换使用基于协同过滤的推荐算法。动态切换型混合推荐算法需要充分了解不同算法之间的使用场景和优缺点,复杂度高并且模型参数多。(3)层叠型该算法思路为在生成候选物品阶段先使用一种主推荐算法得出比较粗糙的推荐结果,接着在评分阶段使用另一种次推荐算法在此基础上给出更加准确的推荐结果。(4)特征组合型特征组合型混合算法通过组合不同的推荐数据特征,弥补了仅考虑一种算法数据的不足。由于使用了多种数据,可以降低对其中一种数据的敏感度,能够更加准确地满足用户的需求,实现推荐的多样化。本文采用的即这种算法,组合了评分数据特征和评论文本数据特征,降低了用户-评分数据的灵敏度,缓解评分矩阵的稀疏问题,最终达到提高推荐系统的性能的目的
最新发布
06-23
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值