第3章 基于内容的推荐系统:前沿和趋势
3.1 简介
基于内容的推荐系统试图推荐给定用户过去喜欢的相似物品
协同过滤推荐方式的系统识别出拥有相似喜好的用户,并推荐给他们喜欢过的物品
3.2.1 基于内容的推荐系统的高层次结构
内容分析器:将来自信息源的对象的内容表示成恰当的格式(特征抽取技术)。
信息学习器:收集用户偏好的数据特征,并试图泛化(多是通过机器学习的方式实现)这些数据从而构建用户特征信息。
过滤组件:将用户个人信息和物品在表示空间进行匹配,利用用户个人信息来推荐物品。
评价方式:喜欢/不喜欢、评分、文本评论、
3.2.2基于内容过滤的优缺点
优点:用户独立性、透明度、新物品
缺点:可分析的内容有限、过度特化、新用户
3.3基于内容的推荐系统的现状
信息检索和人工智能领域
3.3.1物品表示
字符串匹配的问题:一词多义、同义
解决方法: 语义分析
3.3.1.1基于关键字向量空间模型
基于TF-IDF权重的向量空间模型
3.3.1.2基于关键词系统概述
3.1.3运用本体的语义分析(wordnet 语义网络)
3.3.1.4运用百科全书式的知识源进行语义分析
还没有推荐系统(基于内容)可以利用高级语义文本表示的方法学习到用户现实世界的真实的特征。
3.3.2学习用户特征的方法
概率方法和朴素贝叶斯
相关反馈和Rocchio算法
其他(包括决策树、决策规则分类器、最近邻算法也称懒惰学习器)
3.4趋势和未来研究
3.4.1推荐系统中用户产生内容的作用
大众分类法:一种由用户产生的分类学,用户大量的选择被称为标签的关键字来协助标注和分类感兴趣的资源。
(提供了新的机会和挑战,对将标签整合到标准推荐系统算法,特别是基于内容的算法探索较少。关于标签的质量、难题)
3.4.2 超越特化:惊喜度
新颖度和惊喜度的区别
惊喜度的挑战在于设计惊喜(尚没有深入研究,缺少理论和实验)
Toms建议的四种策略:
1、 碰运气或者撞大运,通过随机信息节点产生来实现
2、 Pasteur法则,通过用户个人信息来实现
3、 不寻常情况和例外情况,通过弱相似度来部分实现【比较不同相似度推荐的惊喜度】
4、 类比推理
本文为学习笔记,参考资料为:
《推荐系统 技术、评估及高效算法 Recommender System handbook》 Francesco Ricci Lior Rokach 机械工业出版社
欢迎交流与分享