5.4基于约束的...
脱脂牛奶和牛奶,关联度
兴趣度度量:
1.客观度量
2.主关度量
1)假关联:具有欺骗性的关联置信度(置信度公式没有考虑后键),条件概率的估计!=蕴含的实际强度
修正,扩充框架:提升度(lift)
2)提升度的缺陷:受到零事务(既不买游戏也不买录像)的影响较大
总结:公式存在倾向性
3)KULC=两种条件的置信度的均值
IR
5.5 序列模式挖掘
需要考虑时间
Apriori
GSP算法:
1)一项集,去除非平凡的
2)二项集,产生候选
项集越多,候选生成越难
候选过程:合并频繁k-1序列。不重复产生,合并规则
约束:1)最小和最大间隔约束(时间限制,减少数量)
矛盾:超集支持度比原集更高
GSP算法瓶颈:大量候选,多次遍历数据库
其他算法:通过投影数据库提升性能,如Freespan,FrepixSpan
5.6推荐/个性推荐
挖掘用户历史行为,建立用户与内容的联系
推荐算法:
基于内容、协同过滤.etc
1)关联规则:普适性的算法,噪音强
2)个性化推荐:扩充信息维度(人、商品)
3)协同过滤:基于用户/基于物品,相似用户的观点。
基于用户的最近邻推荐:向量之间的相似性
基于模型的协调过滤:矩阵分解
4)基于知识图谱的推荐算法:静态推荐、动态推荐、跨领域推荐
评价指标:+实时性、