数据挖掘笔记:多层关联

5.4基于约束的...

脱脂牛奶和牛奶,关联度

兴趣度度量:

1.客观度量

2.主关度量

1)假关联:具有欺骗性的关联置信度(置信度公式没有考虑后键),条件概率的估计!=蕴含的实际强度

修正,扩充框架:提升度(lift)

2)提升度的缺陷:受到零事务(既不买游戏也不买录像)的影响较大

总结:公式存在倾向性

3)KULC=两种条件的置信度的均值

IR

5.5 序列模式挖掘

需要考虑时间

Apriori

GSP算法:

1)一项集,去除非平凡的

2)二项集,产生候选

项集越多,候选生成越难

候选过程:合并频繁k-1序列。不重复产生,合并规则

约束:1)最小和最大间隔约束(时间限制,减少数量)

        矛盾:超集支持度比原集更高

GSP算法瓶颈:大量候选,多次遍历数据库

其他算法:通过投影数据库提升性能,如Freespan,FrepixSpan

5.6推荐/个性推荐

挖掘用户历史行为,建立用户与内容的联系

推荐算法:

基于内容、协同过滤.etc

1)关联规则:普适性的算法,噪音强

2)个性化推荐:扩充信息维度(人、商品)

3)协同过滤:基于用户/基于物品,相似用户的观点。

        基于用户的最近邻推荐:向量之间的相似性

        基于模型的协调过滤:矩阵分解

4)基于知识图谱的推荐算法:静态推荐、动态推荐、跨领域推荐

评价指标:+实时性、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值