数据挖掘实践(一):亲和性分析

文章介绍了亲和性分析在推荐系统中的应用,通过计算商品共同购买的频率和置信度、支持度来确定商品间的关联规则。以顾客购买水果的交易记录为例,展示了如何计算购买苹果和香蕉的规则支持度和置信度,并对所有规则进行了排序,以帮助商家理解顾客购买模式并调整营销策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

亲和性分析---根据样本个体(物体)之间的相似度,确定他们关系的亲疏,探索各变量间的关系。

一、应用场景:

1.向网站用户提供多样化的服务或投放定向广告

2.为了向用户推荐电影或商品,而卖给他们一些与之相关的小玩意

3.根据基因寻找有亲缘关系的人

测量方法:统计两件商品一起出售的频率,或者统计顾客购买了商品X后再买商品Y的比率,或者计算个体之间的相似度。

简单的规则排序:记一条规则为“如果一个人买了X,那么他很有可能购买Y。”找出规则后,还需要判 断其优劣,我们挑好的规则用。 规则的优劣有多种衡量方法,常用的是支持度(support)和置信度(confidence)。

支持度:支持度衡量的是给定规则应验的比例。

置信度:置信度衡量的则是规则准确率如何,即符合给定条

件(即规则的“如果”语句所表示的前提条件)的所有规则里,跟当前规则结论一致的比例有多

大。计算方法为首先统计当前规则的出现次数,再用它来除以条件(“如果”语句)相同的规则

数量。

二、以顾客购买面包、牛奶、奶酪、苹果和香蕉5种水果的交易记录为例。

1.加载数据集--affinity_dataset.txt

import numpy as np
dataset_filname = "affinity_dataset"
x = np.loadtxt(dataset_filname)
print(x[:5])

上述代码的运行结果为前5次交易中,顾客都买了什么。

affinity_dataset.txt内容如下:复制一下内容到txt新文件中即可。

0 0 1 1 1
1 1 0 1 0
1 0 1 1 0
0 0 1 1 1
0 1 0 0 1
0 1 0 0 0
1 0 0 0 1
1 0 0 0 1
0 0 0 1 1
0 0 1 1 1
1 1 0 0 1
0 1 0 0 0
0 0 0 0 1
0 0 1 0 1
0 1 0 0 1
0 0 1 1 1
1 0 0 0 1
0 0 1 1 1
1 1 0 0 0
0 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值