亲和性分析是根据样本个体(物体)之间的相似度,确定它们关系的亲疏。在数据挖掘中有大量的应用场景,比如顾客更愿意同时购买哪些物品。
亲和性有多种测量方法。例如,统计两件商品一起出售的频率,或者统计顾客购买了商品1 后再买商品2的比率。最常用的用来进行亲和性分析的两个重要概念是:支持度(support)和置信度(confidence)。举个例子:我们说在全班同学的样本中间,地理90分以上的同学历史也考90以上,那么他的支持度就是所有两门90分的人在样本中的占比,而置信度就是在地理90分的样本中,历史90分的人的占比。
接下来是一个利用计算支持度和置信度实现规则判断的一个例子(来自书籍《Python数据挖掘入门与实践》):商品推荐,任务目标,发现超市顾客对于商品购买的连带情况,找出更愿意一起购买的货物,然后重新布置货架。为了简化代码,方便讲解,我们只考虑一次购买两种商品的情况。例如,人们去超市既买了 面包,又买了牛奶。作为数据挖据入门性质的例子,我们希望得到下面这样的规则:如果一个人买了商品X,那么他很有可能购买商品Y。
数据的矩阵话计算需要库:NumPy,NumPy是Python中处理二位数据最常用的依赖方法,后边还有更多的使用。可以吧NumPy理解为一个矩阵控制器的对象,导入之后就直接创建了这个manager的Object
import numpy as np
dataset_filename = "affinity_dataset.txt"
X = np.loadtxt(dataset_filename)
这样就得到了相关性分析数据库的数组实体。(数组来自随书材料,是[N:5]的二维数组,数据为0或者1,每行表示每个顾客当次购物是否购买5类产品)。因此我们挖掘目标就是,找到支持度性和置信度最高的顾客愿意一起购买的物品的规则。