ML--Apriori关联分析

最新推荐文章于 2022-03-15 20:47:18 发布

原创最新推荐文章于 2022-03-15 20:47:18 发布 · 391 阅读

1 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

9 篇文章

订阅专栏

Apriori算法用于发现数据集中的关联规则，例如超市购物中买牛奶的人可能也买西瓜。核心思想是找到频繁集并挖掘关联规则。通过设定阈值排除不频繁项，减少计算量。Python实现时，利用支持度和可信度计算商品之间的关联概率，设定可信度阈值过滤弱关联规则。

Apriori算法通常用于发现样本间的某种关系，比如超市购物中心，通常会根据用户的数据，发现买牛奶的人通常也会买西瓜这样的关系，来安排把牛奶和西瓜捆绑在一起进行销售。

Apriori的核心思想：

1.发现样本中的频繁集

2.从频繁集中挖掘关联规则

频繁集：就是样本中出现的次数多的集合（这个多是相对的，算法需要定义一个度来表示什么才是真正的频繁） x(i)/n

看下图：

上图可以看到，比如我们有5个商品分别是A,B,C,D,E. 现在从样本中我们看到集合{A,C,D} {B,C,E} {A,B,C,E} {B,E}. 能够获取出单个商品的频繁度, A出现了2次， b出现了3次

c出现了3次等，之后我们假定频繁度要大于1才可以，这样我们就把D这个单独的集合给丢弃了，现在满足频繁度的就只剩下 ABCE了

PS：丢弃这个思想是怎么来得呢？可以这么考虑， A如果是一个集合{A} , 如果我认为A出现的频繁度很低，不予考虑的话，那么{A,B}这样的集合出现的概率是比也是很低的，

那是不是更不需要考虑了呢。这样带来的好处就是减少了很多的计算量。

随后在ABCE中继续筛选频繁度，看下图：

持续的对于频繁度的筛选，最终可以获取满足频繁度的所有可能的集合，之后就是根据这个频繁度的集合列表进行关联规则的生成

python实现：

import numpy as np

def loadDataSet():
    return [[1,3,4],[2,3,5],[1,2,3,5],[2,5]]

def createC1(dataset):
    c1 = []
    for transaction in dataset:
        for item in transaction:
            if not [item] in c1:
                c1.append([item])
    c1.sort()
    return map(frozenset,c1)

def scanD(D,Ck,minsupport):
    ssCnt = {}
    for tid in D:
        for can in Ck:
            if can.issubset(tid):
                if not ssCnt.has_key(can):
                    ssCnt[can] = 1
                else:
                    ssCnt[can] += 1
    numItems = float(len(D))
    retList = []
    supportData = {}
    for key in ssCnt:
        support = ssCnt[key]/numItems
        if support >= minsupport:
            retList.insert(0,key)
        supportData[key] = support
    return retList,supportData

def aprioriGen(Lk,k):
    retList = []
    lenLk = len(Lk)
    for i in range(lenLk):
        for j in range(i+1,lenLk):
            L1 = list(Lk[i])[:k-2]
            L2 = list(Lk[j])[:k-2]
            L1.sort()
            L2.sort()
            if L1 == L2:
                retList.append(Lk[i] | Lk[j])
    return retList

def apriori(dataset,minSupport = 0.5):
    c1 = createC1(dataset)
    D = map(set,dataset)
    L1, supportdata = scanD(D,c1,minSupport)
    L = [L1]

    k = 2
    while (len(L[k-2]) > 0):
        ck = aprioriGen(L[k-2],k)
        Lk,supK = scanD(D,ck,minSupport)
        supportdata.update(supK)
        L.append(Lk)
        k += 1
    return L,supportdata

dataset = loadDataSet()
ret,support = apriori(dataset)
print support

怎么来获取隐含的关联规则呢？对于关联规则，我们也有量化方法，叫做可信度。

可信度： support(p|H) /support(p)

套用这个公式，就可以算出每个商品之前的关系了

比如： B --> E , sup(B,E)/sup(B) sup就是上面频繁度字典中的各个集合的值

BE-->C ，sup(b,e,c) / sup(b,e)

PS：注意，只能顺序关联，不能逆向关联，求出的可信度只能说明买了b的商品的人会买e 不能倒过来，倒过来的话要重新计算

当然我们也要和频繁度一样设定一个我们的可信度值，来丢弃那些我们认为没有太多关联的规则。