关联算法在推荐系统中非常实用。通过关联算法,我们可以轻易地得到与一样产品相关联的其他产品,i.e. 用户买了该产品以后在某个时间范围内购买的其他产品。同理,我们也可以通过关联算法得到同一产品下,经常购买的用户群。
Apriori
Apriori 算法是最为经典的关联项集挖掘算法,其目的在于从原本独立的项目群中,挖掘出在样本数据里频繁出现的组合项,即 频繁项集。关于一个组合是否频繁,有三种评价标准:支持度 (Support)、置信度 (Confidence) 和 提升度 (Lift)。为更方便地理解,我们约定 D D D 为商品集, X → Y X\rightarrow Y X→Y 代表用户购买 X X X 后,又购买 Y Y Y 的行为 S u p p o r t ( X , Y ) = P ( X Y ) = ∣ X Y ∣ ∣ D ∣ Support(X,Y)=P(XY)=\frac{|XY|}{|D|} Support(X,Y)=P(XY)=∣D∣∣XY∣ C o n f i d e n c e ( X → Y ) = P ( Y ∣ X ) = P ( X Y ) P ( X ) Confidence(X\rightarrow Y)=P(Y|X)=\frac{P(XY)}{P(X)} Confidence(X→Y)=P(Y∣X)=P(X)P(XY) L i f t ( X → Y ) =