同样的,先从数据挖掘开始,然后结合地理上升到空间层面。
频繁模式:频繁出现在数据集中的模式(等于没说),如项集、子序列、子结构,对应频繁**,如频繁项集。
关联规则挖掘:发现大量数据中项集之间有趣的关联。
应用主要有购物篮分析、交叉销售、贩卖分析和分类设计。
简单来说就是通过数据观察两个类别的关系,如果关系大,就将这两件物品捆绑起来,最常见的就是商场的商品布局。最为经典的就是沃尔玛的啤酒与纸尿布故事了。美国新津妈妈在家照顾婴儿,爸爸下班顺便买纸尿布,商家在纸尿布旁放啤酒瓜子花生米,爸爸一看,甚得我心,顺手一捎,就是销量,沃尔玛大赚。
这个应用里最为重要的因素有两个:支持度和置信度。
支持度衡量规则的有用性,指用户同时买A和B的比例。
置信度衡量规则的确定性,指用户在买了A的基础上又买了B的比例(没错就是条件概率)。
接下来是关联规则的具体术语(科学家保持高冷的假把戏,看不看无所谓,狗头)
关联规则挖掘的步骤
-
找出所有频繁项集。
-
由频繁项集产生强关联规则。(支持度和置信度都达到阈值)
这里常用的一个算法是Apriori算法,算法思想:频繁项集的子集也一定