关联规则挖掘
已知一组交易数据,找到根据交易中其他项目的出现来预测项目发生的规则。
关联关系可为:
{Diaper} -> {Bear}
{Milk, Bread} -> {Eggs,Coke}
{Beer, Bread} -> {Milk}
PS: 以上表示意味着同时出现,而不是因果关系
定义:频繁项目集
- 项目集Itemset
- 一个或者多个项目的集合
例如: {Milk, Bread, Diaper} - k-Itenset
一个含有k个项目的项目集
- 一个或者多个项目的集合
- 支持数Support count( δ )
- 项目集出现的频度
- 例如: δ ({Milk, Bread, Diaper})=2
- 支持度Support
- 包含项目集的事务的分数
- 例如 s({Milk, Bread, Diaper})= 25
- 频繁项目集
- 一个支持度大等于最小支持度的项目集
- 关联规则
- 一种形式的含义表达 X->Y, 此处X和Y均为项目集
- 例如:{Milk, Diaper}->{Beer}
- 规则评估指标(Rule Evaluation Metrics)
- 支持度Support(s)
- 包含项目集的事务的分数
- 置信度Confidence(c)
- 衡量Y中的项目在包含X的交易中的频率
- 例如: