- 关联分析:发现隐藏在大型数据集中的有意义的联系;所发现的联系可以用关联规则和频繁项集来表示
- 两个问题:
- 从大型事务数据集中发现联系的开销大
- 所发现的联系需要验证
- 问题定义:
- 二元表示:购物篮事务每行对应一个事务,每列对应一个项,项在事务中的值为0或1,出现很重要,所以是非对称二元变量
- 项集和支持度计数:事务的宽度是事务中出现项的个数;项集的支持度计数即包含该项集的事务个数
- 关联规则:关联规则的强度用支持度和置信度度量
- 支持度:确定规则可以用于给定数据集的频繁程度
- 置信度:确定Y在包含X的事务中出现的频繁程度
- 支持度代表规则出现程度,置信度通过规则进行推理具有可靠性
- 关联分析做出的推论并不必然蕴含因果关系,这只表示规则前后件中的项明显的同时出现;因果关系需要关于数据中原因和结果属性的知识
- 关联规则的发现:对给定事务集合T,关联规则发现是指找出支持度和置信度>=阈值的规则
- 从包含多个项的数据集中提取规则的直接办法开销很大,提高效率的方法是拆分支持度和置信度要求,一种策略:
- 频繁项集的产生:从项集中找到满足最小支持度阈值的项集,即频繁项集
- 规则的产生:从频繁项集中提取满足最小置信度阈值的规则,即强规则
- 频繁项集的产生:
- 两种降低频繁项集的计算复杂度的策略:
- 减少候选项集的数目:先验原理Apriori
- 减少比较次数:替代每个候选项集和每个事务相匹配,使用更高级的数据结构、存储候选项集、压缩数据集
- 先验原理:如果一个项集是频繁的,则它的所有子集是频繁的;相反,子集如果是非频
- 两种降低频繁项集的计算复杂度的策略: