一、引入
世间万物都是有联系的,这种联系让这个世界变得丰富多彩而又生动有趣。关联分析的目的就是要寻找事物之间的联系规律,发现它们之间的关联关系。关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。
关联分析主要是采用关联规则技术广泛应用于众多领域,例如:
1) 帮助企业经营者发现顾客的购买偏好,准确定位顾客特征,给顾客提供购买建议;
2) 帮助企业经营者制定合理的交叉销售方案,促进产品销售;
3) 帮助分析顾客消费的周期性规律,合理规划库存和进货;
4) 帮助分析顾客购买商品的相关性和连带购买规律,合理摆放货架,方便顾客选取。
二、算法
关联关系主要分为两种:以简单关联规则为技术的简单关联关系和以序列关联规则为技术的序列关联关系,前者讨论的算法主要是Apriori和Carma算法,后者主要运用Sequence算法。
三、Apriori算法应用案例
3.1 数据背景
“餐饮数据”包含的数据项有:部门id、部门、辅助分类、品种编号、品种名称、日期、台号、单价、销售量、赠送数量、取消数量、销售金额、赠送金额、取消金额、金额百分比、成本等16个字段,共18539个记录。
3.2 分析目标
目标1:设置合适的置信度和支持度阈值,对数据进行关联规则分析,挖掘关联规则
目标2:分析各种菜品的关联性