目录
机器算法分类
关联分析(association analysis)
在大规模数据集中寻找数据之间有意义的关系(关联规则)的无监督的算法
假设你是一家超市的数据分析师,你想要了解顾客的购物习惯。你有一个包含所有交易数据的数据库,每一笔交易都记录了顾客购买的商品。
关联规则是你在分析中发现的规律或者模式。比如,你可能会发现“如果顾客购买了牛奶,那么他们也很可能购买面包”这样一个规则。这个规则说明了牛奶和面包之间存在一种关联性。
关联分析则是你用来发现这些规则的过程。在这个过程中,你会使用像Apriori这样的算法来分析数据库中的交易数据。关联分析的目的是找出数据库中的项目之间隐藏的关联性。
关联分析的关系可以概括为:
-
关联分析是方法:关联分析是一种数据分析的方法,它用来挖掘大量数据中的关联性。
-
关联规则是结果:关联规则是关联分析发现的结果,它描述了数据中不同项目之间的有趣关系。
关联分析就是试图找出这种无明显逻辑关系的变量之间的关联性。在数据挖掘中,关联分析通常用来寻找大量数据中的规律或者模式。例如,在超市的数据中,关联分析可能会发现某些商品经常一起被购买,或者在特定的时间段某些商品的销售量会增加。
关联分析的一个著名例子就是“尿布和啤酒”的故事。在一家超市中,分析人员发现尿布和啤酒经常一起被购买。最初,这个发现看起来很奇怪,但是后来他们发现,很多年轻的父亲在买尿布的时候会顺便为自己买一些啤酒。这就是一个关联:年轻的父亲和尿布、啤酒的购买行为。
关联分析就是寻找数据中不同变量之间的意外联系,这些联系可能在没有明确逻辑关系的情况下出现。通过发现这些关联,我们可以更好地理解数据,预测未来的趋势,或者优化业务策略。
应用的领域
- 零售中的产品组合、促销
- 移动通信可选服务的绑定
- 通过识别不寻常的保险索赔组合发现保险欺诈
-
零售业:零售商使用关联分析来确定哪些商品经常一起被购买,以便在商店中调整商品的位置或者进行捆绑销售。例如,尿布和啤酒的关联在超市中被发现后,超市就将这两种商品放在了靠近的货架上。
-
营销和广告:通过分析消费者的购买习惯和偏好,营销人员可以设计更有效的广告策略,比如针对特定人群的定制广告。
-
金融领域:银行和金融机构使用关联分析来发现欺诈行为,比如信用卡欺诈。通过分析交易模式,可以识别出异常行为并采取预防措施。
-
医疗健康:在医疗领域,关联分析可以帮助医生发现疾病和特定生活习惯之间的联系,或者药物之间可能的相互作用。
-
电信行业:电信公司使用关联分析来分析用户的使用模式,比如通话、短信和数据使用,以便提供个性化的服务计划。
-
库存管理:通过分析销售数据,企业可以更有效地管理库存,确定哪些商品需要更多的库存,哪些商品可能需要减少库存。
-
推荐系统:在线购物平台和流媒体服务使用关联分析来创建推荐系统,向用户推荐他们可能会感兴趣的商品或内容。
-
供应链管理:分析供应链中的数据,企业可以优化物流,减少成本,提高效率。
-
安全监控:在安全领域,关联分析可以用来识别可能的威胁或异常行为,比如在监控视频中识别可疑活动。
-
教育:在教育领域,关联分析可以帮助教育工作者了解学生的学习习惯和成绩之间的关系,以便提供个性化的教学支持。
涉及概念
-
项集(Itemset):指一组项的集合。在超市的例子中,项集可以是“尿布”和“啤酒”或者其他单独的商品。频繁项集是指那些在数据集中出现频率超过用户定义的最小支持度的项集。
-
事务:指一组项目或物品的集合,这些项目或物品在一次交易、事件或行为中同时出现。事务通常用于描述消费者购买商品、数据库中的记录或者其他任何一组相关的项目。
-
例如,在超市的销售数据中,每一行数据可以代表一个事务,其中每一列代表一个商品。如果一个顾客在一次购物中购买了牛奶、面包和鸡蛋,那么这就可以被视为一个事务,其中包含三个项目(牛奶、面包、鸡蛋)。
-
-
支持度(Support):指某个项集在所有事务中出现的频率。比如,如果我们在所有的购物篮中查看,发现尿布和啤酒一起出现在80%的购物篮中,那么我们就说尿布和啤酒的支持度是80%。支持度越高,说明这两个物品一起购买的概率越大。

-
置信度(Confidence):当前提(前件)发生时,结论(后件)发生的概率。例如指在购买了尿布(前件)的顾客中,有多少比例同时也购买了啤酒(后件)。如果购买了尿布的顾客中有80%同时也购买了啤酒,那么尿布导致啤酒的置信度就是80%。置信度越高,说明购买尿布的顾客购买啤酒的概率越大

本文详细介绍了关联分析,特别是Apriori和FP增长树算法在挖掘零售店交易数据中的频繁项集和关联规则,涉及概念如频繁项集、事务、支持度、置信度等,并提供了Python实现示例。文章还讨论了关联规则的不同类型和它们在商业决策中的应用。
最低0.47元/天 解锁文章
803





