市场篮分析与热点分析:数据挖掘的实用指南
1. 市场篮分析中的关联规则
1.1 关联规则学习概述
关联规则学习是一种机器学习模型,旨在挖掘交易数据中隐藏的模式,也就是描述零售商客户购物习惯的关系。举例来说,对于频繁项集 {牛奶, 面包},可以形成两条关联规则:牛奶 → 面包和面包 → 牛奶。在关联规则中,第一个项集称为前件,第二个项集称为后件。确定关联规则后,就可以计算之前讨论过的所有指标,以评估关联规则的有效性,进而决定是否能在决策过程中运用这些规则。
关联规则的建立基于支持度和置信度。支持度用于识别哪些项集是频繁出现的,而置信度则衡量特定规则的真实频率。通常,置信度被视为衡量规则是否有趣的指标,因为它决定了是否应该形成关联。因此,建立关联规则是一个两步过程:首先识别频繁数据集,然后评估候选关联规则的置信度,如果该置信度值超过某个任意阈值,就得到了一条关联规则。
1.2 虚假关联问题
关联规则学习的一个主要问题是发现虚假关联。由于可能的规则数量巨大,虚假关联很可能出现。虚假关联是指在数据中以惊人的规律性出现,但实际上完全是偶然发生的关联。例如,假设有 100 个候选规则,在 0.05 的显著性水平下进行独立性统计检验,仍有 5% 的概率会发现实际上不存在的关联。如果将候选规则列表扩展到数百万甚至数十亿,那么这 5% 的比例将意味着大量的关联。虽然有一些技术可以解决虚假关联问题,但它们既没有在常用的关联规则库中得到一致应用,也不在本文讨论范围内。
1.3 在线零售数据集的关联规则推导实践
1.3.1 练习 45:推导关联规则
以下是具体的操作步骤:
1.
超级会员免费看
订阅专栏 解锁全文
756

被折叠的 条评论
为什么被折叠?



