11、关联规则挖掘与决策树分类器优化策略-优快云博客

本文链接：https://blog.youkuaiyun.com/bean/article/details/153708393

关联规则挖掘与决策树分类器优化策略

在当今数据爆炸的时代，大量的数据如潮水般涌来，但如果不能对这些数据进行有效的分析和利用，那么它们就只是一堆无用的数字。数据挖掘作为从海量数据中提取有价值信息的重要手段，在预测、分类等领域发挥着关键作用。本文将介绍关联规则挖掘的改进实现和性能分析，以及一种优化的决策树分类器策略。

关联规则挖掘的改进实现

数据布局选择

市场篮子数据库在概念上是一个二维矩阵，行代表客户的购买交易，列代表在售商品。常见的数据布局有以下几种：
- 水平项向量（HIV） ：数据库按行组织，每行存储一个交易标识符（tid）和一个由 1 和 0 组成的位向量，分别表示交易中商品的存在或缺失。
- 水平项列表（HIL） ：与 HIV 类似，但每行存储一个有序的商品标识符（iid）列表，仅表示交易中实际购买的商品。
- 垂直 tid 向量（VTV） ：数据库按列组织，每列存储一个 IID 和一个由 1 和 0 组成的位向量，分别表示商品在客户交易中的存在或缺失。
- 垂直 tid 列表（VTL） ：与 VTV 类似，但每列仅存储商品被购买的交易的 tid 有序列表。