另一种填补缺失值的方法
在数据处理过程中,缺失值的填补是一个常见且重要的问题。本文将介绍一种基于关联规则通用基的缺失值填补方法(GBARMV C),并与其他方法进行对比。
1. 提取上下文与关联规则基础
提取上下文是一个三元组 (K = (O, I, R)),其中 (O) 表示有限的事务集,(I) 是有限的项集,(R) 是二元(关联)关系(即 (R \subseteq O \times I))。每对 ((o, i) \in R) 表示事务 (o \in O) 包含项 (i \in I)。
关联规则提取问题由 Agrawal 等人提出。关联规则推导基于频繁项集 (FIK)。
- 频繁项集 :项集 (I) 的支持度是包含 (I) 的事务的百分比,记为 (supp(I) = |{o \in O|I \subseteq o}|)。如果 (supp(I)) 大于或等于用户指定的最小支持度 (minsup),则称 (I) 为频繁项集。
- 关联规则 :关联规则 (R) 的形式为 (R : X \Rightarrow (Y - X)),其中 (X) 和 (Y) 是频繁项集,且 (X \subset Y)。项集 (X) 和 ((Y - X)) 分别称为规则 (R) 的前提和结论。有效关联规则的置信度 (Conf(R)=\frac{supp(Y)}{supp(X)}) 大于或等于最小置信度阈值 (minconf)。若 (Conf(R)=1),则 (R) 为精确关联规则,否则为近似关联规则。除了支持度和置信度指标,Lift 指标也常用于评估关联规则的有效性,其定义为 (Lift(R)=\frac{supp
超级会员免费看
订阅专栏 解锁全文
8万+

被折叠的 条评论
为什么被折叠?



