数据库中的因果关系挖掘:理论、算法与优化
在大数据时代,挖掘数据库中变量之间的因果关系对于决策制定和规划等实际应用至关重要。本文将介绍一种基于分区的挖掘大型数据库中多值变量因果关系的新方法,包括数据预处理、因果规则挖掘以及算法优化等内容。
1. 数据预处理:Generatedata 过程
为了挖掘数据库中的因果关系,首先需要对数据进行预处理。Generatedata 过程的主要目的是对给定的概率数据库进行预处理,以找到所有感兴趣的数据。以下是该过程的详细步骤:
Procedure 4.4 Generatedata
begin
Input: D: probabilistic database, γ: threshold values;
Output: PS: set of probabilities of interest;
(1) call the procedure PartitionData;
let IV ← all item variables;
let PS ← ∅;
(2) let DS ← ∅,
for a subset X of set Z of IV begin
let Y ← Z − X;
let DS ← DS ∪ {X, Y };
for each tuple τ in D begin
for each key value τ(K) = k begin
for each
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



