MiSeRe-Hadoop:大规模稳健序列分类算法解析
在数据挖掘领域,序列分类规则的挖掘是一项重要任务。本文将介绍MiSeRe和MiSeRe-Hadoop算法,前者是挖掘序列分类规则的基础算法,后者是其分布式版本,能有效处理大规模数据。
1. 规则成本与水平概念
在序列分类规则挖掘中,默认规则 $\pi_{\varnothing}$ 的成本 $cost(\pi_{\varnothing})$ 定义如下:
$cost(\pi_{\varnothing}) = log(m + 1) + log(\ell_{max} + 1) + log \begin{pmatrix} n + j - 1 \ j - 1 \end{pmatrix} + log(n!) - \sum_{i = 1}^{j} log(n_{c_i}!)$
规则的水平(level)能自然地区分有趣规则和无关规则。当 $level(\pi) \leq 0$ 时,规则 $\pi$ 比默认规则 $\pi_{\varnothing}$ 更不可能出现,使用这类规则解释数据的成本更高,因此被视为虚假规则;而 $0 < level(\pi) \leq 1$ 的规则为有趣规则。
2. MiSeRe算法
MiSeRe是一种挖掘序列分类规则的算法,具有随时性(anytime),即用户给予的时间越多,它学习到的规则就越多。该算法采用基于实例的随机策略,促进多样性挖掘,主要分为两个步骤:
- 步骤1:数据统计与单例规则生成
- 对数据进行一次扫描,收集基本统计信息,包括项集 $I$ 中的项数、类别集 $C$ 中的类别数、数据集 $D$ 中的
超级会员免费看
订阅专栏 解锁全文

309

被折叠的 条评论
为什么被折叠?



