犯罪模式挖掘方法解析
在犯罪数据的分析中,我们可以运用多种数据挖掘技术来揭示隐藏在其中的规律和关系。下面将详细介绍信息增益计算、关联规则挖掘和决策树分析这三种方法在犯罪模式挖掘中的应用。
信息增益计算
信息增益计算是一种用于评估属性对分类的区分能力的方法。以下是具体的计算步骤和相关概念:
- 基本概念 :
- 设 $S$ 为训练样本集,每个样本的类别标签已知,样本为元组或记录。假设有 $m$ 个类别,使用属性 $A$ 来确定训练样本的类别。$S$ 中属于类别 $C_i$ 的样本数为 $s_i$,任意样本属于类别 $C_i$ 的概率为 $\frac{s_i}{s}$,其中 $s$ 是样本集 $S$ 的总样本数。
- 对样本进行分类所需的期望信息为:$I(s_1, s_2, \ldots, s_m) = -\sum_{i = 1}^{m} \frac{s_i}{s} \log_2 \frac{s_i}{s}$
- 属性 $A$ 取值为 ${a_1, a_2, \ldots, a_v}$,可将 $S$ 划分为子集 ${S_1, S_2, \ldots, S_v}$,其中 $S_j$ 包含 $S$ 中属性 $A$ 取值为 $a_j$ 的样本。基于此划分的期望信息即属性 $A$ 的熵,计算公式为:$E(A) = \sum_{j = 1}^{v} \frac{s_1j + \cdots + s_mj}{s} I(s_1j, \ldots, s_mj)$
- 划分得到的信息增益定义为:$Gain(A) = I(s_1, s_2, \ldots, s_m) - E(A)$
- 操作步骤
超级会员免费看
订阅专栏 解锁全文
916

被折叠的 条评论
为什么被折叠?



