修正流挖掘中霍夫丁不等式的使用及相关研究
在数据挖掘和机器学习领域,流分类算法以及涉及交互对象活动的学习模型是重要的研究方向。本文将围绕流分类算法中霍夫丁不等式的错误使用情况进行修正,并介绍相关活动学习模型的研究。
1. 涉及交互对象活动的学习模型
在研究涉及交互对象的活动学习模型时,存在一定的局限性。例如在时间节点贝叶斯网络中,假设关系是成对的,这是一个限制。因为对于大量对象,在学习过程中研究所有可能的相关对象组合在计算上是难以处理的。目前正在研究使用非参数方法来发现执行特定活动时哪些对象是相关的。
2. 流分类算法中霍夫丁不等式的问题
许多流分类算法使用霍夫丁不等式来确定树归纳过程中最佳的分裂属性,但这些算法违反了该不等式的前提条件。
2.1 霍夫丁不等式的前提条件
霍夫丁不等式指出,对于范围为 $R$ 的随机变量 $Z$,其真实平均值 $Z$ 与观测平均值 $\hat{Z}$ 的偏差不超过 $\varepsilon$,误差可能性为 $\delta$,公式如下:
[|Z - \hat{Z}| < \varepsilon , \text{ 其中 } \varepsilon = \sqrt{\frac{R^2 \cdot \ln(1/\delta)}{2n}}]
其中 $n$ 是实例的数量。该不等式有两个前提条件:
1. 随机变量必须是同分布且几乎必然有界的,在计算边界时会使用变量范围。
2. 变量的随机观测值必须相互独立。
2.2 前提条件的违反情况
- 违反情况 1 :霍夫
超级会员免费看
订阅专栏 解锁全文
8410

被折叠的 条评论
为什么被折叠?



