霍夫丁流分类器修正与高维数据探索性分析
霍夫丁流分类器修正实验
在流分类器的研究中,霍夫丁不等式的应用存在一些问题。为了评估修正后的 VFDT(Very Fast Decision Tree)的性能,进行了一系列实验。
实验设置
- 受控条件实验 :生成具有离散多元分布的人工数据集,该数据集有两个属性:A1 有三个离散值 {A, B, C},A2 有两个离散值 {D, E},目标变量取值为 {c1, c2}。模拟决策树节点,观察分裂决策。考虑 VFDT 的信息增益(InfoGain)和修正后的 VFDT 的准确率增益(AccuracyGain),分别使用错误的决策边界 1ε 和正确的决策边界 2ε。
- 真实数据集实验 :使用 UCI 存储库中的 “Adult” 数据集。为减少概念漂移的影响,创建了 10 个排列并对每个排列重复测试,每次运行的宽限期设置为 1。
实验结果
| 实验类型 | 设置 | 错误决策数 | 平均实例数 | 备择假设 | p 值 |
|---|---|---|---|---|---|
| 受控条件实验(置信度 0.95) | InfoGain, 1ε | 25738 | 117.31 | P( |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



