无监督随机森林在交通场景分类中的应用
1. 噪声分布
在解决分类任务时,会用到多种噪声分布。标准正态分布是常用的第二种分布,其近似公式为:
[P_n (\tilde{z}_n \leq\tilde{z}_n) = \frac{1}{1 + e^{-\sqrt{\pi}(\beta_1\tilde{z}_n^5 + \beta_2\tilde{z}_n^3 + \beta_3\tilde{z}_n)}}]
其中,(\beta_1 = -0.0004406),(\beta_2 = 0.04181198),(\beta_3 = 0.9)。
此外,还使用了双峰分布,它由两个平移后的标准正态分布相加得到:
[P_b (\tilde{z}_n \leq\tilde{z}_n) = P_n (\tilde{z}_n - 3 \leq\tilde{z}_n - 3) + P_n (\tilde{z}_n + 3 \leq\tilde{z}_n + 3)]
每次分割时随机选择噪声分布,可降低接近度度量对特定分布的依赖。这三种分布组成的集合也可扩展或被其他分布替代。
2. 路径接近度
传统方法可能仅使用终端节点来衡量数据点的相似性,而这里提出的接近度度量方法考虑了数据点通过树的完整路径。
假设随机森林由 (B) 棵树 (T) 组成,第 (b) 棵树 (T_b) 基于袋装数据集 (D_{u,b}) 构建。树 (T_b) 由 (N_b) 个节点 (t_{n,b}) 组成。数据点通过树的路径可定义为包含该数据点经过的所有节点的集合:
[T_{i,b} = {t_{1,b}, t_{ni2,b}, \cd
无监督随机森林交通分类应用
超级会员免费看
订阅专栏 解锁全文
4495

被折叠的 条评论
为什么被折叠?



