流式数据分类的概率神经网络
1. 准平稳环境下的分类
在准平稳环境中,如果满足以下条件:
- (p_{m,n} \xrightarrow{n} p_m) (11.71)
- (f_{m,n}(x) \xrightarrow{n} f_m(x)) (11.72)
其中 (m = 1, \cdots, M),(f_m) 是定义在 (A) 上的概率密度函数。并且对于几乎所有的点 (x),有 (\vert d_{m,n}(x) - d_{m,n + k}(x) \vert \xrightarrow{n} 0) (11.73)(以概率 1 收敛),那么模式分类学习算法(11.7)是弱(强)渐近最优的。
下面分别介绍基于 Parzen 核和正交级数方法的算法。
1.1 基于 Parzen 核的算法
选择 (a_n = n^{-1}) ,假设 (h_n \xrightarrow{n} 0) ,函数 (K) 满足条件(10.36),收敛条件 (\vert p_{mn} - p \vert h_n^{-p} \xrightarrow{n} 0) (11.74)成立,并且满足以下条件之一:
- (\sup \vert f_{mn}(x) - f_m(x) \vert \xrightarrow{n} 0) (11.75)
- (h_n^{-p} \int \vert f_{mn}(x) - f_m(x) \vert dx \xrightarrow{n} 0) (11.76)
- (h_n^{-p} \int (f_{mn}(x) - f_m(x))^2 dx \xrightarrow{n} 0) (11.77)
- 弱渐近最优条件 :若 (n^{-2} \sum_{i = 1}^{n} h_i^{-p} \xrightarrow{n} 0) (11.78),则由(11.7)定义的模式分类算法是弱渐近最优的。
- 强渐近最优条件 :若 (\sum_{n = 1}^{\infty} n^{-2}h_n^{-p} < \infty) (11.79),则由(11.7)定义的模式分类算法是强渐近最优的。
证明过程中,令 (d_m(x) = p_m f_m(x)) ,条件(9.5)变为 (E[T_{mn}K_n(x, X_n)] \xrightarrow{n} d_m(x)) (11.80),其中 (E[T_{mn}K_n(x, X_n)] = p_{mn} \int f_{mn}K_n(x, u) du) 。通过一系列不等式推导得出结论。
如果 (p_{mn} = p) ,满足条件(11.75)时,设计实现算法(11.7)的系统无需考虑非平稳性影响。当非平稳性快速减小时,条件(11.76)和(11.77)可由(11.78)推出,同样无需考虑非平稳性影响。
1.2 基于正交级数方法的算法
选择 (a_n = n^{-1}) ,假设 (q(n) \xrightarrow{n} \infty) ,且 (\vert p_{mn} - p \vert (\sum_{j = 0}^{q(n)} G_j^2)^2 \xrightarrow{n} 0) (11.85),(\sum_{\vert j \vert \leq q} B_{m,j} \varphi_j(x) \xrightarrow{n} f_m(x)) (11.86)对于几乎所有的 (x) 成立,其中 (B_{m,j} = \int \varphi_j(x) f_m(x) dx) ,并且满足以下条件之一:
- ((\sum_{j = 0}^{q(n)} G_j^2)^p \int \vert f_{mn}(x) - f_m(x) \vert dx \xrightarrow{n} 0) (11.87)
- ((\sum_{j = 0}^{q(n)} G_j^2)^{2p} \int (f_{mn}(x) - f_m(x))^2 dx \xrightarrow{n} 0) (11.88)
- 弱渐近最优条件 :若 (n^{-2} \sum_{i = 1}^{n} (\sum_{j = 0}^{q(i)} G_j^2)^{2p} \xrightarrow{n} 0) (11.89),则由(11.7)定义的模式分类算法是弱渐近最优的。
- 强渐近最优条件 :若 (\sum_{n = 1}^{\infty} n^{-2} (\sum_{j = 0}^{q(n)} G_j^2)^{2p} < \infty) (11.90),则由(11.7)定义的模式分类学习算法是强渐近最优的。
证明过程与基于 Parzen 核的算法类似。当 (p_{mn} = p) 时,只有非平稳性快速减小时,才无需考虑非平稳性影响,此时条件(11.87)和(11.88)可由(11.89)推出。
2. 仿真结果
2.1 基于 Parzen 核的分类
考虑两类问题,(p_{1n} = p_{2n} = \frac{1}{2}) ,两类的判别函数分别为:
- (d_{1,n}(x) = p_{1n} f_{1,n}(x) = \frac{1}{2} \cdot \frac{1}{\sqrt{6\pi}} \exp(-\frac{(x + 2 - nt)^2}{6})) (11.91)
- (d_{2,n}(x) = p_{2n} f_{2,n}(x) = \frac{1}{2} \cdot \frac{1}{\sqrt{6\pi}} \exp(-\frac{(x - 2 - nt)^2}{6})) (11.92)
其中 (t > 0) ,(f_{1,n}) 和 (f_{2,n}) 分别对应均值为 (-2 + nt) 和 (2 + nt) 的正态分布密度函数。该问题的最小错误概率不依赖于 (n) ,为 (P_e = \frac{1}{\sqrt{6\pi}} \int_{2}^{\infty} \exp(-\frac{u^2}{6}) du \approx 0.1241) (11.93)。
带宽和学习率的形式为:
- (h_n = D \cdot n^{-H}) (11.94)
- (a_n = n^{-\gamma}) (11.95)
参数取值如下表所示:
| 场景 | (D) | (H) | (\gamma) |
| — | — | — | — |
| (i) | 4 | 0.25 | 0.7 |
| (ii) | 4 | 0.25 | 0.6 |
| (iii) | 4 | 0.6 | 0.6 |
在这些场景中,只有场景(i)满足密度估计器的强收敛(以概率 1 收敛),场景(ii)保证弱收敛(以概率收敛),场景(iii)不提供任何类型的收敛。处理 100,000 个数据元素后,只有场景(i)和(ii)的结果令人满意。
graph TD;
A[选择场景] --> B{是否为场景(i)};
B -- 是 --> C[强收敛];
B -- 否 --> D{是否为场景(ii)};
D -- 是 --> E[弱收敛];
D -- 否 --> F[无收敛];
2.2 第二个实验
考虑两类问题,(p_{1n} = p_{2n} = \frac{1}{2}) ,判别函数为:
- (d_{1,n}(x) = p_{1n} f_{1,n}(x) = \frac{1}{2} \cdot \frac{1}{\sqrt{6\pi}} \exp(-\frac{(x + 2)^2}{6})) (11.96)
- (d_{2,n}(x) = p_{2n} f_{2,n}(x) = \frac{1}{2} \cdot \frac{1}{\sqrt{6\pi}} \exp(-\frac{(x - 2 - nt)^2}{6})) (11.92)
该问题的最小错误概率随 (n) 趋于无穷时趋于 0 ,即 (P_{n,e} = \frac{1}{\sqrt{6\pi}} \int_{\frac{4 + nt}{2}}^{\infty} \exp(-\frac{u^2}{6}) du \xrightarrow{n \to \infty} 0) (11.98)。
使用与上一个实验相同的参数 (a_n) 、(h_n) 和 (t) ,结果表明,具有证明收敛性的估计器能够跟踪非平稳判别函数并估计静态判别函数,不满足理论假设的参数值提供的结果不理想。
流式数据分类的概率神经网络
3. 方法总结与对比
- Parzen 核算法 :在设计实现算法(11.7)的系统时,如果 (p_{mn} = p) ,满足条件(11.75)或者非平稳性快速减小时,无需考虑非平稳性影响。其应用所需关于密度函数平滑性的假设较弱,能跟踪函数更显著的变化。
- 正交级数方法算法 :当 (p_{mn} = p) 时,只有非平稳性快速减小时,才无需考虑非平稳性影响。
| 算法类型 | 无需考虑非平稳性影响的条件 | 对密度函数平滑性假设 | 跟踪函数变化能力 |
|---|---|---|---|
| Parzen 核算法 | (p_{mn} = p) 且满足(11.75)或非平稳性快速减小 | 较弱 | 强 |
| 正交级数方法算法 | (p_{mn} = p) 且非平稳性快速减小 | 较强 | 较弱 |
graph LR;
A[Parzen 核算法] --> B[弱平滑性假设];
A --> C[强跟踪能力];
D[正交级数方法算法] --> E[强平滑性假设];
D --> F[弱跟踪能力];
B --> G[无需考虑非平稳性条件较宽松];
E --> H[无需考虑非平稳性条件较严格];
4. 算法的其他应用
当 (p_{mn} = \begin{cases} 1, & \text{当 } m = 1 \ 0, & \text{当 } m \neq 1 \end{cases}) 时,算法(11.11)可用于跟踪时变概率密度。算法(11.11)应用于时变概率密度的非参数学习的收敛性可由相关推论得出。
5. 结论
模式分类程序在满足一定关于类中密度 (f_{mn}) 的假设下是渐近最优的。与平稳情况相比,这里处理的问题更具挑战性。在关于规则(11.7)渐近最优性的推论中,未指定非平稳性的类型,这使得结果可用于各种非平稳性模式的分类,但相应条件的清晰度有所牺牲。在“移动参数”类型的非平稳性情况下,这些条件清晰易懂,可据此设计实现模式分类算法(11.7)的系统,即正确选择序列 (a_n) 、(h_n) 或 (q(n)) 。
总的来说,Parzen 核算法在应用中更具优势,其对密度函数平滑性的要求较低,能更好地适应函数的变化。而正交级数方法算法则在非平稳性快速减小的特定条件下表现较好。在实际应用中,可根据具体的数据特征和问题需求选择合适的算法。
以下是对整个流程的总结:
1.
判断环境类型
:确定数据环境是否为准平稳环境。
2.
选择算法类型
:
- 若希望对密度函数平滑性假设较弱且跟踪能力强,选择 Parzen 核算法。
- 若在非平稳性快速减小的情况下,可考虑正交级数方法算法。
3.
检查条件
:根据所选算法,检查相应的弱渐近最优条件和强渐近最优条件是否满足。
4.
进行仿真
:设置合适的参数进行仿真,评估算法性能。
5.
应用算法
:根据仿真结果,将算法应用于实际的流式数据分类任务中。
graph TD;
A[判断环境类型] --> B{是否为准平稳环境};
B -- 是 --> C[选择算法类型];
C --> D{选择 Parzen 核算法还是正交级数方法算法};
D -- Parzen 核算法 --> E[检查 Parzen 核算法条件];
D -- 正交级数方法算法 --> F[检查正交级数方法算法条件];
E --> G[进行仿真];
F --> G;
G --> H[应用算法];
B -- 否 --> I[考虑其他方法];
流式数据分类的概率神经网络研究
超级会员免费看
692

被折叠的 条评论
为什么被折叠?



