聚类算法:理论与实践中的多维数据密度核及相关方法
1. 多维数据的密度核
多维数据的密度核是一个函数 (K: R^m \to R),需满足以下条件:
- (\int_{R^m} K(x) dx = 1)
- (\int_{R^m} xK(x) dx = 0)
- (\int_{R^m} xx’K(x) dx = c_KI_m)
- (\lim_{|x| \to \infty} |x|^m K(x) = 0),其中 (c_K) 是常数,(I_m) 是单位矩阵。
若 (X_1, \ldots, X_n) 是独立同分布的变量序列,由 (K) 生成的密度估计 (\hat{f}) 为:
(\hat{f}(x) = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{\sqrt{\det(H)}} K\left(H^{-\frac{1}{2}}(x - X_i)\right)),其中 (H \in R^{m \times m}) 是对称正定矩阵,称为带宽矩阵。
在实践中,带宽矩阵通常有两种选择:
- 对角矩阵:(H = \begin{pmatrix} h_1^2 & 0 & \cdots & 0 \ 0 & h_2^2 & \cdots & 0 \ \vdots & \vdots & \ddots & \vdots \ 0 & 0 & \cdots & h_m^2 \end{pmatrix})
- (H = h^2I_m),使用这种选择时,密度估计为 (\hat{f}(x) = \frac{1}{nh^m
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



