深入理解降维与度量学习:Pumpkin Book第十章详解
【免费下载链接】pumpkin-book 《机器学习》(西瓜书)公式详解 项目地址: https://gitcode.com/datawhalechina/pumpkin-book
前言
降维与度量学习是机器学习中非常重要的技术,它们能够帮助我们处理高维数据,提高模型性能并降低计算成本。本文基于Pumpkin Book第十章内容,将详细讲解降维与度量学习的核心概念、数学原理和实现方法。
预备知识
矩阵运算基础
在降维算法中,矩阵运算是最基础的数学工具。我们需要掌握几个关键概念:
-
向量表示法:
- 分号";"表示列向量:$\boldsymbol{\alpha}=(a_1;a_2;\ldots;a_m)$
- 逗号","表示行向量:$\boldsymbol{\alpha}=(a_1,a_2,\ldots,a_m)$
-
矩阵乘法规则:
- 矩阵左乘对角阵:对矩阵的每行乘以对应元素
- 矩阵右乘对角阵:对矩阵的每列乘以对应元素
- 矩阵左乘行向量:对矩阵每行加权求和
- 矩阵右乘列向量:对矩阵每列加权求和
矩阵范数与迹
-
Frobenius范数(F范数): 对于矩阵$\mathbf{A}\in\mathbb{R}^{m\times n}$,其F范数定义为: $$|\mathbf{A}|F=\left(\sum{i=1}^m\sum_{j=1}^n|a_{ij}|^2\right)^{1/2}$$
-
F范数与迹的关系: $$|\mathbf{A}|_F^2=\operatorname{tr}(\mathbf{A}^\top\mathbf{A})=\operatorname{tr}(\mathbf{A}\mathbf{A}^\top)$$
k近邻学习
k近邻(kNN)是最简单的机器学习算法之一,但其理论分析却非常深刻。
错误率分析
kNN分类器的错误率可以表示为: $$P(err)=1-\sum_{c\in\mathcal{Y}}P(c|\boldsymbol{x})P(c|\boldsymbol{z})$$
这个公式表示分类错误的概率等于1减去样本$\boldsymbol{x}$和$\boldsymbol{z}$类别相同的概率。
理论性能
在理想条件下,最近邻分类器的泛化错误率不超过贝叶斯最优分类器错误率的两倍。但这一结论依赖于两个关键假设:
- 后验概率$P(c|\boldsymbol{x})$是连续函数
- 对于任意样本和任意小距离,总能找到训练样本
在实际应用中,这些假设往往难以满足。
低维嵌入
多维缩放(MDS)算法
MDS是一种经典的降维方法,其核心思想是保持样本在低维空间中的距离与原始高维空间相同。
距离与内积的关系
对于降维后的样本$\boldsymbol{z}_i$和$\boldsymbol{z}j$,它们的距离平方可以表示为: $$\operatorname{dist}{ij}^2=|\boldsymbol{z}_i|^2+|\boldsymbol{z}_j|^2-2\boldsymbol{z}_i^\top\boldsymbol{z}_j$$
中心化处理
假设降维后的样本被中心化($\sum_{i=1}^m\boldsymbol{z}_i=\boldsymbol{0}$),我们可以推导出:
-
行和列和为0: $$\sum_{i=1}^m b_{ij}=\sum_{j=1}^m b_{ij}=0$$
-
距离求和公式: $$\sum_{i=1}^m\operatorname{dist}{ij}^2=\operatorname{tr}(\mathbf{B})+mb{jj}$$ $$\sum_{j=1}^m\operatorname{dist}{ij}^2=\operatorname{tr}(\mathbf{B})+mb{ii}$$
-
全局距离和: $$\sum_{i=1}^m\sum_{j=1}^m\operatorname{dist}_{ij}^2=2m\operatorname{tr}(\mathbf{B})$$
内积矩阵计算
最终,我们可以通过距离矩阵计算出内积矩阵$\mathbf{B}$的元素: $$b_{ij}=-\frac{1}{2}(\operatorname{dist}{ij}^2-\operatorname{dist}{i\cdot}^2-\operatorname{dist}{\cdot j}^2+\operatorname{dist}{\cdot\cdot}^2)$$
其中$\operatorname{dist}{i\cdot}^2$表示第i行距离平方的均值,$\operatorname{dist}{\cdot j}^2$表示第j列距离平方的均值,$\operatorname{dist}_{\cdot\cdot}^2$表示所有距离平方的均值。
总结
降维与度量学习是处理高维数据的有效工具。通过本文的讲解,我们了解了:
- 矩阵运算在降维算法中的基础作用
- k近邻算法的理论性能分析
- 多维缩放算法的数学原理和实现细节
这些知识为我们进一步学习更复杂的降维方法(如PCA、流形学习等)奠定了坚实的基础。在实际应用中,我们需要根据数据特性和任务需求选择合适的降维方法,并注意各种算法的前提假设和适用范围。
【免费下载链接】pumpkin-book 《机器学习》(西瓜书)公式详解 项目地址: https://gitcode.com/datawhalechina/pumpkin-book
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



