机器学习笔记 - 主成分分析中的数学

本文深入探讨主成分分析(PCA),通过数学推导解释PCA如何降维并保持数据集的重要信息。首先介绍了PCA的目标是寻找一组新的正交主成分,最大化数据方差。接着详细阐述PCA的数学过程,包括问题描述、约束条件、编码函数的寻找、最小化函数、计算D的过程。最后通过一个2D数据集的应用示例,展示了PCA如何在实际中找到最大方差的方向,以及如何进行数据旋转和降维。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、主成分分析

        维度是数据科学中的一个关键属性,维度是数据集的所有特征。例如,如果您正在查看包含音乐片段的数据集,维度可能是流派、片段的长度、乐器的数量、歌手的存在等等。

        您可以将所有这些维度想象为不同的列。当只有两个维度时,可以使用X和Y轴绘制它。如果添加颜色,您可以表示第三个维度。如果你有几十个或几百个维度,它也是类似的,只是更难具象化它。

        当你有这么多维度时,其中一些是相关的。例如,我们可以想当然地认为一段音乐的流派将与该作品中出现的乐器相关。降低维度的一种方法是只保留其中的一些维度。但很有可能丢失了代表性强的信息。所以需要一种方法可以减少这些维度,同时保持数据集中存在重要信息。

        主成分分析(PCA) 的目的是减少数据集的维数。PCA为我们提供了一组新的维度,即主成分(PC)。它们是有序的:第一个主成分是与最大方差相关的维度。此外,主成分是正交的。请记住,正交向量意味着它们的点积等于0。这意味着每个主成分都与前一个主成分不相关。您可以选择只保留前几个主成分,因为每个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坐望云起

如果觉得有用,请不吝打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值