主成分分析与线性判别分析的区别及Python实现

最新推荐文章于 2025-12-01 13:49:36 发布

DarcyCode

最新推荐文章于 2025-12-01 13:49:36 发布

阅读量181

点赞数 1

CC 4.0 BY-SA版权

文章标签： python 开发语言

本文链接：https://blog.youkuaiyun.com/DarcyCode/article/details/132199741

Python 专栏收录该内容

244 篇文章 ¥59.90 ¥99.00

订阅专栏

本文详细介绍了PCA和LDA的区别，PCA旨在最大化数据方差，为无监督学习，而LDA关注类别间距离，属监督学习，适用于分类问题。通过Python代码示例演示了PCA和LDA在MNIST数据集上的应用，帮助理解两者差异。

主成分分析与线性判别分析的区别及Python实现

主成分分析（Principal Component Analysis，PCA）和线性判别分析（Linear Discriminant Analysis，LDA）都是常用的数据降维算法，它们在理论和应用方面都有很大的差异。本文将详细介绍PCA和LDA的区别，并通过Python代码实现来加深理解。

PCA与LDA的区别

PCA和LDA虽然都是数据降维算法，但是它们的目标不同。PCA的目标是找到一个新的坐标系，使得数据在这个坐标系中的方差最大。而LDA的目标则是找到一个新的坐标系，使得同类内部的方差最小，不同类之间的距离最大。

从数学上来说，PCA是一种无监督学习算法，它只关心数据的方差和协方差矩阵，对于标签信息并不敏感。而LDA是一种监督学习算法，它可以利用数据的标签信息进行学习，对于分类问题的降维效果更好。

PCA与LDA的Python实现

接下来我们将通过Python代码实现PCA和LDA算法，以MNIST手写数字数据集为例。

首先导入必要的库：

import numpy as np
from sklearn.datasets

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DarcyCode

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

Fisher算法线性判别分析python实现

04-01

线性判别分析（Linear Discriminant Analysis，简称LDA）是一种经典的统计方法，常用于多类别的分类问题，尤其在高维数据降维时表现出色。Fisher算法，即Fisher判别分析，由R.A. Fisher提出，是LDA的基础。本教程将...

精选资源

python导入鸢尾花数据集，使用主成分分析函数对鸢尾花数据集降维数据集和原始数据集分别进行线性判别比较分析的准确率

01-21

【Python导入鸢尾花数据集并使用主成分分析】在数据科学领域，主成分分析（PCA）是一种常用的数据预处理技术，它通过线性变换将原始数据转换为一组各维度线性无关的表示，用于降低数据的复杂度，同时最大化保留...

参与评论您还未登录，请先登录后发表或查看评论

主成分分析（PCA）与线性判别分析（LDA）的区别与联系

梁小憨憨的博客

08-04

1万+

刚整理完PCA的内容，又记得之前用过LDA但是并没有在这里整理，所以今天把这两个算法整理下，方便以后查阅。

主成成分分析-PCA

开开_王子的博客

08-15

1136

1、问题描述下表1是某些学生的语文、数学、物理、化学成绩统计：首先，假设这些科目成绩不相关，也就是说某一科目考多少分与其他科目没有关系。那么一眼就能看出来，数学、物理、化学这三门课的成绩构成了这组数据的主成分（很显然，数学作为第一主成分，因为数学成绩拉的最开）。为什么一眼能看出来？因为坐标轴选对了！下面再看一组学生的数学、物理、化学、语文、历史、英语成绩统计，见表2，还能不能一眼看出来

PCA(主成成分分析)和LDA(线性判别分析)详解-共性和区别

热门推荐

yj_isee的博客

04-30

2万+

注：这里说的LDA实际上讲的是Fisher’s linear discriminant analysis在machine learning领域，PCA和LDA都可以看成是数据降维的一种方式。但是PCA是unsupervised，也就是说不需要知道sample对应的label，但是LDA是supervised，需要知道每一个数据点对应的label。下面分别解释PCA和LDA的基本原理1.PCAPCA被

PCA(主成分分析）和LDA(线性判别分析）的异同处及应用场景

weixin_41690708的博客

07-31

6493

在机器学习领域，PCA和LDA都可以看成是数据降维的一种方式。但是PCA是无监督的，也就是说不需要知道样本对应的标签，而LDA是有监督的，需要知道每一个数据点对应的标签。图的左边是PCA，它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上，映射时没有利用任何数据内部的分类信息。因此，虽然做了PCA后，整组数据在表示上更加方便(降低了维数并将信息损失降到最低)，但在分类上也许会变得...

11、数据降维压缩：线性判别分析与核主成分分析

water的专栏

08-21

本博客详细介绍了两种重要的数据降维技术：线性判别分析（LDA）和核主成分分析（Kernel PCA）。LDA是一种有监督的降维方法，旨在找到能够最大化类间可分性的特征子空间，适用于线性可分数据。而Kernel PCA是一种无监督的非线性降维方法，通过核技巧将数据映射到高维空间后再进行降维，适合处理非线性问题。博客内容涵盖了LDA的数学原理、实现步骤、代码示例，以及Kernel PCA的核函数选择、实现流程和参数调优方法。通过对比LDA与Kernel PCA的优缺点，帮助读者更好地选择适合的降维技术。最后，还

主成分分析（PCA）与线性判别分析（LDA）的区别及Python实现

NoerrorCode的博客

09-05

295

PCA和LDA是常用的降维技术，它们的目标和方法存在一些关键的区别。如果数据具有明显的类别结构，并且希望在降维的同时最大化类别之间的可分性，可以选择LDA。本文将详细介绍PCA和LDA的区别，并提供使用Python实现这两种方法的示例代码。LDA利用了类别之间的差异，使得同一类别内的样本尽可能接近，不同类别之间的样本尽可能远离。LDA对数据的假设是数据是类别可分布的，即不同类别的样本在特征空间中具有明显的聚类结构。LDA是一种有监督学习方法，它将数据降维到最小的子空间，同时最大化类别之间的可分性。

机器学习主成分分析算法 PCA—python详细代码解析（sklearn）

qq_45932996的博客

10-12

3585

在进行数据分析时，我们常常会遇到这样的情况：各个特征变量之间存在较多的信息重叠，也就是相关性比较强。就好比在研究一个班级学生的学习情况时，可能会收集到学生的语文成绩、数学成绩、英语成绩等多个特征变量。但往往会发现，语文成绩好的学生，数学和英语成绩也可能比较好，这就说明这些变量之间存在一定的相关性。这种情况在线性回归分析中被称为多重共线性关系。同时，如果我们的样本观测值数量较少，而选取的变量却很多，就会产生高维数据带来的 “维度灾难” 问题。

线性判别分析与主成分分析

weixin_43294411的博客

11-29

1218

成分分析是一种无监督降维，它识别数据差异最大的属性组合 线性判别分析是一种有监督降维，它识别在类别上差异最大的属性组合 import matplotlib.pyplot as plt from sklearn import dataset from sklearn.decomposition import PCA from sklearn.discriminant_analysis import LinearDiscriminantAnalysis # 加载数据集 iris = dataset.lo.

Python Pandas多列合并成一长列(扁平化)

视觉算法小趴菜的博客

11-29

406

本文介绍了Pandas中三种数据扁平化方法：melt()按变量名和值两列重组数据，concat()垂直拼接多列，stack()将多列转为单列。测试数据显示melt()保留原列名信息，concat()和stack()仅保留数值。三种方法各有特点，适用于不同的数据扁平化需求。

人工智能领域博客

11-28

1843

摘要：本文详细解释了Spark Driver端与Worker端在OSS认证上的核心区别。Driver端通过Spark配置自动认证，而Worker端（独立Python进程）需显式提供认证信息。认证来源优先级为：1)Driver传递参数，2)环境变量，3)IAM角色。文章分析了架构差异导致的不同认证方式，并推荐从Driver传递认证信息的解决方案。当前实现已采用该方案，通过Spark配置或环境变量获取认证后传递给Worker进程，确保PyArrow能正确访问OSS数据。

【Android逆向工程】第8章：Frida 高级应用：函数追踪与 RPC 调用

最新发布

w987333120的博客

12-01

295

本文介绍了Frida框架的核心功能与应用技巧，包括函数调用栈追踪、RPC机制、批量Hook、内存操作和脚本模块化等关键技术。重点讲解了Thread.backtrace()和DebugSymbol.fromAddress()的用法，提供Java和Native函数的调用栈追踪示例，并展示了调用栈过滤与分析方法。最后通过实战案例演示登录流程追踪和RPC调用，同时给出常见问题解决方案。这些技术可有效提升逆向分析效率，适用于移动应用安全测试场景。

遗留Python包中的漏洞代码可通过域名劫持攻击Python包索引

FreeBuf_的博客

11-28

454

遗留Python包漏洞可致供应链攻击，域名劫持风险威胁PyPI生态。

python自动化脚本-下载最新最全LPR

zhang_ruiqiang的博客

11-27

681

本文介绍了一个Python自动化脚本，用于从中国人民银行官网批量获取贷款市场报价利率(LPR)数据。通过分析网页结构，发现LPR数据分布在4个索引页面中，每个页面包含多个带有特定标题的链接。脚本使用BeautifulSoup解析网页，自动提取并存储所有LPR数据到本地文件，解决了手动下载效率低、易出错的问题。核心功能包括：页面URL自动生成、目标链接定位、数据内容提取和结果保存。该方案显著提高了数据采集效率，为金融数据分析提供了便利。

Python抓取ZLibrary元数据实战指南

yiruo250的博客

11-29

537

本文介绍使用Python抓取ZLibrary电子书元数据的技术方案。首先说明准备工作，包括Python环境配置、网页结构分析和反爬策略。详细讲解两种抓取方法：静态页面使用requests+BeautifulSoup解析，动态内容通过Selenium模拟浏览器操作。提供数据存储示例（CSV/JSON格式）和清洗技巧，并介绍异步抓取、Scrapy框架等高级优化方案。特别强调法律合规性，包括遵守robots.txt、控制请求频率及版权注意事项。附完整代码示例链接，为电子书数据分析提供技术参考。

探索PFC2D流固耦合：模拟煤层塌陷的奇妙之旅

2503_94141257的博客

11-27

340

该模型是模拟的煤层塌陷的pfc2D流固耦合：运用fipy（python）-pfc2d联合的方法实现。不仅方法创新，可修改，内容操作性强，调整内部代码可实现多边形区域的三角网格流域，灵活性强，还设置的有悬浮颗粒定向删除，点位移的实时监测等多内容，干货满满，你买这个一个代码，但里边不止这一个代码的内容。代码真实有效。内部包含：前后水头、位移、渗透系数等多个水力参数，内容丰富。

Java学习之旅第三季-27：模块系统（一）

摸鱼的老谭

11-29

934

Java模块系统自Java 9引入，通过module-info.java文件定义模块名称、依赖关系和导出包，实现依赖管理、JRE精简和访问控制。模块分为标准模块和非标准模块，前者由JCP管理，后者为JDK特有。创建模块化项目时，需在src/main/java下添加module-info.java文件，使用requires声明依赖、exports控制包可见性。模块命名建议采用反向域名格式，与包名保持一致但无强制要求。模块系统提升了代码组织性、安全性和开发效率。

Python鸢尾花数据集主成分分析：降维效果与线性判别对比

在本次Python编程实验中，主要目标是复习和实践主成分分析（PCA）这一统计学和机器学习中的降维技术。实验开始于复习主成分分析的基本原理，即通过线性变换将高维数据转换为低维表示，同时尽可能保持原始数据的主要...