学习笔记 Day 40 （数据的降维和划分）

最新推荐文章于 2025-08-27 21:52:31 发布

原创最新推荐文章于 2025-08-27 21:52:31 发布 · 765 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法

机器学习专栏收录该内容

22 篇文章

订阅专栏

本文探讨了数据降维中的两种主要方法：过滤式VarianceThreshold与PCA。通过实例展示了如何使用VarianceThreshold进行变量阈值选择，以及PCA如何保留90%方差。此外，还介绍了数据集划分、算法流程和估计器应用，包括Iris数据集的划分与模型训练过程。

数据降维特征选择：

过滤式：

    var = VarianceThreshold(threshold=0)

    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

    print(data)

PCA

    pca = PCA(n_components=0.9)

    data  = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])

    print(data)

降维案例：

算法的分类和开发流程：

数据集划分：

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

ls = load_iris()

x_train,x_test,y_train,t_test = train_test_split(ls.data,ls.target,test_size=0.2,random_state=22)

print(x_train)

转换器与估计器：

估计器流程：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

happydog007

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Python scikit-learn，特征降维，主成分分析，PCA

houyanhua1的专栏

02-25

1403

PCA(Principal Component Analysis)主成分分析是一种分析、简化数据集的技术。 PCA目的：数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。(删除线性相关的特征) PCA作用：可以削减回归分析或者聚类分析中特征的数量当特征数量非常多时(例如上百个,例如图片)才会考虑使用PCA，如果数据是一个稀疏矩阵推荐使用PCA降维。 demo.py（特征...

python_主成分分析(PCA)降维

huizxhhui1994的博客

01-22

2万+

主成分分析（principal component analysis）是一种常见的数据降维方法，其目的是在“信息”损失较小的前提下，将高维的数据转换到低维，从而减小计算量。　　PCA的本质就是找一些投影方向，使得数据在这些投影方向上的方差最大，而且这些投影方向是相互正交的。这其实就是找新的正交基的过程，计算原始数据在这些正交基上投影的方差，方差越大，就说明在对应正交基上包含了更多的信息量。

参与评论您还未登录，请先登录后发表或查看评论

PCA（主成分分析）函数使用方法及参数详解

AI_dataloads的博客

10-08

6914

PCA 的目标是通过线性变换将原始数据投影到一个新的低维空间，使得投影数据的方差最大化。通过降维，可以减少数据的复杂性，简化模型的计算，同时尽可能保留原始数据的信息。

通过PCA选择合适降维维度

lizz2276的博客

05-21

5482

PCA的作用有：降低特征值维度，提高了计算效率，但丢失了信息。信息在PCA中我们用方差来表示。一、PCA参数、属性简介 1.介绍PCA方法中参数： n_components：默认值为保留所有特征值维度，即不进行主成分降维取大于等于1的整数时，即指定我们希望降维后的维数；取0-1的浮点数时，即指定降维后的方差和占比，比例越大，保留的信息越多。系统会自行计算保留的维度个数。 2.介绍PCA中的属性： components_：降维后，保留的成分。每一行代表一个主成分，各成分按方差大小排...

数据降维之特征选择——Filter（过滤式）

weixin_43964679的博客

03-04

1499

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中的一部分特征。流程初始化VarianceThreshlod，指定阀值方差调用fit_transform Variance Threshold 语法 VarianceThreshold(threshold = 0.0) 删...

黑马程序员机器学习Day1学习笔记

文鸿开源工作室

12-18

1394

1.数据集的介绍字典特征抽取文本特征提取1.根据词频2.根据词的重要性特征预处理1.归一化标准化特征降维Filter过滤式：低方差过滤法PCA降维 机器学习第一天基础不牢，地动山摇。直接上手tf，连很多机器学习的基础包都不会使用。比如sklearn, pandas （使用sklearn 来做特征工程， pandas 用于数据的清洗和数据的处理）这些数据处理库，因此回去回炉重造，学习机器学习先。学习的视频是黑马程序员的机器学习视频。视频和资料链接提取码：1234 本篇文章内容：开发流程

黑马程序员机器学习Day2学习笔记

文鸿开源工作室

01-02

883

一.转换器和预估器二. KNN算法网格搜索和交叉验证KNN案例：Facebook预测签到位置朴素贝叶斯联合概率、条件概率与相互独立决策树信息熵回顾传统机器学习算法流程： 1.获取数据2.数据处理3.特征工程4.机器学习算法训练5.模型评估总结本章内容： 1.KNN算法用于小型数据集的分类 2.朴素贝叶斯用于特征于特征之间关系不强的算法，比如文本的分类 3.决策树算法用于大型的数据集中一.转换器和预估器 Day1的时候我们学习了获取数据，特征工程。（Day1中我们并没有没有使用到数据处理，因为.

机器学习学习笔记(day01)

qq_42433311的博客

11-26

1157

机器学习定义、特征工程定义、数据的特征抽取(字典特征文本特征)、TF-IDF问题、特征处理(归一化标准化)、sklearn缺失值处理、数据降维(特征选择与主成分分析)

机器学习学习笔记(day02)

qq_42433311的博客

11-29

3231

机器学习分类、数据集划分、转换器与估计器、KNN(K-近邻)、朴素贝叶斯、精确率与召回率、交叉验证与网格搜索、决策树、随机森林(集成学习)

数模笔记day01（数据预处理、K-means聚类、遗传算法、概率密度分布）

最新发布

2402_86424608的博客

08-27

918

0-1 整数编码分类变量编码为0-1时使用，稀疏性好、适合无序分类,二进制优化问题（如背包问题）但无法体现“顺序 / 量级”。线性回归、逻辑回归均实整数编码用连续十进制整数（如 1,2,3）表示，可以用做有序分类变量编码（如 “低 = 1，中 = 2，高 = 3”），优化算法中的变量映射（如遗传算法、粒子群算法），能体现“量级关系”的特征。

python主成分分析相关库及函数

weixin_46938584的博客

05-30

1323

Python 机器学习3：sklearn 数据降维

Amzmks的博客

07-20

966

数据降维，维度即特征的数量，降维即降低特征的数量。有些特征对目标值影响不大可以删掉，称为降维。 1. 特征选择对于包括冗余或者噪声的数据，选择一部分作为机器学习的输入数据。 import sklearn.feature_selection VarianceThreshold 方差阈值，删除所有低方差特征。 from sklearn.feature_selection import VarianceThreshold 1. 实例化VarianceThreshold 参数threshold：

python实现PCA降维

络小绎

10-28

1万+

本文包括两部分，使用python实现PCA代码及使用sklearn库实现PCA降维，不涉及原理。总的来说，对n维的数据进行PCA降维达到k维就是：对原始数据减均值进行归一化处理；求协方差矩阵；求协方差矩阵的特征值和对应的特征向量；选取特征值最大的k个值对应的特征向量；经过预处理后的数据乘以选择的特征向量，获得降维结果。实验数据数据data.txt使用[2]中编写的数据，以下是部分数据截图： shape为(31, 4)，即31条特征数为4的数据。使用py..

机器学习——降维

DAN_L的博客

03-23

314

注意：这里的降维是将特征的数量减少一、数据降维的分类（一）特征选择 1、特征选择的定义特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也可以不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中的一部分特征。 2、特征选择原因（1）冗余：部分特征的相关度高，容易消耗计算性能（2）噪声：部分特征对预测结果有负影响 3、sklea...

PCA主成分数量（降维维度）选择

ybdesire的专栏

03-21

6万+

用PCA做降维，降到多少维合适呢？

【python】sklearn中PCA的使用方法

人间不值得

07-09

12万+

from sklearn.decomposition import PCA PCA 主成分分析（Principal Components Analysis），简称PCA，是一种数据降维技术，用于数据预处理。 PCA的一般步骤是：先对原始数据零均值化，然后求协方差矩阵，接着对协方差矩阵求特征向量和特征值，这些特征向量组成了新的特征空间。 sklearn.decomposition.PC...

用Python的sklearn库进行PCA（主成分分析）