特征选择-可用

特征选择方法

最新推荐文章于 2024-02-05 08:42:32 发布

原创最新推荐文章于 2024-02-05 08:42:32 发布 · 202 阅读

0 ·

CC 4.0 BY-SA版权

大幅度专栏收录该内容

41 篇文章

订阅专栏

特征选取

1、删除方差低的特征

from sklearn.feature_selection import VarianceThreshold

X = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]

sel = VarianceThreshold(threshold=(.8 * (1 - .8)))

sel.fit_transform(X)#fit相当于建模，并没有应用

sel.fit_transform(X)#这步是应用，但是没有赋值，所以应用后的新值不会存储到X

X= sel.fit_transform(X)#赋值新值，X可以换名字，也可以不换

2、递归特征消除

from sklearn.datasets import make_friedman1

from sklearn.feature_selection import RFECV

from sklearn.svm import SVR

X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)#只用了数据的50行，10个字段来实验

estimator = SVR(kernel="linear")

# step=1每次删除的特征数目为1， cv=5是交叉验证

selector = RFECV(estimator, step=1, cv=5)

selector = selector.fit(X, y) #训练

X_SVR_NEW = selector.transform(X) #赋值

3、基于树的特征选择

from sklearn.ensemble import ExtraTreesClassifier

from sklearn.datasets import load_iris

from sklearn.feature_selection import SelectFromModel

iris = load_iris()

X, y = iris.data, iris.target

X.shape

clf = ExtraTreesClassifier()

clf = clf.fit(X, y)

clf.feature_importances_

model = SelectFromModel(clf, prefit=True)

X_new = model.transform(X)

X_new.shape

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sphinxrascal168

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

机器学习笔记 - 模式识别之图像特征提取和特征选择的基本方法总结

学以致用知行合一

01-02

4847

从模式识别角度来讲，视觉信息的特征获取是机器视觉的一个关键环节。一个机器视觉与模式识别系统的成败，首先取决于其所利用的特征能否较好地反映将要研究的分类问题。如果数据被很好地表达成了特征，通常线性模型就能达到满意的分类效果。因此，对于模式识别系统的创建，特征的选择和提取是需要优先考虑的。仅从图像角度来看，图像特征的提取和选择是图像处理过程中非常重要的环节，对后续的图像分类有重要影响，图像数据具有样本少、维数高的特点。为了从图像中提取有用的信息，有必要对图像特征进行降维处理。

Spark MLlib 特征工程系列—特征提取 TF-IDF

最新发布

08-15

1万+

TF-IDF 是文本分类、聚类、信息检索等任务中的一种常见特征提取方法。通过降低常见词汇的权重，TF-IDF 能够更有效地捕捉那些对文档区分度更高的词汇，从而提高模型的效果。IDF 是 TF-IDF 中的重要组成部分，用于调整词频，以减少常见词对文本分析任务的影响。在 Spark 中，可以结合 HashingTF 或 CountVectorizer 来计算 TF-IDF 特征，进而用于各种机器学习任务。

参与评论您还未登录，请先登录后发表或查看评论

特征选择适用条件

....

12-28

923

特征选择需求描述： 特征选择方法及适用条件：过滤式方差选择法：适用于离散型数据。主要是去掉方差较小的特征，因为方差小表明该特征的取值差异不大。卡方检验法：定性变量。自变量和因变量都是被分好类的数据。卡方检验值越大，相关性越强。皮尔森相关系数法：相关系数绝对值越大，相关性越强最大信息系数法：建议作为分类问题的分类变量的筛选方法（可适用于离散或连续型特征）。具体数据...

机器学习（10）--特征工程

NPU 研0

09-04

1345

特征工程中的过滤法、嵌入法、包装法及代码实现

机器学习（二）——xgboost（实战篇）Pima印第安人数据集上的机器学习-分类算法（根据诊断措施预测糖尿病的发病）

爱吃串串的瘦子的博客

10-14

1万+

数据集简介该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测患者是否患有糖尿病。从较大的数据库中选择这些实例有几个约束条件。尤其是，这里的所有患者都是Pima印第安至少21岁的女性。数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。 1 、加载库 impo...

特征选择 (feature_selection)

qq_37692302的博客

08-29

940

本文主要参考sklearn(0.18版为主，部分0.17)的1.13节的官方文档，以及一些工程实践整理而成。　　当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除移除低方差法外，本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可

精选资源

Matlab实现基于SVM-RFE支持向量机递归特征消除的回归数据特征选择算法（Matlab完整程序和数据）

07-30

基于SVM-RFE支持向量机递归特征消除的回归数据特征选择算法，输出为选择的特征序号（Matlab完整程序和数据） Chinese: Options：可用的选项即表示的涵义如下　-s svm类型：SVM设置类型(默认0) 　0 -- C-SVC 　1 --v...

特征选择MATLAB

07-20

特征选择MATLAB，用于对高维特征进行降唯，深度学习也可用

Scikit-Learn 1.4使用指南：有监督学习 特征选择 feature Selection

数智笔记

02-05

1539

此外，根据所需的所选特征数量，其中一个可能比另一个快得多：如果我们有 10 个特征并要求选择 7 个特征，前向选择需要执行 7 次迭代，而后向选择只需要执行 3 次。另一方面，互信息方法可以捕捉任何类型的统计依赖关系，但由于是非参数的，它们需要更多的样本才能进行准确估计。例如，假设我们有一个具有布尔特征的数据集，并且我们想要删除在超过80%的样本中为1或0（开或关）的所有特征。最后，得分在交叉验证折叠中平均，并将选择的特征数设置为最大化交叉验证得分的特征数。然后，将最不重要的特征从当前特征集中剪枝。

机器学习 - 决策树

开码河粉

01-26

1210

1.DecisionTree决策树算法及参数详解+实例 https://blog.csdn.net/qq_41577045/article/details/79844709 1.决策树算法及过度拟合决策树两大关键点：属性如何分割(分支算法) 及过度拟合解决办法 (1)算法决策树归纳的基本算法是贪心算法，在每一步选择中都采取在当前状态下最好的选择，在其生成过程中，分割方法即属性选择度量是关键。通过属性选择度量，选择出最好的将样本分类的属性。根据分割方法的不同，决策树可以分为...

自动化特征选择

qq_41951186的博客

10-16

2393

自动化特征选择用于判断每个特征的作用，从原始数据特征中选择那些最有用的特征，通常有三种策略：单变量统计、基于模型的选择和迭代选择。下面结合cancer数据集对它们进行分析。一、单变量统计在单变量统计中，我们计算每个特征和目标值之间的关系是否存在统计显著性，然后选择具有最高置信度的特征。（这些测试的一个关键性质就是它们是单变量的，即只单独考虑每个特征，如果一个特征...

数据预处理

聊伟的博客

08-02

6673

最近，由于每次在kaggle做比赛时，都是主要参考别人的Kernel来做，对整个数据分析的处理过程缺失整体的思路和理解，在这里借助Home Credit Default Risk Competition这个比赛对整个过程进行整理，这里参考了Start Here: A Gentle Introduction 特征工程 https://www.zhihu.com/search?type=co...

Python机器学习库sklearn自动特征选择（训练集）

公众号：瑞行AI

11-19

1万+

1.单变量分析from sklearn.feature_selection import SelectPercentilefrom sklearn.datasets import load_breast_cancer from sklearn.feature_selection import SelectPercentile #http://scikit-learn.org/stable/modul

scikit-learn数据预处理fit_transform()与transform()的区别(转)

略略略的博客

08-22

4126

二者的功能都是对数据进行某种统一处理（比如标准化~N(0,1)，将数据缩放(映射)到某个固定区间，归一化，正则化等）fit_transform(partData)对部分数据先拟合fit，找到该part的整体指标，如均值、方差、最大值最小值等等（根据具体转换的目的），然后对该partData进行转换transform，从而实现数据的标准化、归一化等等。。根据对之前部分fit的整体指标，对剩余的数据（

scikit-learn数据预处理fit_transform()与transform()的区别