R之筛选变量

最新推荐文章于 2025-03-14 15:38:26 发布

weixin_30675247

最新推荐文章于 2025-03-14 15:38:26 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/yilingjian/p/7281169.html

本文介绍了在R语言中使用subset函数及dplyr包进行数据框变量选择的方法，包括直接指定变量名、使用通配符选择以及排除特定变量等技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

> names(hr)

[1] "satisfaction" "evaluation" "project" "monthlyhour" "serviceyear" "accident" "left" "promotion" "dept" "salary" "SG"

变量选取的三种方法如下：

1.subset( )

eg：

> hr01<-subset(hr, select=c(left,salary) )

> names(hr01)

left salary

> hr02<-subset(hr, select=left：salary)

> names(hr02)

left promotion dept salary

> hr03<-subset(hr, select = - salary)

> names(hr03)

satisfaction evaluation project monthlyhour serviceyear accident left promotion dept SG

2.dplyr包——filter()

filter()函数并不能选取我们感兴趣的变量，只能按照条件筛选出符合要求的cases，

> hr04<-filter(hr, hr$evaluation>0.72 & hr$project>4 | hr$serviceyear>=4)

3.dplyr包——select()

> hr05<-select(hr,start_with("")) 筛选出名称中以xx开头的变量

> hr06<-select(hr,end_with("")) 筛选出名称中以xx结尾的变量

> hr07<-select(hr,contains("")) 筛选出名称中包含xx的变量

> hr08<-select(hr,-start_with("")) 剔除掉名称中以xx开头的变量

> hr_top1<-hr_top %>%select(satisfaction:promotion,SG)

顺带提一下dplyr包的这个管道函数“%>%”，管道函数可以将左边的对象传递给右边的函数。

转载于:https://www.cnblogs.com/yilingjian/p/7281169.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30675247

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

R语言基于遗传算法（Genetic Algorithm）进行特征筛选（feature selection）

data+scenario+science+insight

08-12

2351

R语言基于遗传算法（Genetic Algorithm）进行特征筛选（feature selection）特征选择的目的 1.简化模型，使模型更易于理解：去除不相关的特征会降低学习任务的难度。并且可解释性能对模型效果的稳定性有更多的把握 2.改善性能：节省存储和计算开销 3.改善通用性、降低过拟合风险：减轻维数灾难，特征的增多会大大增加模型的搜索空间，大多数模型所需要的训练样本随着特征数量的增加而显著增加。特征的增加虽然能更好地拟合训练数据，但也可能增加方差使用特征选择的前提 1.训练数据包含

R语言 PCA筛选变量

xxx

07-21

502

X_selected

参与评论您还未登录，请先登录后发表或查看评论

R语言-变量筛选流程

parcaf的博客

04-19

2436

背景：有了一个稀疏的多变量的变量矩阵，一个对应的响应变量向量，对变量矩阵利用不同惩罚进行变量筛选。用到的包： library(readr) library(glmnet) 4.19更新 B<-read_csv("C:/Users/Dell/Desktop/2020/B.csv", col_names =T,locale=locale(encoding="GBK")) B<-as.matrix(B) fit = glmnet(B[,c(2:304)],B[,1], family =

一些变量筛选方法——1、综述

Kanny

05-11

3万+

写在最前由于《An Introduction to Statistical Learning with R》课程论文需要我们进行对一些变量筛选方法与降维的方法进行综述，所以这里将分几个部分，将学到的一些变量筛选方法写在博客之中。写成一篇长博客看得比较吃力，写的也比较慢，所以这里慢慢一部分一部分的来写。综述高维统计问题来自科学研究和技术发展的多个领域，在科学与人文等不同领域中变得越来...

一些变量筛选方法——5、真实数据与总结

Kanny

05-22

3万+

这里使用两个真实数据进行前面所述方法的应用。真实数据在实际数据运用中，针对高维和超高维数据的情况，算法该如何使用？如何实现？这里我们使用两组数据，一组是课本中提到的Hitters数据，另一组是自己搜索整理而出的土耳其新闻数据。前者是数十维，后者则是上千维。课本Hitters数据课本中的案例实验是以Hitters数据为例，这里进行重现。数据简介这个数据集取...

一些变量筛选方法——2、《An Introduction to Statistical Learning with R》上的数据降维方法

Kanny

05-13

1万+

前面提到，这里介绍的变量筛选的方法全部是基于《An Introduction to Statistical Learning with R》书中的方法，所以这里先开始介绍课本上的变量筛选方法，然后再进行延伸。课本上数据降维方法标准的回归模型定义为： Y=β0+β1X1+⋯+βpXp+ϵ,Y=β0+β1X1+⋯+βpXp+ϵ, Y = \beta_0 + \beta_1 X_1 + \...

R语言随机森林筛选变量.txt

09-26

适合R语言

【R语言数据科学】（二十）：变量选择（二）Lasso回归

阿里云专家博主、数据科学领域优质创作者、统计er在读

11-07

2万+

岭回归和Lasso回归都增加了正则化项，其中岭回归使用的是L2正则化，lasso回归使用的是L1正则化。提高了模型的泛化能力。岭回归不能做变量选择，只能够让变量的系数缩小，Lasso回归可以做变量选择，让某些变量的回归系数为0🔎！

逻辑回归临床预测模型lasso回归变量筛选roc曲线定制Delong检验

04-28

本项目主要涉及R语言中的逻辑回归、LASSO回归变量筛选以及ROC曲线与DeLong检验等关键概念，旨在建立一个临床预测模型，以提高预测的准确性。下面将对这些知识点进行详细阐述。首先，逻辑回归（Logistic Regression...

超高维变量筛选

m0_51327832的博客

04-17

3252

在所有统计学习工具中，回归分析是最流行的方法之一，被广泛用于响应变量y和一系列协变量x之间的关系进行建模。在文献中各种回归分析的模型和方法都在发展，从经典的线性回归到非参数回归。然而在协变量维数p很大时，大多数回归模型和方法可能会严重受损。从协变量中选择一个预测因子子集是有必要的。在现有研究中，广泛通过变量选择方法进行降维，主要分为两种方法:子集选择方法包括逐步回归(Efroymson 1960)、正向选择、向后选择等；惩罚似然方法包括LASSO，非负garrotte， SCAD，弹性网络等。

变量选择方法-基于SVM

06-05

当面临许多变量时，很自然的要进行变量的初次筛选，以便减缓后续的建模计算压力。本文提出了一种新的有效的变量选择方法，不依赖于模型的清晰指定，故而具有很大的灵活性与适应范围。

|机器学习| - R语言 - 随机森林 - 分类、回归、预测、筛选变量有史以来超详细解析（干货满满）

热门推荐

慕小白的博客

08-03

8万+

R语言随机森林详细解析（基于randomforest包和varSelRF包）随机森林基于R你即将从这里看到你不会看到研究如何用R去实现随机森林也有三个月的时间了，从一开始的完全不理解，到现在的游刃有余，我似乎花了过多的时间，毕竟是初学者嘛。不知各位有没有发现，优快云上随机森林的教程都说的有些模糊，好像在刻意回避着什么，而且很少有人说变量筛选的问题。所以，今日，我觉得有必要记录一下了。随机森...

LASSO索套回归+筛选变量、特征筛选、降维Matlab建模代码

2501_90804007的博客

03-14

1533

LASSO索套回归+筛选变量、特征筛选、降维Matlab建模代码不只有线性模型，可以选择logit、probit等多达8种模型使用该程序可以：（1）使用LASSO回归模型对单个/多个自变量（X）和单个连续/分类因变量（Y）进行拟合（2）使用K折交叉验证自动选择最优的正则化系数Lambda（3）绘制模型系数与Lambda的关系图、以及K折交叉验证的误差图（4）分别按最小MSE和1SE原则汇报最优Lambda、以及对应的非零系数特征编号。

r语言遗传算法的实现（应用mcga包和genalg包）

weixin_45178611的博客

08-15

6051

用r语言实现遗传算法遗传算法是一类常见的随机化搜索方法，目前被广泛应用于组合优化，机器学习，信号处理，人工智能等领域。这里以模型参数优化为背景学习遗传算法的r语言实现 r语言中常用的实现遗传算法的包有mcga包、genalg包、rgenoud包。其中mcga、genalg包比较简单，上手较快。rgenoud包将遗传算法和衍生的牛顿算法结合起来，可以求解复杂函数的优化问题。这里主要学习mcga包，genalg包的用法 mcga包使用字节表示变量，而不是实值，并且基于这些用字节表示的染色体进行经典的交叉

医学预测变量筛选的几种方法（R语言版）

skyskytotop的博客

03-19

1768

以上介绍了四种常用的预测变量筛选方法，每种方法都有其优缺点。在实际应用中，可以根据具体情况选择合适的方法。为了更好的展示，

如何筛选预测变量并删除不必要的变量（使用R语言）

CyberLynxX的博客

08-23

599

在数据分析和建模过程中，选择合适的预测变量是至关重要的。有时，我们可能会面对许多候选变量，但其中一些可能对我们的模型没有贡献，或者可能存在多重共线性等问题。通过以上步骤，我们可以使用R语言筛选和删除不必要的预测变量。请根据实际数据和需求选择适合的方法来进行预测变量的筛选，以确保模型的准确性和解释性。根据上述方法的结果，我们可以确定哪些预测变量应该被保留，哪些应该被删除。要删除不需要的变量，我们可以使用R中的。的数据框，其中包含了我们感兴趣的预测变量以及其他相关变量。如果你有任何其他问题，请随时提问。

（完整代码）R语言中利用SVM-RFE机器学习算法筛选关键因子

懒得很的博客

03-20

2万+

自用机器学习筛选基因代码，花费一个多月写下来的。

R语言选取变量及数据

张恒华的博客

04-12

2万+

选取变量在分析数据时，从一个大数据集中选择有限数量的变量来创建一个新的数据集是必不可少的一部分 # 选取向量中的变量 vector <- c(1,2,3,4) vector[1] # 选取第一个元素 # 运行结果： # [1] 1 vector[c(1:3)] # 选取前三个元素 # 运行结果： # [1] 1 2 3 ...

R语言：筛选法

fxalll的博客

06-20

3836

我们先以一个例子来讲解：用筛选法来模拟如下密度函数的随机变量。 f(x)=e−12x2,g(x)⊂(1+x2)−1 f(x)=e^{ -\frac{1}{2} x^{2} },g(x)\subset (1+x^2)^{-1} f(x)=e−21x2,g(x)⊂(1+x2)−1 f(x)是需要模拟的随机变量密度函数，g(x)是其对应的筛选函数。我们首先判断g(x)的取值范围，应该为(0,1]。设u=g(x)，将u反解，得到 x=u−1−1 x=\sqrt{u^{-1}-1} x=u−1−1 我们将

R语言筛选变量代码