R 语言 | 取数据框一列子集时，如何保持数据框结构？drop=F

原创已于 2024-09-26 16:37:58 修改 · 522 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#r语言

于 2024-09-26 09:18:12 首次发布

R 专栏收录该内容

83 篇文章

订阅专栏

数据框取多列时，返回的还是数据框。
取一列时，默认退化为一个向量：

> class(iris)
[1] "data.frame"
> t1=iris[, 1:2]
> class(t1)
[1] "data.frame"

> t2=iris[,1]
> class(t2)
[1] "numeric"
> head(t2, n=2)
[1] 5.1 4.9

取一列子集，还想保持数据框结构，怎么办？

答案：在[]中添加第三个参数 drop=F

> t3=iris[,1, drop=F]
> class(t3)
[1] "data.frame"
> head(t3, n=2)
  Sepal.Length
1          5.1
2          4.9

这个在Seurat4源码中经常见到。

Tips: 为了稳健(robust)，函数中对数据框取列子集，都建议一律加上 drop=F 参数。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

biomooc

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用subset函数筛选R语言中data.frame的特定行和列子集

TechGlide的博客

08-27

1086

在R语言中，subset函数是一个非常有用的工具，可以根据特定的筛选规则从data.frame中提取出符合条件的子集。通过指定筛选条件和选择要提取的列，我们可以轻松地从data.frame中提取出符合特定要求的子集。在上述代码中，我们通过在subset函数的subset参数中指定年龄大于等于18岁且成绩高于80分的条件来筛选子集。此外，subset函数还提供了其他参数来进一步控制筛选结果，比如drop参数用于指定是否删除不符合条件的行或列，默认值为FALSE，即保留所有行。

12.数据框

Rabbit_0221的博客

11-19

590

R的数据类型与相应运算12 数据框12.1 数据框12.2 数据框内容访问（学习资料参考北京大学李东风老师《R语言教程》） 12 数据框 12.1 数据框 函数data.frame() 可以生成数据框，如 d <- data.frame( name=c("李明", "张聪", "王建"), age=c(30, 35, 28), height=c(180, 162...

参与评论您还未登录，请先登录后发表或查看评论

如何根据数据框的列名提取指定列？

weixin_59289660的博客

04-25

7319

View(gene_cl) gene_cl 格式为 dataframe，想提取列名为 'Sample','SMC4','t_gleason_sum' 的3列，尝试以下三种方法：方法1 library("dplyr") gene_gleason=select(gene_cl,'Sample','SMC4','t_gleason_sum') select(x,colname1,colname2,colname3...) 得到的 gene_gleason 为dataframe，且列名..

《R语言编程艺术》书上代码实现---第五章数据框

weixin_45652435的博客

10-03

476

【代码】《R语言编程艺术》书上代码实现---第五章数据框。

R语言数据处理（一）

qq_41305979的博客

04-29

1720

###数据处理包dplyr install.packages("dplyr") library(dplyr) ###下面两个包都可用于读取或导出数据到EXCEL install.packages("xlsx") install.packages("XLConnect") ###数据处理包dplyr install.packa...

只有一列的数据框删除特定行后如何还能保持原有数据框的行列结构

m0_48259785的博客

12-17

895

只有一列的数据框在删除某些行后，会自动转换成numeric类型，可能只剩一行向量了。如何保持原有的数据框行列名和结构呢？加一列重复值，一劳永逸以下展示一个简单的数据框，我们删除尾号为01A的数据。可以看到删除改行后变成了类型为numeric的向量 counts counts_normal <- counts[-grep("01A", rownames(counts)),] counts_normal 结果如下我们可以添加一模一样的一列，再进行操作。问题可能是以后一直要带着这列“repeat”

R编程艺术读书笔记（5-6章）

houjing1990的博客

04-17

824

学习和使用R已经有1年多的时间了，看了很多R教程视频，看了很多电子书，买了几本R相关的书，现觉得编程思维很重要，所以继续钻研R编程艺术，已读到第五章，希望读完整本书可以帮助自己R达到大成的状态。 R语言编程艺术：第五章 drop=F表示向量变成数据框的参数条件。 complete.cases()用法跟na.rm和na.omit有点相似，但可以精确删除某行或某列。用法是：x【complete

提示工程架构师工具合集：数据分析方法论必备5款工具，提升效率

Java大师兄的博客

08-22

763

本文将聚焦提示工程架构师的数据分析方法论落地场景Pandas：数据处理与清洗的“瑞士军刀”，搞定提示工程中的结构化数据预处理；LangChain：连接大模型与数据分析流程，让提示驱动自动化分析；：数据可视化神器，将分析结果转化为直观洞察；SQLAlchemy：多源数据整合工具，打破数据库、API、文件的数据孤岛；MLflow：实验跟踪与模型管理平台，让提示模板迭代有迹可循。每款工具都会结合真实场景，从“为什么需要”到“如何实战”，手把手教你构建高效数据分析工作流。# 提示模板（3个版本）

R语言数据处理与基础操作：失败处理、多输出保存及子集选择

### R语言数据处理与基础操作：失败处理、多输出保存及子集选择 #### 1. 处理数据读取失败情况在数据处理过程中，有时数据结构复杂，无法用单一命令读取所有文件。`map()` 函数在处理文件读取时存在一个缺点，它...

7、Pandas数据处理与时间序列分析全解析

热门推荐

偷闲阁

02-26

23万+

　　在Excel中我们可以很方便的对数据进行排序、筛选、分类汇总等基本操作，R语言中没有这种傻瓜式的一键操作，如何才能完成这种操作？一、排序1、单变量序列排序　　单变量序列的排序常用到rank、sort和order函数。　　给一个例子：> a <- c(3, 1, 5) > rank(a) [1] 2 1 3 > sort(a) [1] 1 3 5 > order(a...

R语言-删除指定变量或对象

hongweigg的专栏

11-13

8万+

R语言中删除指定变量或对象，可以直接删除某名字的变量或对象，也可以删除以字符串形式表示的变量和对象。例如： 1、直接删除 >a >rm(a) 2、以字符串形式的方式删除 >a >rm('a') 3、删除不再需要的对象在使用R语言的过程中，除了要保留特定的对象外，其他的对象不再需要 >a > rm(list=a[which(a!='c2' & a !='m2'

pythondataframe取出一列_python dataframe常见操作方法:实现取行、列、切片、统计特征值...

weixin_33836754的博客

02-03

7551

实例如下所示：# -*- coding: utf-8 -*-import numpy as npimport pandas as pdfrom pandas import *from numpy import *data = dataframe(np.arange(16).reshape(4,4),index = list("abcd"),columns=list('wxyz'))print da...

R中数据框取列的三种方法

After__today的博客

10-17

3万+

R中数据框取列的方式具体来说有三种： $+列名 [列名向量] [,+列名] 其中第一种和第三种结果是一样的，都是将某个列给分离了出来，成为一个向量。而第二种方式结果的class为“data.frame”，因此你不能将其看做向量，若想取其中的元素也需要使用 [行数,]的方式一般来说建议使用方式一、三，方式二确实不方便 ...

R语言-数据框取列

xiaohukun的博客

08-28

5万+

R中数据框三种取列的方式

import pandas as pd # 处理表格 import numpy as np # 数值计算 from sklearn.model_selection import train_test_split # 数据集划分 from sklearn.tree import DecisionTreeRegressor #决策树模型 #from sklearn.linear_model import LinearRegression # 线性回归模型 from sklearn.metrics import mean_squared_error, r2_score # 评估指标 import matplotlib.pyplot as plt # 数据可视化 # 1. 加载数据集,注意文件路径 #data = pd.read_csv("D:/回归菠萝糖分检测/") data = pd.read_excel("D:/回归菠萝糖分检测/vnir+nir 分类.xlsx", sheet_name="virA") data = pd.read_excel("D:/回归菠萝糖分检测/vnir+nir 分类.xlsx", sheet_name="virdA") data = pd.read_excel("D:/回归菠萝糖分检测/vnir+nir 分类.xlsx", sheet_name="virlgA") #读取CSV/Excel数据 pd.read_csv() #CRIM: 城镇人均犯罪率 #ZN: 住宅用地所占比例 #INDUS: 城镇中非住宅用地所占比例 #CHAS: 虚拟变量,用于回归分析 #NOX: 环保指数 #RM: 每栋住宅的房间数 #AGE: 1940 年以前建成的自住单位的比例 #DIS: 距离 5 个波士顿的就业中心的加权距离 #RAD: 距离高速公路的便利指数 #TAX: 每一万美元的不动产税率 #PTRATIO: 城镇中的教师学生比例 #B: 城镇中的黑人比例 #LSTAT: 地区中有多少房东属于低收入人群 #MEDV: 自住房屋房价中位数（也就是均价） # 2. 计算相关系数并筛选变量 correlation_matrix = data.corr() #计算数据框data中所有数值型变量之间的皮尔逊相关系数矩阵 medv_correlations = correlation_matrix["MEDV"] #从相关系数矩阵中提取MEDV这一列的相关系数，得到一个Series对象，显示所有变量与房价的相关性强弱 significant_vars = medv_correlations[medv_correlations.abs() > 0.4].index.tolist() #筛选出与房价相关系数绝对值大于0.4的变量名；.abs()取绝对值（同时考虑正负相关）；.index.tolist()将符合条件的变量名转换为列表 significant_vars.remove("MEDV") # 移除MEDV本身，（因为变量与自身的相关系数总是1） print("与房价相关性较强的变量是（相关系数绝对值大于0.4）：") print(significant_vars)#展示相关性较强的特征变量，在后续建模时优先考虑 # 绘制房价分布的散点图 #Matplotlib默认不支持中文显示 plt.figure(figsize=(10, 6)) #初始化画布宽10英寸、高6英寸 plt.rcParams['font.family'] = "sans-serif" # 配置支持坐标轴和标签可以中文显示 plt.rcParams['font.sans-serif'] = "SimHei" #SimHei 是Windows系统自带的中文字体 plt.rcParams['axes.unicode_minus'] = False #修复负号可能显示为方框的问题 plt.scatter(data.index, data['MEDV'], alpha=0.5) #data.index：X轴数据（使用数据集的索引列，通常代表样本序号） #data['MEDV']：Y轴数据（房价中数值型目标变量） #alpha=0.5：设置点的透明度（0=全透明，1=不透明），用于避免点重叠时看不清分布 #添加标签和标题 plt.xlabel('样本索引') plt.ylabel('MEDV（房价中位数）') plt.title('MEDV分布的散点图') plt.grid(True) #显示网格线 plt.show() # 绘制各变量与房价的散点图 features = data.columns.drop('MEDV') # 获取除了MEDV之外的所有特征列名 plt.figure(figsize=(10, 10))#正方形画布（适合排列多个子图） for i, feature in enumerate(features): plt.subplot(4, 4, i+1) # 创建4行4列子图 #i+1 表示当前绘制的子图位置（从左上到右下按顺序编号），超过16个会报错，需调整子图行列数 plt.scatter(data[feature], data['MEDV'], alpha=0.2,s=5,color='red') #点透明度（降低重叠干扰）# 点大小（避免密集数据糊成一片）# 统一用红色标记 plt.title(f'{feature} vs MEDV')#显示特征名称与MEDV的关系标题 plt.xlabel(feature) plt.ylabel('MEDV') plt.grid() plt.tight_layout() # 自动调整子图间距（防止标签重叠） plt.show() # 3. 删除MEDV大于等于50的样本 filtered_data = data[data["MEDV"] < 50] #波士顿房价数据集中的MEDV字段存在部分样本被人工上限设置为50的情况（实际是超出50的数值被截断），这些被截断的数据会干扰模型对真实房价分布的拟合 # 4. 准备数据集 X = filtered_data[significant_vars] # 自变量（筛选后的重要特征） y = filtered_data["MEDV"] # 因变量 # 5. 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 测试集占比30% # 固定随机种子，确保每次划分结果一致（便于结果复现） #也可设置其他数值，0/1/77等，保证实验可重复性即可 # 6. 构建线性回归模型 model = LinearRegression() #初始化一个线性回归模型实例，默认使用普通最小二乘法求解参数。 model.fit(X_train, y_train) #通过最小化残差平方和来估计模型系数（权重）和截距，使得预测值与真实值的差异最小化。 # 7. 预测并评估模型 y_pred = model.predict(X_test) #生成预测值 mse = mean_squared_error(y_test, y_pred) #衡量预测值与真实值差异的平方的平均值，值越小表示模型精度越高。 r2 = r2_score(y_test, y_pred) #表示模型对数据的拟合程度，取值范围为 0 到 1，越接近 1 说明模型能解释的数据变异性越高。 # 8. 输出结果 print("线性回归模型结果：") print(f"均方误差 (MSE): {mse:.2f}")#保留两位小数 #例如，若 MSE=2.50，表示预测值与真实值的平均平方误差为 2.50。 print(f"决定系数 (R²): {r2:.2f}") #若 R²=0.85，表示模型能解释 85% 的目标变量变异性，剩余 15% 由噪声或未被纳入模型的特征解释。 # 绘制真实值与预测值的对比图 fig = plt.figure(figsize=(13, 7)) plt.plot(range(y_test.shape[0]), y_test, color='red', linewidth=1, linestyle='-') # 真实值 #以红色实线绘制测试数据的真实值，x 轴为样本索引，y 轴为目标变量值 plt.plot(range(y_test.shape[0]), y_pred, color='blue', linewidth=1, linestyle='dashdot') # 预测值 #以蓝色点划线绘制模型的预测值，便于直观比较预测值与真实值的差异 plt.legend(['真实值', '预测值']) # 添加图例 plt.title("真实值与预测值对比图", fontsize=20) # 标题 error_text = f"均方误差d={mse:.4f}\nR^2评分={r2:.4f}" # 显示误差和R²评分 #保留四位小数 #将均方误差（MSE）和决定系数（R²）格式化为文本字符串。 plt.xlabel(error_text, size=18, color="black") # 设置x轴标签为误差和评分 plt.grid() # 添加网格 plt.show() # 绘制真实值与预测值的散点图 plt.title('真实值与预测值散点图', fontsize=24) # 标题 xx = np.arange(0, 50) # 生成x轴数据，从0到49的整数序列 yy = xx # 生成y轴数据与x轴相同 plt.xlabel('* 真实值 *', fontsize=14) # x轴标签 plt.ylabel('* 预测值 *', fontsize=14) # y轴标签 plt.plot(xx, yy) # 绘制y=x线，作为理想预测的参考线 plt.scatter(y_test, y_pred, color='red') # 绘制真实值与预测值的散点图，红色标记 plt.grid() # 添加网格 plt.show() 帮我改成用决策树预测，应该怎么改

06-03

需要注意引用之前的引用内容，但用户提供的引用[1]、[2]、[3]都是关于线性回归的，所以替换时可能不需要直接引用，但需要遵循用户提供的代码结构。同时，确保代码格式正确，使用正确的LaTeX格式，比如变量用$...$，...