2020.10.21【R语言】丨 undefined columns selected 问题解决办法

穆易青

已于 2022-03-24 11:43:46 修改

阅读量2.6w

点赞数 34

CC 4.0 BY-SA版权

分类专栏： RNA-seq R语言心得文章标签： windows

于 2020-10-21 14:44:19 首次发布

本文链接：https://blog.youkuaiyun.com/yangl7/article/details/109200964

RNA-seq 同时被 3 个专栏收录

48 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

R语言

55 篇文章

订阅专栏

心得

51 篇文章

订阅专栏

最近做RNA-seq项目的时候准备用R的boxplot()工具画一个各个样品的箱线统计图。

然而，在运行脚本后报错

Error in `[.data.frame`(fpkm, , c("MB7409-A", "MB7409-B", "MB7409-C", :
undefined columns selected
Calls: [ -> [.data.frame
Execution halted

抓取数据列的命令哪里错了呢？
打开输入的数据框和脚本做对比
- 数据是这样的
- 获取数据列的脚本是这样的
对需要比较的数据列输入应该是正确的，但是为什么会报错？别急，我们用R读取文件后再看看
- 如图所示

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

穆易青

关注关注

34
点赞
踩
25

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

2024.08.11【R语言】丨undefined columns selected 问题详细解析及解决方案

08-11

677

有很多人来看，随着大语言模型的出现，对问题的整理和分析也更加全面，这篇文章就是我使用大语言模型深入剖析在R语言编程中经常遇到的 “undefined columns selected” 错误，提供了成因分析、解决方案以及预防策略，旨在帮助数据科学家和R语言用户避免和解决这一常见问题。📚 我承诺，将持续为您带来深度与广度兼具的数据科学内容，让我们一起在知识的海洋中遨游，发现更多未知的奇迹。很多年前之前写了一篇。

R语言为dataframe添加新的数据列（add new columns）：使用R原生方法、data.table、dplyr等方案

data+scenario+science+insight

03-26

1万+

R语言为dataframe添加新的数据列（add new columns）：使用R原生方法、data.table、dplyr等方案

5 条评论您还未登录，请先登录后发表或查看评论

Error in [.data.frame(data, c(i, j)) : undefined columns selected

weixin_42610671的博客

02-15

6805

这个错误是因为你在对数据框进行子集选择时，指定的列名(i和j)不存在于数据框中，导致选择出错。可能的原因包括：你打错了列名。列名包含空格或其他非法字符。数据框中确实不存在你指定的列名。解决方法包括：检查列名是否正确，确保没有打错或包含非法字符。使用列的索引号而不是列名进行子集选择。检查数据框是否包含你需要的列，可能需要重新导入数据或对数据进行清洗。 ...

有意思的undefined columns selected，源于read.table和read.csv

weixin_34293059的博客

04-12

3425

输入以下语法时： read.table(site_file,header=T)->data data<-data[which(data[,5]=="ADD"),] 出现： Error in `[.data.frame`(data, , 5) : undefined columns selectedCalls: plot_manhatton -> [ -> [.d...

关于R常报错问题及解决办法（持续更新中）

weixin_45925478的博客

03-22

6031

1.导入数据时，将数据框中数据转化数值型报错方案：unlist（） as.numeric.(unlist()) 2.无法使用rstudio或者R安装程序包 Warning in install.packages:unable to access index for respository 原因可能是镜像问题，重新选一个镜像方案： chooseCRANmirror() #选择相应的镜像——国内...

Grid Template Columns Error(解决方案).md

08-31

Grid Template Columns Error(解决方案).md

R语言报错选择了未定义的列怎么解决

corianderTiramis的博客

03-19

7829

选择了未定义的列报错

使用R软件做词云时遇到的一些问题

qq_45642410的博客

05-21

4492

1、R语言读取文件时出现报错：Error in make.names(col.names, unique = TRUE) : 多字节字符串1有错在后面加上 encoding = “UTF-8” 就可以了但这种情况也可能是因为文件本身格式不正确导致的，就需要去修改一下文件的格式，比如我的数据文件原本导出的文件应该是 .xls 类型的，但我强行修改保存的文件格式为 .csv , 就导致了这个报错，虽然加上 encoding = “UTF-8” 表面看没问题了，但是后面进行读取操作的时候还是出现 bug

探索性数据分析

huguozhiengr的博客

01-05

2万+

探索性数据分析（Exploratory Data Analysis，EDA）是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法，该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型，然后依据数据样本来估计模型的一些参数及统计量，以此了解数据的特征，但实际中往往有很多...

第三课实验

csh1951914的博客

10-26

509

> x1=rnorm(100,mean=80,sd=5)> x1 [1] 79.35007 83.11081 76.33307 79.00368 80.66916 83.94332 79.51286 79.2225...

R语言--数据框

AnneQiQi的博客

05-22

7557

数据框数据框是一种矩阵形式的数据，数据框各列中的数据可以是不同类型的数据。数据框每一列认为是一个变量，每一行是一个观测；看以看做是矩阵的推广。数据框的生成函数：data.frame() 列入数据框列表的限制： 1：他的分量必须是向量 ---- 数值，字符，逻辑 -----因子 -----数值矩阵 -----列表 ------其他数据框（实现了数据框的嵌套） 2：矩阵、

【pandas】[2] DataFrame 基础，创建DataFrame和增删改查基本操作（1）

最新发布

03-26

<think>嗯，用户遇到了R语言中的“undefined columns selected”错误，需要解决这个问题。让我先回忆一下相关的知识。这个错误通常在使用数据框时，尝试选择不存在的列时出现。比如，用户可能拼错了列名，或者列名中有特殊字符没有正确处理。另外，使用索引的时候如果超出列数也会出现这个问题。根据用户提供的引用内容，比如引用[3]提到，检查列名是否正确，使用索引号或者确保数据框包含所需列。引用[2]则建议详细解析这个问题，包括列名错误、索引越界、动态生成列名未更新等情况。用户在使用Read10X函数时遇到了这个问题，可能跟数据中的列名有关，比如gene.column参数是否正确，或者数据格式是否有问题。接下来，我需要整理解决方案的步骤。首先，用户需要确认列名是否存在，可以用names()或colnames()函数查看。然后检查是否有拼写错误或者特殊字符，可能需要用反引号包裹列名。如果是用索引的话，要确保不超过列的总数。此外，动态生成列名的时候，比如使用变量，要确保变量值正确。如果数据框确实缺少需要的列，可能需要重新导入数据或者进行数据清洗。用户提到的Seurat包读取10X数据报错，可能涉及到gene.column参数设置不正确，或者数据文件中features的结构不符合预期。需要检查gene.column的值是否有效，比如1、2或'GeneSymbol'等，并确认数据目录是否正确，文件是否存在。总结起来，解决方案应该分步骤，从检查列名、处理特殊字符、索引检查、动态变量确认到数据重新导入等。同时，针对用户的具体情况，比如使用Read10X函数，给出更具体的建议，比如检查gene.column参数和数据文件结构。另外，用户可能需要了解如何避免这类错误，比如在编程时使用exists()函数检查列是否存在，或者在选择列之前打印列名进行确认。最后，生成相关问题可以帮助用户进一步理解类似的问题，比如其他选择错误、处理特殊字符的方法，或者Seurat包的其他常见问题。</think>### R语言中“undefined columns selected”错误的解决方案当在R语言中对`data.frame`进行列选择时，出现**“undefined columns selected”**错误，通常是由于尝试访问不存在的列名或列索引。以下是逐步排查和解决方法： --- #### **1. 检查列名是否存在** 直接原因：**列名拼写错误**或列名包含特殊字符（如空格、符号）未正确处理。 **解决方法**： - 使用`names(df)`或`colnames(df)`查看数据框所有列名，确认目标列是否存在。 - 若列名包含特殊字符（如`Gene Symbol`），需用反引号包裹： ```r df$`Gene Symbol` # 或 df[["Gene Symbol"]] ``` - 示例： ```r # 错误示例：列名是"Gene_Symbol"，但用户输入"GeneSymbol" df[, "GeneSymbol"] # 报错 # 正确示例 df[, "Gene_Symbol"] ``` --- #### **2. 检查列索引是否越界** 直接原因：**列索引超出数据框实际列数**。 **解决方法**： - 使用`ncol(df)`查看总列数，确保索引值在`1:ncol(df)`范围内。 - 示例： ```r # 错误示例：数据框只有5列，但尝试选择第6列 df[, 6] # 报错 # 正确示例 df[, 1:5] # 选择前5列 ``` --- #### **3. 检查动态生成的列名** 直接原因：通过变量选择列时，**变量值未正确赋值**。 **解决方法**： - 打印变量值确认是否匹配实际列名： ```r target_column <- "GeneSymbol" print(target_column) # 检查实际值 df[, target_column] ``` --- #### **4. 重新导入数据或清洗数据** 直接原因：数据框实际缺少所需列，可能因数据读取错误或预处理遗漏。 **解决方法**： - 重新导入数据，检查文件路径、分隔符和编码： ```r df <- read.csv("data.csv", header = TRUE, check.names = FALSE) ``` - 清洗数据，确保目标列未被意外删除： ```r df <- df[, c("保留列1", "保留列2")] # 明确指定需保留的列 ``` --- #### **针对Seurat包读取10X数据的特殊场景** 在`Read10X()`函数报错时，需检查**基因信息列（gene.column）**是否与数据文件匹配[^1]： - **gene.column参数**：通常为1（基因ID）或2（基因符号），或直接指定列名（如`"GeneSymbol"`）。 - **数据文件验证**：检查`features.tsv`或`genes.tsv`文件格式是否标准，确保列数正确。示例修复代码： ```r # 指定gene.column为2（基因符号） data <- Read10X(data.dir = "path/to/data", gene.column = 2) ``` --- #### **总结流程** 1. **验证列名**：`names(df)`确认是否存在目标列。 2. **处理特殊字符**：用反引号包裹非常规列名。 3. **检查索引范围**：`ncol(df)`验证索引有效性。 4. **重新导入数据**：确保数据读取完整。 5. **动态变量调试**：打印变量值检查匹配性。 ---