基因表达矩阵中排除表达量低的样本和基因

最新推荐文章于 2025-09-17 23:31:29 发布

原创

最新推荐文章于 2025-09-17 23:31:29 发布 · 1.5w 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#r语言 #矩阵 #线性代数

在构建基因表达矩阵后，为了PCA分析和差异基因研究，通常需要剔除表达量低的样本和基因。通过使用R语言的`colSums`函数，可以筛选出基因在所有样本中表达量总和大于0的，以及至少在2个样本中表达的基因。同时，还需确保样本至少表达2个基因。这一过程能有效减少矩阵大小，便于后续分析。

构建基因表达矩阵的时候，其基因个数和样本个数都会达到成千上万个，这时在做PCA分析或者差异基因分析前最好排除表达量低的样本和基因

#加载相应的安装包
library(tidyverse)
#例子如下
gdf <- tibble(g = rnorm(4, 0.5, 0.5), v1 = rnorm(4,1,0.5), v2 = rnorm(4, 1.5, 0.5) 
gdf <- gdf%>% mutate(v3 = rep(0,4)) 
gdf

Output:

# A tibble: 4 x 4
       g    v1    v2    v3
   <dbl> <dbl> <dbl> <dbl>
1 0.718  1.48  0.646     0
2 0.0799 1.60  1.40      0
3 0.925  0.715 1.26      0
4 0.217  1.05  1.76      0

横坐标为样本，纵坐标为基因，此时可以看做有4个基因，4个样本：
如果我们要排除在所有样本中表达量均为0的基因（即v3），可以用colSums函数：

colSums(gdf)>0

Output:

    g    v1    v2    v3 
 TRUE  TRUE  TRUE FALSE

筛选所有样本中表达量的和大于0的基因：

gdf [,colSums(gdf)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lazymark2

关注关注

2
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

GEO生信数据挖掘（四）数据清洗（离群值处理、低表达基因、归一化、log2处理）

zzh1464501547的博客

09-27

1万+

检索到目标数据集后，开始数据挖掘，本文以阿尔兹海默症数据集GSE1297为例，数据清洗（离群值处理、低表达基因、归一化、log2处理）

GEO数据挖掘构建基因表达矩阵

xiaobai1_1的博客

12-04

2万+

1、GEO数据库介绍 GEO全称GENE EXPRESSION OMNIBUS，由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。创建于2000年，收录世界各国研究机构提交的高通量基因表达数据。 GEO上有四类数据GSM, GSE, GDS, GPL 1.GSM是单个样本的实验数据 2.GDS是人工整理好的关于某个话题的GSM的集合，一个GDS中的GSM的平台是一样的 3.GSE是一个...

参与评论您还未登录，请先登录后发表或查看评论

表达矩阵处理0值-R语言去除含特定数目0值的行

tRNA的博客

02-21

1777

表达矩阵处理0值，去除特定数目0值

建议对下载的geo原始数据进行低表达基因过滤**，这是数据预处理的关键步骤之一，可提升后续分析（如差异表达、WGCNA）的准确性和可靠性

最新发布

论文数据分析辅导,；论文人工智能辅导 huazhongxiaosx

09-17

631

在基于GEO数据集（如你研究中涉及的GSE66187、GSE32967等）的分析中，，这是数据预处理的关键步骤之一，可提升后续分析（如差异表达、WGCNA）的准确性和可靠性。

倚树探星的博客

04-20

2908

接上一篇文章，现在开始筛选数据组成count矩阵。上一篇：TCGA下载GBM患者的RNA-seq数据上一篇结束，下载到初始数据（图一图二是下载之后的文件夹以及每一个文件夹中的count数据文件）需要从每一个count数据文件中筛选出gene_name、gene_type为lncRNA、FPKM表达量，效果图如下：由于不会R语言，就用python来实现步骤：从每一个文件夹中提取出来count数据文件，整理到一个新文件夹中将所有count数据文件中需要的列提取出来，整合到一个文件中.

如何对一个Seurat过滤低表达范围的基因

qq_42198071的博客

03-28

1330

for seurat, to filter genes in a seurat object mca2=CreateSeuratObject(mca@assays$RNA@data,assay = "RNA",min.cells = 10,meta.data = mca@meta.data)

基因表达分析（前传）-准备count矩阵

weixin_34129696的博客

06-03

1901

还在利用hisat, tophat这些耳熟能详的软件将read比对到基因组（转录组）上，然后统计每个基因的count数么？试试这些不需要比对，速度更快的工具吧。 Salmon(Patro et al. 2016), Sailfish (Patro, Mount, and Kingsford 2014)...

稳健贝叶斯双样本检验：基因差异表达检测新方法

### 稳健贝叶斯双样本检验：基因差异表达检测新方法 #### 1. 高斯过程模型基础在基因表达分析中，高斯过程模型是一种强大的工具。对于观测到的表达水平，其协方差矩阵与超参数 $\theta_K$ 相关，但为了清晰起见，...

高性能计算在发动机模拟与基因表达数据分析中的应用

### 高性能计算在发动机模拟与基因表达数据分析中的应用在当今的科研领域，高性能计算技术在多个学科中发挥着至关重要的作用。本文将聚焦于两个不同但同样重要的领域：发动机模拟和基因表达数据分析，探讨相关的...

geo差异表达分析_如何极其简单的使用GEO数据来做差异分析

weixin_34379040的博客

12-31

5652

无论你是要看某个基因是否差异表达或者筛选某个GEO数据集的差异基因，这个方法绝对能够帮助你事半功倍首先假设你已经找到了一套数据GSE32323这套数据共包含44个样本，其中有17个配对的癌与癌旁样本我们先下载数据，如图然后使用GEO芯片数据转换器提取出表达矩阵和样本信息表 (不会提看这里)如图：打开SampleInfo.xls文件编辑样本顺序和分组最终修改后的样本信息表为(为什么cancer排在前...

复现《NC》图表（二）：R语言一键画表达量箱线图并添加显著性

qq_42090739的博客

12-13

1万+

我们接着重现NC这篇文章的Figure2，这篇文章里有很多这样的箱线图，这也是这个重现系列重点要讲的内容。原文作者提供了这部分代码，对于所有图提供了详细的数据，可以参考作图。这里重现的重点在于批量画图，利用循环，可以一劳永逸，一次性画图多个图，省时省力！ 1、数据整理画图数据需要两个文件，一个是表达量数据，列为样本，行为基因。另外一个是注释信息，是关于样本分组的。表达数据：样本信息： 2、作图详细过程第一步加载需要的R包： library(RColorB

4、比较基因组学基础

melon的博客

06-06

本博文系统介绍了比较基因组学的定义、目标及其发展历程，探讨了其关键技术如序列比对、基因注释和基因组可视化，并结合实际案例分析了该学科在医学、农业等领域的重要应用。同时，文章展望了未来研究方向，包括深入解析基因组结构与功能、探索新的基因组进化机制以及开发更高效的分析工具。

生信小博士的博客

10-29

7046

1.已经确定研究的基因，但是想探索他潜在的功能，可以通过跟这个基因表达最相关的基因来反推他的功能，这种方法在英语中称为。2.我们的注释方法依赖于TCGA大样本，既然他可以注释基因，那么任何跟肿瘤相关的基因都可以被注释，包括长链非编码RNA。这时候，我们能推断PDCD1这个基因主要参与T细胞激活，细胞因子受体活性调剂等功能，大致跟她本身的功能是一致的。既然确定了相关性是正确的，那么我们用我们筛选的基因进行富集分析就可以反推这个基因的功能。这里因为是计算的所有GO分析的三个分类，所以可以合并作图。

r语言大作业——基因表达矩阵分析

zhanghongyi_cpp的博客

03-20

1094

（1）利用主成分分析（PCA）对基因表达矩阵进行降维，并绘制PCA图。（2）筛选在所有样本中表达值均大于0的所有基因。（3）做聚类分析并绘制基因表达热图。

小白生信入门学习记录【1】什么是基因的表达矩阵

weixin_55419726的博客

02-22

5436

基因的表达矩阵 基因表达的数据通常使用表达矩阵来表示。其中矩阵的行代表某个基因在不同样本（不同处理，或时间点等）中的表达水平，列表示某个样本中各个基因的表达水平。欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你

seurat gene expression matrix基因表达矩阵数据

weixin_46021869的博客

11-26

3379

seurat 表达矩阵访问 seurat有个active assay，它其中存的就是表达矩阵，用pbmc[[“RNA”]]@counts就可以访问数据标准化后的基因表达矩阵放在：pbmc[[“RNA”]]@data

GEO学习笔记-P3 表达矩阵过滤

weixin_47855187的博客

04-01

2597

学习材料：【生信技能树】公共数据库挖掘实例（基于R语言） bilibili版本以及后续更新课程中的github材料为基础。本章节是以：【生信技能树】公共数据库挖掘实例（基于R语言）为基础，进行的代码复现与注释，章节标注以之为准。【生信技能树】公共数据库挖掘实例（基于R语言）_哔哩哔哩_bilibili今天小编给大家带来的是由我们jimmy大大亲自录制的公共数据库挖掘实例~纸上得来终觉浅，绝知此事要躬行，一起跟着大大来实践吧~https://www.bilibili.com/video/BV1Lt4.

（超详细）零基础RNA-Seq分析：表达矩阵的获取（Window系统下）

AzureDawn的博客

03-19

2588

使用Windows下Linux子系统对RNA-Seq进行分析：从fastq到表达矩阵。

生物信息学入门根据表达矩阵和差异表达基因列表制作差异表达矩阵