R上差异表达分析(准备、整合、过滤、样本离群值可视化分析)

本文详细介绍了如何在R中使用DESeq2包进行生物信息学数据分析,包括安装DESeq2,导入Linux文件到Windows,整合计数文件,过滤数据,DESeq计算以及可视化检查离群值和样本差异,涉及热图和PCA图的制作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、DESeq2包安装

二、将linux产生文件导入windows,设定Rstudio工作目录

三、从个别计数文件开始(整合、过滤、DESeq分析)

3.1整合表达矩阵,定义列名为文件名

3.2读取分组信息,定义factor和对照组

3.3过滤,表达矩阵改列名为条件信息

3.4DEseq计算(关键步骤)

四、从现有的整合计数表开始

五、可视化检查潜在的离群值、样本差错

5.1 热图

5.2 PCA图


一、DESeq2包安装

if (!requireNamespace("BiocManager", quietly = TRUE))  
    install.packages("BiocManager")  
  
BiocManager::install("DESeq2")

二、将linux产生文件导入windows,设定Rstudio工作目录

通过共享文件夹/mnt/hgvfs复制SRR3418005_count.txt和SRR3418006_count.txt

在windows上新建G:/R/TEST1作为工作目录

setwd("G:\\R\\TEST1")
#确认目前工作目录
getwd()

安装包勾选DESeq2

三、从个别计数文件开始(整合、过滤、DESeq分析)

从HTSeq输出的计数文件,如SA01.txt,SA02.txt,SA03.txt,SA04.txt

创建一个CSV文件sampleinfo.csv,并放在目录下

通过DESeq2包在R上整合,如下

3.1整合表达矩阵,定义列名为文件名

# 定义文件编号  
file_numbers <- c(01, 02,03,04)  

# 格式化文件编号为2位数字符串
formatted_numbers <- sprintf("%02d", file_numbers)  
  
# 生成完整的样本编号  
samples <- paste0("SA", formatted_numbers)  
  
# 定义一个函数来读取和处理每个样本文件  
read_sample_file <- function(sample_id) {  
    fname <- paste0(sample_id, ".txt")  
    data <- read.delim(fname, header=FALSE, row.names=1)  
    return(data)  
}  
  
# 使用lapply读取所有样本文
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值