使用DESeq2进行两组间的差异分析

最新推荐文章于 2025-04-11 13:24:51 发布

生信修炼手册

最新推荐文章于 2025-04-11 13:24:51 发布

阅读量1w

点赞数 5

文章标签： python java 大数据机器学习数据分析

本文链接：https://blog.youkuaiyun.com/weixin_43569478/article/details/108079262

版权

本文介绍了如何使用DESeq2进行两组间的差异分析，包括读取数据、归一化、估计基因离散程度和差异分析四个步骤。DESeq2假定基因表达量遵循负二项分布，通过估算的离散程度参数α值来调整log2FoldChange，以准确反映不同分组间的表达差异。在分析过程中，需注意设定对照组和对基因表达量的过滤，以确保结果的有效性和准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎关注”生信修炼手册”!

DESeq2 接受raw count的定量表格，然后根据样本分组进行差异分析，具体步骤如下

1. 读取数据

读取基因的表达量表格和样本的分组信息两个文件，其中表达量的文件示例如下

gene_id ctrl-1 ctrl-2 ctrl-3 case-1 case-2 case-3
geneA 14  0  11  4  0  12
geneB 125 401 442 175 59 200

每一行为一个基因，每一列代表一个样本。

分组信息的文件示例如下

sample  condition
ctrl-1    control
ctrl-2    control
ctrl-3    control
case-1  case
case-2  case
case-3  case

第一列为样本名，第二列为样本的分组信息。

读取文件的代码如下

# 读取表达量的表格
count <- read.table(
  "gene.counts.tsv",
  header=T,
  sep="\t",
  row.names=1,
  comment.char="",
  check.names=F)
# 预处理，过滤低丰度的数据
countData <- count[apply(count, 1, sum) > 0 , ]
# 读取样本分组信息
colData <- read.table(
  "sample.group.