【GEO Database - 2】sva-ComBat函数去除批次效应

最新推荐文章于 2025-11-10 10:42:47 发布

原创

最新推荐文章于 2025-11-10 10:42:47 发布 · 2.1w 阅读

145 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

本文介绍了如何通过 Combat 方法处理并消除高通量数据中的批次效应，以确保不同批次样本间的可比性。在详细阐述批次效应概念和去除原因之后，展示了具体的操作步骤，包括数据读入、合并、批次信息处理以及使用 R 语言中的 sva 包进行 Combat 处理。最后，通过 HeatMap 和 PCA 分析展示了批次校正前后的显著差异，证明了 Combat 方法的有效性。

一、什么是批次效应（batch effect）

芯片批次效应是在处理过程中由于技术原因（非生物因素）而添加到样本中的变异。
1、包括使用的扩增试剂的批次，测定完成的时间，甚至大气臭氧水平。如样本制备中的系统变化，扫描仪的差异。
2、还有就是用道不同平台（Illumina/affymetrix）的芯片数据做分析的时候。

二、为什么要去除批次效应？

其他潜在的批次效应在长期研究和meta分析中往往是不可避免的。
标准化虽然可以调整各个样本的测量的全局属性，从而可以更加适当地进行比较。但是，标准化不会消除批次效应。在某些情况下，这些标准化程序甚至可能在高通量测量中加剧技术人为因素。
所以，在处理不同批次的样本时我们需要去除批次效应。

三、处理过程

1、环境搭建

setwd("C:/Users/Administrator/Desktop/lab4-combat-PCA-st/data")
if (!requireNamespace("BiocManager", quietly = TRUE))
  install.packages("BiocManager")

BiocManager::install("sva")
library("sva")

2、读入已标准化过的数据

标准化处理详见用Bionconductor的affy包处理.cel文件

GSE32676 <- read.table("GSE32676_rma_symbol.txt",header=T,row.names=1,sep="\t")
GSE41368 <- read.table("GSE41368_rma_symb

最低0.47元/天解锁文章