bsseq 进行差异甲基化分析

最新推荐文章于 2025-10-28 09:33:47 发布

原创最新推荐文章于 2025-10-28 09:33:47 发布 · 2.6k 阅读

CC 4.0 BY-SA版权

本文介绍了如何利用bsseq包分析Whole Genome Bisulfite Sequencing (WGBS)数据，包括读取原始数据、BSmooth平滑处理、t-test检验和鉴定差异甲基化区域(DMR)。首先，通过biocLite安装bsseq包，然后读取甲基化位点的TSV文件，接着进行BSmooth平滑操作以提高分析效率。接下来，使用t-test筛选高覆盖度的位点，并对样本进行分组比较。最后，通过DMRfind进行差异甲基化分析，设定阈值筛选出显著的DMR。

bsseq 主要用来分析WGBS的数据, 安装过程如下

source(“http://bioconductor.org/biocLite.R“)
biocLite(“bsseq”)

bsseq的分析主要包括以下4步：

读取原始数据
BSmooth
t-test检验
DMR

1. 读取原始数据

bsseq要求的原始数据格式如下：

共6列数据，制表符分隔，每一行代表一个甲基化位点，前5列很好理解，描述甲基化位点的染色体位置和类别，默认情况下bbseq用于分析CpG类型的甲基化位点。当然其他类型的数据，比如CHG, CHH也支持，但是需要调整参数。Cov代表覆盖到这个位点的reads数，M代表其中发生了甲基化的reads数目。

每个样本一个这样的原始数据，用来表示该样本methylation calling的结果，这样的数据我们从bismark的结果中也可以得到。当原始数据准备好之后，首选需要读取所有样本的原始数据，然后导入到R中，生成一个bbseq定义的对象。在bbseq安装的路径下，提供了一个名为get_BS.chr22.R的脚本，展示了如何从读取所有样本原始数据的过程。

代码如下