原标题:GO富集分析(R包GOseq)
前面已经讲述了R包用clusterProfiler做GO富集分析clusterProfiler的GO富集分析方法,本篇继续演示R包goseq的GO富集分析。
相比clusterProfiler中的GO富集分析方法,goseq的特别之处在于,不再使用超几何分布(Hyper-geometric distribution)检验,而是使用了Wallenius non-central hyper-geometric分布。除了背景基因的数量外,它还同时考虑了基因长度信息,认为从某个类别中抽取个体的概率与从某个类别之外抽取一个个体的概率是不同的,这种概率的不同是通过对基因长度的偏好性进行估计得到的,从而其认为能更为准确地计算出 GO term被差异基因富集的概率。
goseq包的安装
对于goseq的安装也很简单,一般情况下,直接通过Bioconductor安装goseq就可以了。
!!!**************************************************
#bioconductor 安装
#install.packages('BiocManager') #需要首先安装 BiocManager,如果尚未安装请先执行该步
BiocManager::install('goseq')
!!!**************************************************
goseq的GO富集分析(有参向)
这里均对于有参考基因组的情况而言的,无参分析暂不涉及。
就以人类转录组数据为例展示GO分析的过程吧。
1、准备输入数据
需要准备两类数据。
(1)待分析的基因名称,例如这里以人类参考基因组hg38版本的ensembl id为例。把基因名称以一列的形式排开,放在一个文本文件中(例如命名“gene_select.txt”)。Excel中查看,就是如下示例这种样式。