差异表达分析通常作为根据基因表达矩阵进行生物信息学分析的第一步,有助于我们观察基因在不同样本中的表达差异,从而确定要研究的基因和表型之间的联系。常用的基因表达数据来自基因芯片或高通量测序。虽然矩阵看起来差不多,但是由于服从不同的分布,因此在进行差异表达的时候需要用不同的方法。对于一般的生命科学领域科研人员来说,了解晦涩的算法并没有太大价值。本文力求精简,从数据——算法——结果三个方面给出最简单的示范。注意:文中代码仅适用于基因芯片的counts数据!使用的是limma算法!
基于TCGA的FPKM数据进行差异表达的算法可以参考:(还没写,过几天补充)
1.数据准备
数据准备包括表达矩阵和分组矩阵。
表达矩阵:
分组矩阵
第一列为样本名称,第二列为组名称,注意每一列都要有列名
2. 使用Limma包进行差异分析
首先要安装limma包和gplots包
source("http://bioconductor.org/biocLite.R")
biocLite("Limma")
biocLite("gplot