目录
前记
RNA-seq技术是研究基因表达的常用方法之一,其表达丰度计算是RNA-seq数据分析的重要步骤之一。
RNA-seq表达丰度计算的基本流程如下:
-
序列比对:将测序数据比对到参考基因组,得到每个基因的计数。
-
转录本重构:使用转录本拼接软件,如Cufflinks或StringTie,将比对后的 Bam/Sam 文件转换为每个转录本的表达值。这里的转录本可能是已知的基因、未知的基因或转录本。
-
表达值的归一化:考虑样本间的技术差异和表达量大小的影响,对表达值进行归一化。常用的归一化方法包括RPKM、FPKM、TPM等,其中TPM是近年来推出的一种比较推荐的归一化方法。
-
差异表达分析:通过比较不同样本下的基因或转录本表达值,识别差异表达的基因或转录本。差异表达分析常用的软件包括DESeq2、edgeR和limma等。
-
基因本体注释和通路分析:将差异表达的基因或转录本进行功能注释,通常使用基因本体注释(GO)和通路分析(KEGG)等方法。这一步有助于研究人员理解基因在生物学过程中的功能和调控机制。
总的来说,RNA-seq表达丰度