R语言是一种用于统计计算与绘图的编程语言,它免费、开源,被广泛应用于统计分析、数据挖掘等领域。是应用于统计计算和统计制图的优秀工具。
完整代码放在最后
一、数据收集
所使用数据下载自GEO(https://www.ncbi.nlm.nih.gov/geoprofiles/)网站,以保证真实性。
GSM基因表达矩阵预览。其中,第一列为探针名,第一行为样本名,其余为不同样本中各个基因的表达量统计。
二、数据处理及数据清洗
通过第一部分中下载好的平台数据对表达矩阵进行预处理和数据清洗。将探针ID替换为基因名,处理掉重复的基因表达量,为后续的limma数据分析流程做准备。
*第一列已经替换为基因ID
三、数据分析
通常处理高通量数据输出差异表达分析会使用DESeq2、edgeR、limma等数据处理包,适用于处理不同特点的数据。它们都可输出logFC和P-value值。
*这里使用的是limma包,这是一个标准化的过程
标准limma流程会生成两个矩阵,分别为基因表达差异矩阵和分组矩阵,我们会在后续基因差异分析中使用到。