【基因芯片】差异表达分析的基本原理与方法
原文链接 https://mp.weixin.qq.com/s?__biz=Mzg4MDc2MzUwMg==&mid=2247483703&idx=1&sn=61c9d3ec29d027fe17a5098b30611342&chksm=cf717636f806ff205425bd30fba444758c8b2a3e56bdcf733b9706007612420ea9a35b39e1c0#rd
微信公众号,生信Cat
引言
生物芯片产生于1991年,其前身是分子点阵杂交技术。芯片数据在前十年使用较为广泛,但自从RNA-seq技术出现后便迅速没落,鲜有使用。不过目前GEO数据库中仍有大量的芯片数据可供挖掘,因此今天来讨论一下芯片数据的数据预处理和差异分析的基本原理。
01
—
基因表达的测定原理----杂交测序
杂交测序是指:提取样本总mRNA后,通过反转录过程获得标记荧光的核酸序列,然后与探针进行杂交反应后,再将未互补结合的片段洗去。对基片进行激光共聚焦扫描,测定芯片上各点的荧光强度来推算样品中各种基因的表达量。
最常见的两种技术分别为cDNA芯片和Affymetrix公司的寡核苷酸芯片。前者探针是cDNA,后者则是寡核苷酸。
02
—
数据预处理(pre-procession)
基因芯片的数据预处理主要包括数据提取,数据过滤,补缺失值,对数转化,标准化处理、
1,数据提取
主要目的是将高通量的荧光信号转化成基因表达数据,形成原始表达矩阵,包括探针ID,样本中每个基因对应的表达水平(荧光强度)。该矩阵可以用于后续分析。
2,数据过滤
基因芯片数据有很高的背景噪音及假阳性,数据过滤便是用于应对背景噪音的处理步骤,一般是去除表达量很小、负值或明显的噪音数据。通常是删除或赋予统一数值。
3,补缺失值
缺失值主要有两种类型,一种是随机缺失,即表达矩阵中的数据缺失与基因表达值的高低无关,是由其他因素造成的,如污染,杂交失败等,数据补缺适合这类情况。另一种是<