【基因芯片】差异表达分析的基本原理与方法

本文介绍了基因芯片差异表达分析的基本原理与方法,包括杂交测序原理、数据预处理(如数据提取、过滤、补缺失值、对数转化和标准化)、差异分析中的倍数分析和假设检验(参数方法与非参数方法如SAM算法)。文章强调了数据预处理的重要性,特别是处理缺失值和噪声,并讨论了差异分析方法的优缺点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【基因芯片】差异表达分析的基本原理与方法

原文链接 https://mp.weixin.qq.com/s?__biz=Mzg4MDc2MzUwMg==&mid=2247483703&idx=1&sn=61c9d3ec29d027fe17a5098b30611342&chksm=cf717636f806ff205425bd30fba444758c8b2a3e56bdcf733b9706007612420ea9a35b39e1c0#rd
微信公众号,生信Cat

引言

生物芯片产生于1991年,其前身是分子点阵杂交技术。芯片数据在前十年使用较为广泛,但自从RNA-seq技术出现后便迅速没落,鲜有使用。不过目前GEO数据库中仍有大量的芯片数据可供挖掘,因此今天来讨论一下芯片数据的数据预处理和差异分析的基本原理。

01

基因表达的测定原理----杂交测序

杂交测序是指:提取样本总mRNA后,通过反转录过程获得标记荧光的核酸序列,然后与探针进行杂交反应后,再将未互补结合的片段洗去。对基片进行激光共聚焦扫描,测定芯片上各点的荧光强度来推算样品中各种基因的表达量。

最常见的两种技术分别为cDNA芯片和Affymetrix公司的寡核苷酸芯片。前者探针是cDNA,后者则是寡核苷酸。

02

数据预处理(pre-procession)

基因芯片的数据预处理主要包括数据提取数据过滤补缺失值对数转化标准化处理、

1,数据提取

主要目的是将高通量的荧光信号转化成基因表达数据,形成原始表达矩阵,包括探针ID,样本中每个基因对应的表达水平(荧光强度)。该矩阵可以用于后续分析。

2,数据过滤

基因芯片数据有很高的背景噪音及假阳性,数据过滤便是用于应对背景噪音的处理步骤,一般是去除表达量很小、负值或明显的噪音数据。通常是删除或赋予统一数值。

3,补缺失值

缺失值主要有两种类型,一种是随机缺失,即表达矩阵中的数据缺失与基因表达值的高低无关,是由其他因素造成的,如污染,杂交失败等,数据补缺适合这类情况。另一种是<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值