杂交后的双色cDNA芯片经过激光扫描仪扫描,可以得到每一条探针的荧光强度的检测数据,这个数据也称为探针水平的数据。这些数据用于差异表达基因的筛选和基因表达过程的分析以前,还需要对数据进行预处理:将探针水平的数据(杂交水平)转换成基因表达数据。
例如:
1. 背景校正(background adjustment):背景校正是数据预处理的第一步,序列上点的荧光强度是由背景荧光和标记DNA产生的荧光的叠加效果,所以为了得到基因真实的转录水平,应当减去背景荧光强度值。
2. 归一化(normalization):系统误差(荧光标记物在标记效率上的差异,不同点样头之间的差异等)的存在使基因水平无法直接比较(无法确认差异来源是系统误差还是真实的样本之间的误差),所以必须对微阵列数据进行归一化。
3. PM探针值校正:Affymetrix阵列中由于使用多个探针对来测量基因的表达水平,需要把这些值合并为一个值,此时需要进行PM探针值校正。
4. 汇总:最后,将前面得到的荧光强度值从探针(probe)水平转换到探针组(probest)水平,这个过程被称为汇总(summarization)。
affy包是Affymetrix公司用于分析affy芯片的探针水平数据,并计算样本的基因表达数据的工具。对于实验得到的芯片扫描图像,首先进行图像分割、探针点定位等分析。每个探针的荧光强度测量数据以cel格式的文件形式保存,文件中包含每个探针集的原始强度。cdf文件:芯片描述文件(c