微阵列数据中调控关系的发现
1. 引言
在生物信息学领域,我们面对的数据量与日俱增,这些数据描绘了不同生物体的结构和功能。实验室和临床环境中不断产生着如序列(核苷酸、蛋白质)和基因活性(mRNA 表达比率)等实验数据。不断扩充的数据集催生了对新型数据挖掘技术的需求,这些技术能够发现研究中生物实体间的潜在关系,并整合不同来源的数据。
微阵列技术于九十年代问世,可用于并行研究特定生物体中所有基因的表达情况,其终极目标之一是揭示基因间的调控途径。微阵列时间序列实验旨在研究显著的动态表达模式,探究哪些基因调控其他基因。我们区分了共调控和受控调控:当两个基因相对丰度的一阶导数相同时,为正共调控;相反时,为逆共调控;当一个或多个调节基因的表达直接影响目标基因的表达时,为受控调控。
传统聚类技术未考虑转录后和翻译后的滞后时间,而基因表达水平间的滞后可能蕴含着调控线索。因此,我们提出一种基于时间进程微阵列数据的新型数据挖掘方法,通过预处理步骤将基因表达时间信号转化为“显著特征”,训练动态贝叶斯网络预测特定目标基因的调控事件。
2. 微阵列数据
我们的目标是发现并解读基因相对表达间的统计关系,为此需选择合适的时间序列微阵列数据表示方案。通常,每个点代表特定基因 mRNA 的平均相对(对数)表达,基因的表达比率可视为连续随机变量。我们将阵列数据离散化为三类:变化、局部最小值和局部最大值,这与其他区分上调、中调和下调基因表达的方法不同,我们的表示方式能捕捉表达比率的局部动态。
2.1 插值
计算每个基因的导数需应用(线性)滤波器,这要求信号在时间上均匀采样。我们使用线性最近邻方案对非均匀采样的时间序列进行插值,因为