生物信息处理与异生物质代谢的计算方法研究
1. 信号源分离模型在基因表达分析中的应用
在混合图像数据中恢复源过程时,负“幽灵”图像的污染会阻碍相关工作。为防止这种情况,ICA 模型加入了对分布的特殊约束,使用修正高斯分布先验将源和权重矩阵限制在正域。而 CVQ 模型无需特殊约束就能进行盲源分离,采用伯努利分布自然地将源限制在非负域,防止“幽灵”图像,且无需对权重矩阵进行约束,这种灵活性使其能捕捉源对观测数据的真实负影响,对检测信号转导成分对基因表达的抑制作用很有帮助。
为测试该模型捕捉抑制效应的能力,生成了 600 个包含 8 个源的训练数据,其中两个源的权重输出在部分像素上为负。随机初始化隐藏源的参数,运行变分贝叶斯算法恢复源,该算法能正确识别潜在调节信号的数量及其权重矩阵,包括抑制(负)成分。
1.1 微阵列数据分析中的应用
将 CVQ 数据分析应用于酵母细胞周期数据。该数据集包含酵母全基因组在细胞周期中的表达测量(77 个样本),细胞周期中控制进程的细胞过程状态会周期性切换,适合测试 CVQ 模型捕捉细胞过程周期性行为的能力。
- 数据处理 :提取 697 个与细胞周期相关的基因表达模式,原始数据是标记样本 cDNA 和对照 cDNA 荧光的对数比率,在拟合模型前,通过减去每个基因的最小比率将数据转换为正值。
- 模型测试 :测试初始源数量从 8 到 30 的 CVQ 模型,每个模型运行 30 次。结果显示,对数边际似然的下界 F 在 12 到 20 个源的模型之间达到平稳,多数模型有 12 个有效源,多余源被 ARD 现象消除。初始化源数超过 20 的模
超级会员免费看
订阅专栏 解锁全文
54

被折叠的 条评论
为什么被折叠?



