脑影像基因组学中的机器学习应用
脑影像基因组学是近年来新兴的研究领域,随着高通量基因分型和多模态成像技术的进步而兴起。它主要研究遗传标记(如单核苷酸多态性,SNPs)与从多模态神经影像数据中提取的定量特征(QTs)之间的关联。将遗传数据与影像表型关联起来,而非疾病状态,对于发现有影响力的遗传结构以及揭示早期大脑变化以进行预后具有重要意义。
1. 影像基因组关联挖掘方法
1.1 单基因座分析
早期脑影像基因组学研究多聚焦于单个SNP与单个影像QT之间的配对关系。通常使用简单线性回归模型,如PLINK中实现的模型,来检验每个SNP对每个影像QT的加性效应。该模型公式为:
[y = X_{cov}w_{cov} + X_{s}w_{s} + \epsilon]
其中,(X_{cov})表示协变量(如年龄和性别),(X_{s})是待检验SNP的基因型,(y)是影像QT,(\epsilon)是误差项。
此加性模型常用于等位基因关联测试,也可研究显性、隐性或其组合效应。为捕获更多表型变异,还会研究SNP与环境因素或SNP之间的交互作用。此外,广义线性模型(GLM)也会被使用,它将等位基因、显性和隐性效应作为分类预测变量。
线性回归通常与假设检验结合,以同时获得回归系数和相应的统计值。例如,假设误差项(\epsilon)服从正态分布,(w_{s})的t统计量可通过以下公式计算:
[t = \frac{w_{s}}{SE}]
其中,(SE)是(w_{s})的标准差。p值用于评估偶然观察到相同或更大统计量的概率,p值越小,基因型 - 表型关系越显著。
在大量单变量SNP - QT关联测试中,每个