神经影像遗传学中的核机器回归
1. 引言
近年来,生物医学数据量急剧增长,涵盖了日益易获取的医学图像和基因组序列。能够整合不同资源、从海量数据中提取可靠信息并揭示生物变量间真实关系的技术,在生物医学研究中变得至关重要。
核方法是一类机器学习算法,用于研究数据集中的各种关系,如分类、聚类和相关性,在高维和非线性环境中表现出色。其基本思想是,通过用户指定的特征映射将数据点从原始表示转换到更高维的特征空间,能更轻松地揭示或建模数据点之间的关系。然而,实际中特征映射的显式形式往往未知,且高维映射的计算成本高昂。核方法通过使用核函数解决了这一问题,该函数衡量原始空间中数据点对的相似度,隐式定义了特征空间和特征映射,而无需实际访问它们。这使得核方法具有高度灵活性,可应用于多种数据类型。
核机器回归(KMR)是一种非参数回归方法,是核方法在回归分析中的应用。它将具有复杂非线性关系的数据隐式地在更高维特征空间中操作,在该空间中线性回归模型足以描述转换后的数据。近年来,KMR与统计中的混合效应模型建立了联系,推动了其在生物医学研究中的应用,尤其是在遗传学领域。
2. 数学基础
2.1 从回归分析到核方法
KMR是一种非参数回归方法。假设第 $i$ 个受试者的定量特征为 $y_i$,多维属性为 $z_i$,且 $y_i$ 依赖于 $z_i$ 通过未知函数 $f$:
$y_i = f(z_i) + \epsilon_i$,$i = 1, 2, \cdots, n$
其中 $\epsilon_i$ 独立服从均值为 0、方差为 $\sigma^2$ 的高斯分布。核方法的思想是用特征映射 $\phi$ 近似 $f$,将属