探究联邦图神经网络的预测可重复性
1 研究背景与目标
在医疗数据分散化的背景下,本地训练的图神经网络(GNN)模型的可重复性成为一个关键问题。为了确保高准确性、处理分散数据集并识别最具可重复性的判别特征,我们将 GNN 模型进行联邦学习,并通过随机数据分割来扰动训练和测试医疗数据分布,从而量化其可重复性。我们的框架将 RG - Select 的开创性工作推广到联邦模型,旨在通过量化全局模型的可重复性,识别跨本地医院最具可重复性的 GNN 模型及其相应的生物标志物。
主要贡献如下:
1. 对预测性 GNN 模型进行联邦学习,并应用于医学成像和连接组数据集。
2. 研究并量化联邦 GNN 模型的可重复性。
3. 识别用于神经系统疾病诊断的最具可重复性的生物标志物。
2 提出的方法
2.1 框架概述
我们的联邦可重复性量化框架流程如下:
1. 将整个数据划分为 H 个不同的子集,每个子集代表特定医院的本地数据。
2. 使用联邦学习在每个本地数据集上训练不同的 GNN 模型。
3. 训练完成后,提取每个本地训练的 GNN 模型识别出的前 K 个判别生物标志物(特征)。
4. 为每个医院生成一个特定于医院的 GNN - GNN 可重复性矩阵,其中每个元素表示由成对的本地训练 GNN 模型提取的前 K 个生物标志物集之间的重叠比率。
5. 通过对所有特定于医院的可重复性矩阵求平均值,构建全局可重复性矩阵。
6. 通过识别全局平均可重复性矩阵中与其他节点重叠度最高的中心节点,确定联邦过程中跨医院最具可重复性的 GNN 模型。然后使用所选模型识别最具可重复性的