利用开放的神经影像数据集来理解大脑

我们现在正处于一个脑部影像数据随手可得的时代。研究人员不仅比以往任何时候都更愿意分享数据,而且大规模的数据收集计划也在进行中,其愿景是让未来众多研究人员能够对这些数据进行二次分析。在此,本文概述了可获取的数据集和一些使用案例。使用案例包括研究个体差异、获得更稳健的研究发现、可重复性研究(既包括公开的输入数据,也可作为重复验证样本),以及方法开发。我们进一步讨论了使用现有数据时的各种注意事项以及大型数据集带来的机遇。文中还提供了关于普通神经影像学和特定主题讨论的进一步阅读建议。本文发表在Neuroinformatics杂志。

引言

      现在是研究人类大脑发育、衰老或健康个体与各类神经疾病患者之间差异的大好时机——已经采集的开放获取的核磁共振(MRI)数据量十分庞大。只要您对现有的数据采集方案满意(例如,不需要开发新的核磁共振序列或认知任务),那么用于测试新的大脑结构、连接性或任务相关激活测量方法所需的数据可能只需点击下载就能获得。数据共享具有无数好处,它可以让研究人员随时评估新的研究问题、增强可重复性、为新方法开发提供初步的"试点"数据,并降低神经影像研究的相关成本(Mar等,2013;Poldrack和Gorgolewski,2014;Madan,2017;Milham等,2018)。虽然需要考虑过度拟合特定数据集的问题(Madan,2017),也称为"数据集衰减"(Thompson等,2020),但在我们必须获取新数据之前,这些现有数据集仍然能让我们学到很多东西。

      近几年来,数据共享的可获得性大大提高,这在很大程度上要归功于"科学数据管理和管理的FAIR指导原则"的制定(Wilkinson等,2016):数字资产的可查找性(Findability)、可访问性(Accessibility)、互操作性(Interoperability)和可重用性(Reuse)。遵守FAIR准则的工作进一步得到了一致的文件组织标准(即脑影像数据结构;BIDS)的促进(Gorgolewski等,2016)。其他标准和指南也在推进该领域的方法学严谨性,例如数据分析和共享最佳实践委员会(COBIDAS)MRI(Nichols等,2017)以及其他最佳实践建议(Eglen等,2017;Shenkin等,2017)。典型的MRI研究可以通过包括OpenNeuro在内的平台轻松共享(Poldrack和Gorgolewski,2017),这使得其他研究组可以进一步分析数据,并评估分析的可重复性,尽管大规模项目可能需要更专门的基础设施(稍后讨论)。

      在此,我将重点关注大规模神经影像数据集的可用性,这些数据集帮助我们摆脱该领域仍然普遍存在的统计检验力问题(Button等,2013;Zuo等,2019),更进一步地理解大脑。这种向大规模数据集转变对个体分析也很重要,因为这些大型数据集为从群体平均转向比较个体参与者的统计数据提供了更有意义的机会(Dubois和Adolphs,2016),并通过多模态采集和高采样个体得到加强,从而对个体大脑及其相对差异提供更丰富的见解。Naselaris等(2021)就在采样更多个体与从少数个体获取更多实验数据之间的权衡(例如,考虑固定的总扫描时间)提供了富有见地的讨论,如图1所示。

图片

图1 参与者数量与每位参与者数据量之间的权衡

      注意,自该图生成以来,一些数据集的规模已经增加(例如,IBC现在每位参与者的数据更多);一些数据集未在本综述中介绍,例如VIM-1。

      在设计大规模数据集时需要考虑的因素其重要性不容忽视。例如,2013年《神经影像》(NeuroImage)特刊(第80卷)讨论了与人类连接组项目(HCP)设计相关的众多主题(如Van Essen等,2013),2018年《发展认知神经科学》(Developmental Cognitive Neuroscience)(第32卷)也对青少年大脑认知发展(ABCD)联盟进行了类似讨论(如Casey等,2018)。虽然在自己的研究中使用这些数据集相对容易,但我认为了解它们在开发时所考虑的因素也很重要。例如,对于ABCD研究,进一步考虑如何选择身体和心理健康评估(Barch等,2018)以及所做的伦理考虑可能会很有用,因为该研究涉及多站点招募儿童和青少年(Clark等,2018)。关于收集临床样本数据时可能需要考虑的因素示例,请参见Ye等(2019)。此外,评估其他数据收集考虑因素(如使用的核磁共振序列)如何影响分析也很重要,例如,多频带序列提高了时间分辨率,但也可能引入切片泄漏伪影(Todd等,2016;Risk等,2018;McNabb等,2020)。(关于批判性讨论,请参见Longo和Drazen(2016)。)

大规模开放获取神经影像数据集

      在过去二十年间,尤其是近年来,许多大规模开放获取神经影像数据集已经可用(例如,Marcus等,2007;Jack等,2008;Van Essen等,2013;Hanke等,2014;Zuo等,2014;Poldrack等,2015;Alexander等,2017;Taylor等,2017;Harms等,2018;Casey等,2018;Milham等,2020;Pinho等,2020;Nastase等,2020)。在表1中,我概述了其中许多数据集,涵盖了年轻成年人的多模态研究、发展和/或衰老的终身研究、高采样个体、患者样本以及非人类神经影像数据集。在此,我重点关注了相对较大、新颖或其他热门数据集。例如,OpenNeuro(前身为OpenfMRI)最近已超过500个公共数据集,但是,其中大多数在规模上是"常规的"(例如,< 40名参与者,单次会话,稀疏的额外非影像数据),因此未被列入表中。这些数据集当然也很有用,但其较小的规模使其应用比本概述中强调的数据集更为有限。表中包含了几个精神分裂症数据集,这些数据集是SchizConnect(Wang等,2016)的一部分,但是,它们也被单独列出,因为它们位于联邦数据库中,而且在其他方面是分散和异质的。

表1 大规模开放获取神经影像数据集概述

图片

图片

图片

图片

图片

标记为"进行中"(on-going)的项目会列出目标样本量N,同时也会注明截至2021年2月的当前可用样本量,或者说明进行中的性质是否与收集后

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值