医疗数字化与大数据分析

走向数字化:医疗领域数字化与大规模数据分析综述

本文审视了当前的医疗系统,并总结了医疗保健领域向数字化和大规模数据分析发展的最新趋势。

Volker Tresp,J. Marco Verhage,Markus Bundschus,shahrooz r abizadeh,Peter a. Fa sching, and Yu shipeng

数字对象标识符: 10.1109/JPROC.2016.2615052

摘要

我们概述了医疗保健领域向数字化和大规模数据分析发展的最新趋势。这些趋势有望在未来医疗保健组织方式的重大变革中发挥关键作用。我们讨论了近期旨在将护理流程从纸质转向电子化的政治倡议,目标是实现更有效的治疗并获得更好的结果;而成本压力则是推动创新的主要因素。我们描述了新建立的医疗服务提供者、研究机构和商业供应商之间的网络,共同分析数据以开发决策支持系统。我们探讨了连续医疗的发展趋势,即通过可穿戴和固定设备对健康状况进行持续监测;与此相关的是,患者正越来越多地承担起管理自身健康数据的责任。最后,我们讨论了基于分子医学、数据管理和数据分析进步所推动的个性化医疗的最新进展。

I. INTRODUCTION

数据一直是医疗保健领域采用科学方法的基础:诊断由生理学数据测量、实验室数据和诊断成像支持;对治疗及潜在疾病成因影响的分析基于临床和流行病学研究。过去,研究设计和数据采集是主要挑战,而数据体量和数据管理并未成为问题。我们预计,随着新的医疗数据来源变得日益重要,这种情况将迅速改变。所产生的数据集具有高维性和丰富性,其数量正在急剧增长。正如“数字化”泛指公民、服务和各类“事物”的数字存在,术语“数字健康”也与以数字形式出现的大量健康相关数据相关联[1]。管理和分析这些数据以获取洞见并使洞见可付诸行动,有时被称为医疗保健大数据[2]–[4]。尽管“大数据”这一术语可能很快会过时,但本文所涵盖的根本问题和技术挑战很可能将持续存在。

推动变革的驱动力包括多项近期的政治倡议,旨在将医疗保健服务流程从纸质转向电子化,以实现更有效的治疗和更好的结果;成本压力是推动创新的主要因素。其中一个例子是美国的《经济与临床健康卫生信息技术法案》(HITECH法案)。HITECH法案的重点在于有意义使用可互操作的电子健康记录(EHR),从而实现机构间的信息交换。其总体目标是使每一位参与的医疗保健专业人员都能获得完整的患者信息,患者能够由最合适的机构针对其问题进行治疗,医学研究成果能够更快地产生影响,并提高整体有效性。在这些倡议的背景下,大规模数据的体量将被收集,医疗保健领域的许多改进将基于对这些数据的分析,主要目标是以可管理的成本改善结果。为了充分发挥潜力,可能需要对医疗系统进行根本性变革,并且必须解决数据隐私、数据所有权和数据安全问题。

“多样性”和“体量”是与医疗保健最相关的大数据特征。多样性意味着必须提供有关个体的详细信息,以便实现个性化建议和干预措施。后者的示例包括生活方式建议、警报、提醒、预防措施、筛查、转诊和治疗建议。关键问题有三个:第一,如何获取、管理和存储详细的患者信息;第二,如何将“智能”引入系统;第三,如何将建议最优地传达给利益相关者。

数据体量对于从医疗数据中获得有效的洞察和可操作的解决方案至关重要。如果收集了大量个体的数据,就可以进行统计分析、数据挖掘,并训练机器学习算法。

本文的目的是概述数字健康如何影响医疗保健的未来——预期的变化将是巨大的。本文面向对医疗保健问题了解有限但感兴趣的读者。文章包含六个主要部分,按照数字化的来源进行组织,详细描述了不同的数字化和分析趋势。

在下一节中,我们将探讨诊所内部的数字化过程。如前所述,临床数据管理的许多进展都基于更广泛地采用电子健康记录(EHR),这是临床信息系统数字化的主要推动力。电子健康记录可提高患者安全,并增强透明度和问责制。它记录了相关的临床患者信息,并为多种形式的分析和决策支持奠定了基础。实施电子健康记录面临诸多挑战,主要涉及额外的工作量和成本,以及人们担心关注的中心可能从患者转移到IT系统。我们还将讨论当前的临床数据状况:通常有哪些类型的数据可用,以及这些数据是如何记录和组织的。我们探讨了共享术语的重要性,以及如何利用临床数据进行建模并改进决策。此外,我们还讨论了数据安全和数据隐私问题。

诊所正越来越多地与具备分析能力的大学机构以及商业供应商在数字化和大数据项目方面展开合作。在第三节中,我们将介绍一些具体的项目,并讨论在整合来自不同来源的观测数据时出现的一些统计问题,例如各种偏倚、隐性混杂因素问题以及批次效应。

支付方、登记机构和国家卫生系统(如英国国家医疗服务体系)长期以来一直在各个诊所收集医疗保健相关数据。近年来的一个新发展是诊所 increasingly 被要求报告数据,以用于质量控制和政策制定等目的。此外,如果不同医疗机构之间的数据能够实现共享,例如在整合照护中,将带来巨大益处。健康信息交换(HIE)涵盖在地区、社区或医院系统内跨组织进行数字医疗信息流动的所有活动[5]。重要问题包括数据隐私、去标识化以及美国HIPAA法规。临床数据的外部化在第四节中进行了阐述。

医疗保健正日益变得以患者为中心,患者希望掌控自身的健康和健康数据。家庭希望维护健康档案,并将其提供给授权照护者(如家庭医生)访问。这些趋势得到了一系列不断发展的基于云的服务的支持。人们可以设想新的IT平台将成为医疗保健管理革命的基础,支持以患者为中心的视角和以数据为中心的视角。此外,一些患有一种或多种严重疾病(有时为慢性疾病)的患者希望与具有类似问题的患者社交群体进行互动。这些患者使用的社交媒体可提供有关药物有效性、药物不良反应的洞察,并有助于传染病的检测和追踪。有时,患者愿意通过PatientsLikeMe等平台将其数据用于研究和其他用途。我们将在第五节讨论这些发展。

另一个重要的数字化趋势是在日常活动中不断增加的数据采集。智能手机可以通过各种传感器收集健身和健康相关数据。这些数据可通过平台和应用程序由患者自行分析,或传递给医疗服务提供者。在患者一生中,会收集大量个人数据,而平台运营商则提供数据分析服务。除了可穿戴设备外,环境传感器也将发挥作用,特别是在老年人照护方面。目前正在进行“将照护前移”的努力:在疾病发生之前识别风险并进行干预。因此,重点转向预防,而非诊断和治疗。这些发展在第六节中进行了讨论。

最后,医疗保健领域正日益趋向个性化(即更精确和个性化的医疗),这一趋势部分但并非完全由基因组(包括全基因组)、蛋白质组学和代谢谱等分子数据成本降低和可获得性提高所推动。对种系DNA的分析可表征疾病易感性,而对体细胞癌症DNA和RNA的分析则可表征疾病本身。治疗决策越来越多地基于分子患者特征;但其缺点是复杂性增加,容易使决策者难以应对。大规模分析对于从大量数据中生成个性化决策规则至关重要,这也符合循证医学的发展趋势。这是第七节的主题。

第八节总结了相关发展,并尝试进行评估,讨论了机遇与挑战。

在本文中,我们主要关注美国的情况。主要原因是,美国在数字化和大规模数据分析方面总体上处于领先地位,尤其是在医疗保健领域。另一个原因是美国拥有全球最大的医疗保健市场。在相关情况下,我们将强调其他国家的情况;特别是,英国的一些发展极具创新性,展示了国家医疗系统中的新兴机遇。

II. 医疗保健数据的数字化

A. 动机

医疗保健是一项庞大而复杂的事业,与地球上每个人息息相关。以计算机易于利用的方式实现医疗保健数据的数字化,对于通过数据可视化、协作和临床决策支持来促进医疗服务的提供具有重要意义。最近,提出了“学习型医疗系统”的概念[6]。在学习型医疗系统中,从诊疗过程中获取的数据会持续得到分析,并用于洞察医疗服务过程应如何发展演变。

当数据被数字化后,我们可以创建新的、有用的方式来展示和可视化这些数据,这有可能提供对患者状况的更好洞察,并乐观地支持更优的决策[7]。医疗数据数字化的另一个重要应用是临床决策支持(CDS)。CDS系统将数据与临床知识相结合,在医疗过程的适当时机提供针对患者的建议。这些系统已被证明能够提高医疗质量、安全性和效率,尽管这些益处并未在所有情况下都得到体现[8],[9]。缺乏完整、及时和准确的数据通常是未能实现这些益处的根本原因。

来自大量患者的完整信息是分析(即统计分析、数据挖掘和机器学习)的基础。一些作者曾尝试描述医疗系统希望利用分析技术的方式。Bresnick et al. 考虑了以下项目[10]:

  • 识别高风险患者;
  • 跟踪临床结果;
  • 绩效衡量与管理;
  • 在诊疗点进行的临床决策;
  • 住院时长预测;
  • 医院再入院预测。

后者的目的是避免因医院再入院而产生的高额处罚,这些处罚由联邦医疗保险计划根据2010年患者保护与平价医保法案(ACA)引入。保险公司已开始使用数据分析来识别可能的患者,从而实现了40%–50%的成效。充血性心力衰竭患者再入院率的降低[11],[10]

另一项研究指出了分析技术的以下用途[12]:

  • 基于数据分析的药物发现流程、药物不良反应和药物相互作用的检测,以及药物疗效的研究;
  • 识别更优且更安全的治疗方法;
  • 最优临床试验设计和患者招募;
  • 循证医学,整合临床专业知识和研究成果,以支持关于患者护理的最佳决策,通常在诊疗现场进行;
  • 基于协议的医学,利用研究成果为特定病症、病史和患者群体确定最佳实践;
  • 个性化医疗,融合包括基因谱型在内的多种数据源与历史临床数据。

这些是描述性任务、预测性任务和指导性任务的混合[10]。

描述性分析是一项经典的数据挖掘任务,它以简单规则的形式(关联规则挖掘)或可视化形式(可视化分析)从数据中提取人类可理解的信息[13]。结果通常以报告形式呈现。典型项目可能包括识别临床质量指标或护理特定方面的改进领域。需要注意的是,人在回路中,并基于发现得出结论[10]。

对于预测分析,可以使用传统统计方法或机器学习。任务可能包括预测未来的治疗过程、诊断或结果。其他任务包括具有不同警报功能的患者状况监测。预测模型的应用通常需要强大且高质量的基础设施,以实现实时数据处理。“医疗设备必须完全集成,以提供关于患者生命体征的实时信息来提高安全性,同时警报和提醒必须向临床医生进行开发和展示,而不能严重干扰其工作流程或使其因厌烦而忽略关键警告”[10]。好消息是,在纯预测问题中,只要混杂因素的统计特性是平稳的,就可以忽略它们;另一方面,在一个诊所训练的预测模型在另一个诊所可能表现不佳,例如由于患者档案不同所致。

规范性分析包括推荐行动以及回答“如果⋯⋯会怎样”这类问题的能力。预测模型可能会推荐针对具有特定特征的患者“通常”采取的措施,而规范性分析则能够处方出可带来最佳结果的行动。“规范性分析不仅能预测可能发生的情况,还能主动建议组织如何采取最佳行动,以避免或减轻不利情况”[10]。对数据质量和系统的需求稳健性甚至更大。特别是,规范性分析需要仔细分析和考虑隐性混杂因素。有人称规范性分析为“医疗保健大数据的未来⋯⋯医疗行业有机会充分利用这些决策能力”[10]。

B. 电子健康记录

几十年来,关于患者的大部分记录都以纸质形式记载,并存放在一个文件夹中,在临床科室之间物理传递,最终归档。如今,患者数据越来越多地以电子形式记录和存储,即电子健康记录(EHR)[14]。电子健康记录显著提高了所记录数据的质量,并通过支持分析和决策支持,促进了患者护理的改进。在最基本的形式中,电子健康记录包含与纸质文档相同的内容,只是被扫描后以数字化方式存储。显然,这种方式对支持分析或临床决策作用有限。更先进的系统包含机器可读的结构化表格和数字化报告,理想情况下,这些报告本身也具备机器可读性并带有语义标注。在这些先进系统中,数据可轻松供算法和分析工具访问。目前已开发出多种交互式电子健康记录可视化工具,用于洞察其内容[15]。

我们将在第四节中讨论,HITECH法案刺激了电子健康记录在美国各地的医院和门诊诊所中的使用增加[16]–[18]。HITECH所定义的有意义使用,要求具备并实际使用电子健康记录来执行诸如电子处方、检验申请、电子访问检验结果、药物警报、用于跟踪实验室检验的计算机化系统以及医疗指南的实施等功能。

在一些国家,电子健康记录已成为标准(例如在荷兰、新西兰、挪威、瑞典和英国),而像美国和德国等国家则落后于人。调查发现,尽管过去几年采用范围已大大扩展,但美国医生对电子健康记录的热情在过去五年中并未改善[19]。作者将医生缺乏热情归因于医生认为电子健康记录带来的益处不足,且电子健康记录产品未能提供所有必要功能,难以使用,并且彼此之间不可互操作。此外,人们还担心数据泄露的发生频率日益增加[20],以及法规合规问题。

C. 结构化数据采集

只有在数据采集相关的时间和成本得到控制的情况下,电子健康记录才能充分发挥其潜力。虽然大量临床数据可以从其他渠道(如实验室或放射学系统)或设备(如生命体征、呼吸机)中获得,但仍有相当一部分数据必须由医疗服务提供者录入。由于医疗服务提供者采集结构化数据需要耗费时间和精力,他们常常质疑这样做是否具有足够的价值,以证明其对生产力造成的负面影响是合理的[21],[22]。据估计,现代电子健康记录系统每天需要额外花费48分钟,其中大部分时间用于文档记录[23],[24]。

医疗保健具有复杂性,这一点也体现在数据上:需要表示数十万个临床概念。为了适应这种规模并简化表示方式,临床概念采用了编码系统。例如,“心力衰竭”这一概念可以在国际疾病分类第九版临床修订版(International Classification of Disease Version 9 Clinical Modification)中表示为“428.0”。这种方法有助于使用关键词值方法来表示数据。然而,大多数临床概念存在多个编码系统,因此心力衰竭也可以用I50(ICD‐10)、16209(DiseaseDB)、D00633(MESH)、42343007(SNOMED)等表示。更糟糕的是,大量数据使用特有的临床代码进行编码,这些代码是特定于某个医疗服务体系的。这种差异意味着使用这些数据通常需要在不同编码系统之间进行映射或转换,而这通常需要大量的人工工作,在某些情况下还需要特定的数据模型。

除了由医疗服务提供者或其代理人直接输入外,结构化数据还可以从非结构化数据(包括自由文本、图像和其他信号)中直接提取。

放射学涉及放射影像的采集、分析、存储和处理,尤其在血管造影(涉及时间维度)或全身筛查(涉及全部三个空间维度)等情况下,必然涉及大量数据。病理学涉及对组织、细胞和体液样本的分析,通常通过显微成像进行。随着病理学的数字化,越来越多的数字数据被生成,需要进行处理和存储。目前的标准是由医学专家解读放射学和病理学图像,并以书面自由文本或非结构化报告的形式描述结果,尽管目前正逐步向基于模板的半结构化报告发展。

放射学和病理学图像的计算机化分析是一个成熟的科研领域,涉及复杂的算法,并且在临床上变得越来越重要[25]–[27]。该分析通常包含某种形式的机器学习,而新兴的深度学习领域正产生日益增大的影响[28]。分析过程越来越多地生成定性和定量标签或标记,这些可用于综合分析研究[29]。

书面文本是一种主要媒介:具体数字虽有不同,但大量临床相关信息仅以文本格式记录。除了放射学和病理学报告外,医疗相关的文本来源还包括其他科室的报告、病历记录、转诊信和出院记录。研究人员和商业开发者均投入了大量精力,以提高从文本中进行结构化数据采集的效率。

一些人希望自然语言处理(NLP)能够消除对结构化数据采集的需求;但相关进展是渐进式的。尽管在某些特定领域已取得进展,但从临床文本中进行信息抽取仍然极为困难。部分原因在于报告存在语法不规范、包含短语以及非标准化且过度使用的缩写,并大量使用否定表达和列表。结构化报告是一种重大进步,其中文本由系统自动生成,医生只需输入关键词和简短文本;但目前尚未成为标准[30], ,部分原因是这对医疗服务提供者而言通常更加耗时。

另一个问题是,由医疗机构输入或从文本中提取的结构化数据需要以计算机能够“理解”的方式表示,换句话说,医疗系统需要能够使用相同的形式化语言进行有效沟通。一些语言本质上是简单的分类法和术语表,它们构成了计费流程中所用标准的基础,例如用于诊断的国际疾病分类(ICD)、用于治疗过程的现行程序术语(CPT)以及用于疾病或状况的SNOMED编码。对于药物,则有美国国家医学图书馆的RxNorm、国家药品代码(NDC)等。逻辑观察标识符名称和代码(LOINC)则定义了医学实验室和临床观察结果的通用标准。出于计费目的,所有相关方都有很强的动力严格规范地使用这些编码。通常,隐含的陈述形式较为简单,例如“患者X患有疾病Y”。

如果要准确表达某些详细的医疗发现,情况就会有所不同。考虑以下短语:“43岁女性,有胃食管反流病(GERD)病史,一天前(PTA)醒来时出现呼吸困难(SOB)和左上肢不适(LUE)。她前往[**Hospital2 72**]就诊,在那里通过酶检测排除了心肌梗死(MI)。次日她在[**Hospital2 72**]接受了应激试验。在试验过程中出现了呼吸困难(SOB)和肩痛。” 为了利用该文本中所表示的信息,应用程序首先需要对短语中的实体进行映射和编码,然后构建描述复杂时序性观察的语句,其中包含许多细微的表达,这些只有受训专家才能理解。这远远超出了当前使用的医学形式化语言的表达能力。

基因组学、蛋白质组学和其他分子数据(在第七节中将更详细地讨论),由于其本质几乎是数字化的,将增加大量且多样化的结构化数据;不过,在当前实践中,特定应用程序通常只需要从分子数据中提取极为有限的子集即可。

D. 数据孤岛

利用临床数据的其他障碍是普遍存在的临床数据孤岛。除了患者数据在医疗生态系统中各个参与方之间的碎片化外,每个医疗部门历来都使用自己专用的部门专用数据库和报告系统,以及只有一部分信息被整合到了电子健康记录[31]中。例如,在医疗服务提供者在其电子健康记录中看到实验室检测结果之前,这些数据已经经过了一条复杂而曲折的路径:实验室仪器本身是复杂的计算和数据管理系统,它们将数据通过实验室仪器管理系统,并可能经过实验室信息系统,再通过接口引擎,最终传送到电子健康记录系统。每个阶段都支持特定的数据管理和监控任务,同时会添加或丢失部分数据[32]。另一个问题是,每个数据孤岛可能以不同的方式对信息进行编码,而为数据集成构建适配层绝非易事。这些挑战正是近期倾向于采用集成的电子健康记录平台的原因,这类平台在多个部门之间共享一个公共数据库,从而在很大程度上消除了机构内部的数据孤岛。事实上,医疗机构常常为了实现这一优势而接受功能上的妥协。

E. 临床数据集成工作

一些医疗服务提供者可能已部署了独立的研究数据系统,例如 i2b2[33] 或 tranSMART[34]。这些系统从电子健康记录(EHR)以及其他临床资源和数据库中提取临床相关信息,并将其整合到研究数据库中。研究数据库可以成为数据分析项目的宝贵资源。遗憾的是,安装研究数据库可能非常困难,因为它需要访问不同部门的数据孤岛中的数据。如前所述,这些数据库可能具有不同的结构并使用不同的术语。

与临床数据相比,计费数据——部分由于其简单性,部分出于必要性——结构一致,且通常被纳入研究数据库中。遗憾的是,这些数据不包含大量临床相关信息,可能无法准确、完整地反映临床实际情况。医疗服务提供者在记录行政数据时可能不够谨慎,认为精确无误并非至关重要;或者在某些情况下,计费数据的编码可能是为了最大化报销,而非最准确地反映患者的临床状况。

另一个重要问题是,事件的时间顺序在数据中通常没有得到充分的文档记录。为了分析决策的因果效应并优化决策,了解决策者在决策时掌握了哪些信息至关重要。而在当前的文档记录状况下,重建事件的时间顺序可能十分困难。

F. 隐私保护和去标识化

去标识化是用于防止将个人身份与信息相关联的处理过程。去标识化的常见用途包括人体受试者研究,此类研究需要对研究参与者进行隐私保护。

去识别数据集的常用策略包括删除或屏蔽个人标识符(如姓名和社会保障号码),以及抑制或泛化准标识符(如出生日期和邮政编码)。更复杂的方法则使用k‐匿名性、l‐多样性、ε‐差分隐私、差异可识别性粗化、插补和数据交换[35]。

去标识化对于临床数据通常较为困难,而对于文本数据尤其困难,因为个人标识符可能意外地出现在文本中间;同时,考虑到一个人的基因谱型具有唯一性,基因组数据的去标识化也同样困难。

适当的患者同意可能会减少去标识化的需求[36]。

III. 在可信网络中移动数据

整合照护是医疗保健领域的一种全球趋势,旨在实现更加协调和一体化的医疗服务模式。它可以被视为应对许多国家碎片化的医疗服务问题的一种回应。整合照护(如同其他形式的联盟与临床间协作)有助于多源数据的整合与评估。由于患者样本量相较于单一诊所更大,并且患者可能在整合型医疗系统中接受更多问题的治疗并停留更长时间跨度,甚至终身,因此针对特定个体的数据更加完整,从而支持分析项目。

在本节中,我们介绍了诊所网络与研究中心合作的代表性项目,这些研究中心提供数据分析、机器学习和医学信息学方面的专业知识,以探索临床数据分析的潜力。这些项目及类似项目的长期愿景是建立一个系统,其中患者数据能够被在线分析,研究成果迅速转化为常规实践,从而为每位患者提供最佳护理。

A. 匹兹堡健康数据联盟

匹兹堡健康数据联盟是一个协作式大数据项目,涉及卡内基梅隆大学(CMU)、匹兹堡大学(Pitt)和匹兹堡大学医学中心(UPMC)。该项目由后者资助,但所有三个机构均提供资助资金[37]。

所声明的目标是此类项目的典型特征:它们主要旨在分析并利用医疗系统中产生的大量数据,包括电子健康记录患者信息、诊断成像、处方、基因组谱型、保险记录以及来自可穿戴设备的数据。这些结果可支持循证医学的发展,并推动以疾病为中心的模型向以患者为中心的诊疗模式转变。其愿景是建立基于大规模数据的数据驱动医学患者样本,用于评估个体的疾病风险,并提供治疗的个性化建议。其他预期结果包括衍生公司以及促进该地区[38]的经济发展。

CMU计划开发一种自动患者诊断系统。该系统基于自动获取的症状和实验室检查结果,搜索医学文献并分析患者数据以提供可能的诊断。为了进一步明确诊断,可能会要求进行附加检查。

匹兹堡大学医疗数据商业应用中心(CCA)的作用是开发可用于商业诊疗一体化的新技术,将诊断与治疗及成像系统相结合。

UPMC企业公司负责将研究成果转化为营利性初创企业。

一项具体合作涉及通过跟踪非处方药销售情况来实现疾病暴发的早期检测。参与方包括匹兹堡大学的实时疾病暴发监测(RODS)实验室和CMU海因茨学院的事件与模式检测(EPD)实验室。

作为医疗保健领域最早的大规模大数据项目之一,该项目吸引了多家IT公司的关注,这些公司提供高性能数据库平台、商业智能解决方案和可解释性平台,以整合患者记录。总体而言,医疗服务提供者对临床信息系统中的大数据功能需求日益增长,供应商必须适应这些需求。事实上,考虑到医疗保健领域预计将发生的重大变革,其中IT预计将发挥重要作用,许多IT供应商正在积极探寻未来的商业机遇。

B. 梅奥项目

梅奥诊所与伊利诺伊大学多个部门之间的合作是获得大型联邦资助以支持医学大数据研究的一部分[39]。该合作项目涉及基因组生物学研究所、计算机科学系、协调科学实验室、工程学院以及国家超级计算应用中心(NCSA)。该项目包括建立一个新的大数据计算卓越中心,以及构建用于在研究人员之间传输和共享数据的网络。校园先进研究网络环境(CARNE)已建成,旨在为特定研究目的提供对校外地点的无限制高速访问。其中一个主要项目是基因组知识引擎(KnowEnG)

C. 凯撒医疗集团的新生儿重症监护

这是一个早期项目,展示了大数据在重症监护中的潜力。在当前医疗实践中,如果母亲体温升高超过一定阈值,新生儿通常会被送往新生儿重症监护室(NICU),因为这可能预示着新生儿败血症风险增加,这是一种血液细菌感染[40]。凯撒医疗机构利用数据分析开发了交互式在线“新生儿败血症计算器”,可确定新生儿败血症的概率,帮助医疗团队更好地判断哪些婴儿需要进行感染评估和治疗[41]。

D. 印第安纳患者护理网络

雷根斯特里夫研究所(Regenstrief Institute)是基于信息标准实现临床数据互操作性的早期倡导者,并利用该工作推动了区域和全国范围内的健康信息交换(HIE)。1995年,雷根斯特里夫研究所的研究人员实施了印第安纳波利斯患者护理网络(INPC),旨在为临床医生在诊疗现场提供患者诊断和治疗所需的必要数据。到2016年,已有超过100家医院、数千家医生执业机构、急救车服务、大型地方和州级公共卫生部门、区域性实验室和影像中心以及保险公司参与了INPC。该联邦数据存储库存储了超过47亿条记录,其中包括来自近1500万唯一患者的超过1.18亿份文本报告。这些数据以标准格式存储,并采用标准化人口统计代码;实验室检测结果映射到一组通用检测代码并使用标准计量单位;药物、诊断、影像检查和报告类型也均映射到标准术语。

支持INPC的数据流实现了结果传递、公共卫生监测、结果检索、质量改进、研究及其他服务。基于这一经验,雷根斯特里夫研究所的研究人员为现已称为电子健康交换(Exchange)的全国健康信息网络项目的发展提供了重要支持。

INPC数据已被Regenstrief用于纽约的大数据研究和项目包括以下内容。

观察性医疗结果合作组织 (OMOP)[42]以及后续的观察性健康数据科学与信息学(OHDSI)[43]项目,利用大规模观察性数据进行药物安全研究。

这两个项目是ConvergeHEALTH的基础,由德勤牵头的一项旨在实现关键机构间综合数据共享的努力。德勤拥有一个分析平台,使医院系统能够使用专门设计的工具来比较特定患者结果:其OutcomesMiner工具帮助用户探索特定亚群的真实世界结局。

默克‐雷根斯特里夫研究所“大数据”合作伙伴 - 2012年成立了学术‐行业协作组织,以利用INPC支持一系列使用临床数据推动个性化医疗的研究。该合作伙伴关系迄今已资助了50个项目。行业评论员指出,行业与学术界之间以及各支付方之间的此类合作至关重要,因为单靠任何一个领域都无法独立开展此类项目。

  • 印第安纳健康信息组织,一家非营利性机构 - 为维持INPC的运营而成立的组织,已与商业预测分析公司Predixion达成合作协议,旨在开发新的预测性应用,以进一步支持责任医疗组织和医院的患者和业务需求。INPC数据库支持Predixion当前和未来的解决方案开发。

E. 临床数据智能

临床数据智能(“Klinische Datenintelligenz”)是由德国经济和能源部(BMWi)资助的德国项目,涉及两家综合医疗服务提供者,即埃尔朗根大学医院和柏林夏里特医院,两家全球性公司,即西门子AG和西门子医疗,以及来自埃尔朗根大学、德国人工智能研究中心(DFKI)、弗劳恩霍夫协会和Averbis的应用与研究中心[29],[44]。

该项目特别强调术语和本体、从文本来源及放射影像中进行元数据提取,以及将医疗指南作为先验知识进行整合。作为项目的一部分,建立了一个服务于所有研究与应用子项目的中央研究数据库。该项目还涉及适用于大规模数据分析的商业模式和应用程序基础设施。

核心功能由一个集成学习与决策系统(ILDS)实现。该ILDS访问所有患者特定数据,并提供分析、预测和规范性功能。ILDS通过学习电子健康记录的结构化数据(如诊断、治疗过程和实验室结果)来建模和分析临床决策过程。ILDS还分析病史、放射学和病理报告,并包含指南信息。此外,ILDS考虑基因组数据以及分子数据,以结合其他临床数据探索个性化医疗。

ILDS将能够立即对常规实践进行如下形式的预测:“对于具有属性和问题X的患者,通常会执行程序Y(在您的诊所系统中)。” 更为困难的是涉及对混杂因素进行仔细分析的处方,形式如下:“对于具有属性和问题X的患者,通常会执行程序Y(在您的诊所系统中),但程序Z可能会带来更好的结果。” 该项目的一个重要成果将是一套临床文档需求,这些需求将使未来的数据分析更加强大。例如,临床结果并不总是被充分记录;有时将特定时间段内(通常为一个月)的再入院视为不良结果。或者,也可以将住院时间超过一定天数定义为不良结果,该天数阈值因诊断相关组(DRG)而异。在某些情况下,例如肾移植或乳房切除术后,患者会接受密切观察,并且可以获得结果信息,甚至可能涵盖患者终生。

ILDS 部分使用深度学习(更具体地说是循环神经网络)来建模诊所中的序列化决策过程[45].2

该项目详细探讨了两个使用案例。

第一个问题涉及肾病学。肾脏疾病给医疗系统带来了巨大的经济负担。本研究的目的是系统地调查肾移植后患者中的药物‐药物相互作用(DDI)和药物不良反应(ADR),并实现一个集成的决策支持系统。该用例特别有意义,因为拥有覆盖数十年的纵向数据,且通常会报告结果。初步的ILDS结果已在[45]和[47]中报告。

第二个用例涉及乳腺癌,这是女性中最常见的恶性肿瘤。相关事件包括筛查、诊断、治疗和随访护理。特别关注的是风险因素的确定、治疗效果的评估以及副作用预测。

F. 相关倡议与项目

在美国和其他国家,许多类似的倡议已经启动或正处于准备阶段。

达特茅斯研究所、达特茅斯‐希区柯克医疗中心、丹佛卫生系统、山间医疗保健公司和梅奥诊所是“高价值医疗协作组织(HVHC)”的创始成员,该组织汇集了美国近10万名医生和近1000万名患者。在一项早期项目中,HVHC发现四家医院在全膝关节置换手术方面的成本和流程存在显著差异,其中一家医院的表现明显优于其他三家[48]。随后,该医院的最佳实践被分享给其他三家医院,结果这四家医院的膝关节置换手术住院时长均缩短了一整天[49]。

密歇根大学已宣布启动一项大型大数据科学计划,旨在针对移动性和可穿戴设备背景下的健康问题[50]。

华盛顿大学塔科马分校利用数据分析开发了“风险计”,为临床医生和患者提供风险评分,以预测充血性心力衰竭患者在关键的30天再入院窗口内重返医院的风险[51]。

宾夕法尼亚医学中心是宾夕法尼亚大学卫生系统的一部分,正在开展一个大数据项目,旨在开发预测分析技术,以在致命疾病发生前进行诊断。该项目的核心是一个自主研发的企业级数据仓库,称为宾大数据存储。其中一个实例是对重度脓毒症风险的预测,该预测依赖于对六项生命体征测量和实验室指标的分析。该模型考虑了200多个临床变量,使宾夕法尼亚医学中心能够在典型症状发作后的30小时内检测出80%的重度脓毒症病例[52]。

G. 关于大数据研究价值的评述

大数据研究的目标通常是得出因果结论,例如关于药物有效性或可能的疾病成因,因此需要考虑观察性大数据研究与经典随机对照试验(RCTs)的价值。

前瞻性RCTs通常被视为证据的金标准,因为通过精心的研究设计,可以将隐藏混杂因素的影响降至最低。但RCTs也存在局限性,尤其是由于患者的选择方式以及样本量较小所致。RCTs通常在相对健康且同质的患者群体中进行,这些患者除目标疾病外均被筛选为健康状态,并排除患有糖尿病或高血压等常见疾病的情况,同时也不包括年龄过小或过大的个体[53]。如果患者存在多种问题,将其视为相互独立进行治疗通常是不理想的,而通过RCTs可能难以评估治疗间相互作用的信息。此外,在RCTs中,如高血压、高胆固醇和抑郁症等疾病间的相互作用可能无法显现出来。由于总体上患者招募困难,且临床研究管理成本较高,因此样本量通常较小。出于相同原因,研究结果往往需要具有普遍性而非个性化,且从研究到结果确定并转化为临床实践之间存在长时间延迟。

有观点认为,患者报告结局指标往往是长期预后的更好预测因子[54]。有时会采用非随机准实验研究,但其提供的证据强度低于RCTs[55]。

相比之下,大数据分析考虑了大量患者的数据,有可能从更大的样本中得出结论。它们基于患者的自然人群,且结论可以实现个性化。例如,对于抑郁的糖尿病患者,人们可能希望比较使用抗抑郁药物和未使用抗抑郁药物患者的住院率,以确定是否更多患者应接受精神科治疗,以帮助他们管理健康。目前此类研究需要耗费大量人力。在未来的大数据医疗中,这些问题可以通过简单的数据库查询[56]来解答。

大数据分析主要涉及观察性研究(队列研究、病例对照研究),其结论被一些人认为在统计学上可靠性较低。主要原因是隐性混杂因素可能产生与因果效应无关的相关性。混杂因素是指同时影响临床决策和结果的变量。应考虑使用多变量模型,其中预测因子需包含决策过程中使用的所有变量。然而,其中一些变量可能无法用于分析,例如患者症状和患者主诉,这些信息通常记录不完善。

数据收集可能会引入各种形式的偏倚。例如,在合并来自不同机构的数据时可能出现的批次效应;通过仔细的统计分析[57],[58]可以解决批次效应问题。

目前尚不清楚医生是否已准备好使用来自大数据的证据。人们普遍认可的是,大数据研究能够生成新假设,然后进行临床验证,尽管临床医生对假设捕捞持批评态度[59]。当然,临床研究成本高昂,只有在拥有充分的数据证据并具备显著益处前景的情况下才会启动。

期望且广受认可的结果是,利用诊断检测发现基于疾病风险或对治疗的反应的新型患者亚组,从而实现靶向治疗。这是精准医学的基础(参见第七节)。例如,哮喘在很大程度上被视为一种单一疾病,目前的治疗方法往往针对其症状而非根本病因。如今人们已接受可以根据基因表达差异模式和临床表型对哮喘患者进行分组,并实施针对不同组别的治疗方法[54]。

预测性或规范性分析可能会输出一个预测结果(例如,对某个临床终点的预测),或对治疗进行排序或优先级排序。在这些情况下,输出结果可能是基于多个患者维度计算得出的,这一过程可能难以解释。目前,优先级排序仍与医疗传统相悖,医疗行业是否会接受大数据决策支持系统的这一方面仍有待观察。

了解为什么机器学习解决方案通常需要多个输入非常重要。在理想情况下,一项诊断测试可以揭示问题的原因,随后的治疗方法能够解决问题。然而在现实中,即使诊断技术已取得诸多进展,我们往往仍难以全面描述个体的健康状况。从技术上讲,患者的健康状况包含多个维度,而只有其中部分维度(例如某些感染、某些癌症类型)可以通过特定的诊断检测推断出来。在大数据分析中,人们实际上在部分地实践“新医学”,即可能解决一些传统方法难以应对的问题,来自

走向数字化:医疗领域数字化与大规模数据分析综述

IV. 告别数据

A. 引言

在本节中,我们将关注离开诊所系统的数据,即支付方可访问的数据、登记机构收集的数据以及报告给医疗机构的数据。支付方能够获得患者的纵向视图,并可对治疗效率和结果进行统计分析,以优化其服务,同时也可用于检测欺诈行为。登记机构是流行病学研究的重要数据来源。我们将讨论健康信息交换(HIE),它指的是通过电子方式在不同组织之间共享医疗保健信息的各种活动[5]。报告给医疗机构的数据可用于质量控制和政策优化。作为后者的一个示例,我们将讨论HITECH法案,该法案旨在通过激励计划鼓励在美国采用电子健康记录(EHR)并实现其有意义使用,从而改进临床系统。最后,我们将讨论隐私和数据安全问题。

B. 支付方可访问的数据:计费数据

数据离开诊所最常见的场景是向支付方(例如健康保险公司或健康计划)提交理赔时。根据所采用的具体报销规则,支付方接收到的数据在详细程度、质量和偏倚方面各不相同。遗憾的是,理赔数据可能无法充分反映患者的疾病负担[60],[61]。尽管计费数据是否适用于临床研究常存在争议,但已有大量研究利用这些数据来指导临床护理、政策制定和报销决策。

理赔数据提供了特定时间段内患者在不同医疗服务提供者之间的整体视图,这些数据支持以患者为中心的健康视角。理赔数据还能通过分析再入院情况等方式,提供关于结果的直接和间接证据,并反映不同医疗服务提供者的成本效益和治疗质量。

支付方机构越来越有兴趣更好地了解其客户,即患者。正在分析调查、问卷、呼叫中心数据以及日益增多的社交媒体(包括推文和博客)以获得洞察,以提高服务质量并优化服务提供。

一个主要问题是滥用与欺诈的检测和预防。2011年麦肯锡报告指出,利用大数据分析来打击医疗保健欺诈可能非常有效[2]。仅在美国,医疗欺诈每年就造成数百亿美元的损失[62] ,而打击欺诈是立即降低医疗成本的明显举措之一。需要注意的是,某些形式的欺诈不仅损害支付方,还直接伤害患者(例如,不必要的手术)[63],[64]。当然,在对合理索赔收费与滥用和欺诈之间存在一个灰色地带。显然,为未提供的服务计费,例如为虚构患者或已故患者计费,属于明确的欺诈行为,但在某个病例中是否确实需要昂贵的治疗则可能存在争议。

技术解决方案侧重于已知欺诈模式检测、可疑案例优先排序以及新型欺诈识别。一种更为复杂的方法是利用临床路径统计模型和最佳实践,以检测相对于人群的异常索赔,并分析同一医疗服务提供者内部收费模式中的可疑时间变化。此外,还可以分析不同类型的提供者网络,其中节点为医疗服务提供者,链接为共同患者,进而分析同质性或“连带责任”模式。

另一种措施是医疗服务提供者黑名单。大多数商业系统采用多种策略组合[62]。尽管做出了这些努力,但由于系统的碎片化和巨大的灰色地带,据估计目前仅能发现实际发生欺诈行为的一小部分。

C. 登记系统

疾病或患者登记系统是与具有特定诊断、状况或手术的患者相关的二次数据的集合。目前存在针对数十种问题的登记机构;其中最著名的为癌症登记系统,这些系统已成为在美国以及许多其他国家理解和检测癌症的宝贵工具。

基于人群的癌症登记系统定期监测明确定义的人群中新发癌症病例(即发病病例)的频率。其基础是来自不同来源的病例报告,例如治疗机构、临床医生和病理学家,以及死亡证明。当登记系统中观察到病例意外增加时,将提出关于可能原因的假设。随后在第二步中通过收集更详细的数据并进行进一步分析来验证这些假设。登记系统数据对于确定癌症在地理和时间上的聚集模式至关重要,并可用于开发以及追踪最有效的治疗方法和治疗。基于人群的登记机构还可以监测预防措施的效果。公共卫生官员利用这些数据来决定研究资金以及教育和筛查项目的投入[65]。与人群登记机构相比,医院登记机构是利用有关诊断、治疗和结果的更详细数据,在诊所或诊所系统内进行研究的传统手段。

癌症登记系统所能得出的结论的质量在很大程度上取决于数据的完整性和质量。这两方面都可能通过采用电子健康记录(EHR)得到改善:HITECH法案第二阶段要求电子健康记录向癌症登记系统报告,以支持比较效果研究。2012年10月,肯塔基大学启动了美国首个将癌症病例通过电子健康记录向州级癌症登记系统报告的可行模型[65]。

一个重要方面是确保电子数据传输的安全,并已实施适当的预防措施和保护手段。如果仅报告摘要信息,则可以避免违反健康保险可携性和责任法案(参见第四节-G)。需要注意的是,通过登记机构获得的是使用中的数据,必须意识到可能存在影响分析结果的混杂因素(参见第三节-G中的讨论)。

D. 健康信息交换

健康信息交换(HIE)是指在不同机构之间以数字化形式进行医疗保健信息调动的各种活动[5]。其旨在规范在多样且常常相互竞争的医疗机构之间电子化传输临床和行政信息[66]。HIE 还有助于公共卫生部门对人群健康状况进行分析。

一些组织已经出现,以支持独立层面以及政府/地区层面的健康信息交换(HIE)工作。这些组织制定并管理一系列合同性规范和条款,并开发和维护健康信息交换(HIE)标准。

健康信息交换(HIE)的数据架构主要有两种模式。在集中式健康信息交换中,存在一个中央(或主)数据库,其中保存着所有相关患者记录的完整副本。在联邦式健康信息交换中,每个医疗保健提供者负责维护其各自患者的记录,以及数据的可用性和通用数据标准。

患者同意可以通过选择加入模式或选择退出模式进行管理。在选择加入模式中,患者默认不会被自动纳入健康信息交换(HIE),通常必须提交书面许可,其数据才能被共享。在选择退出模式中,当患者同意使用向健康信息交换(HIE)提交数据的医疗服务提供者的服务时,即视为默示同意。在此后一种模式下,患者可以要求退出健康信息交换(HIE),通常需要提交书面申请。

一个主要目标是建立一个全国健康信息网络,使医生能够快速访问患者的完整病史,同时不损害其隐私。另一个目标是利用这些数据支持学习型医疗系统,并为大数据分析提供数据[6],[67]。

E. care.data

英国拥有国家医疗服务体系(NHS),旨在解决美国及许多其他国家碎片化系统带来的诸多问题。2013年春季,卫生与社会保健信息中心(HSCIC)宣布了一项名为care.data的计划。care.data计划旨在整合来自不同来源的健康与社会护理信息,以分析国家医疗服务体系(NHS)的优势和潜在缺陷[68]。这些数据可以以匿名形式供医疗研究人员、管理者和规划者使用,也可提供给NHS以外的机构,如学术机构或商业组织使用。

该项目的既定目标如下:

  • 以更好地了解疾病并开发药物和治疗方法;
  • 了解公共卫生和疾病的模式与趋势,以确保提供更优质的护理;
  • 规划服务以充分利用有限的NHS预算;
  • 监测药物和治疗方法的安全性;
  • 比较全国不同地区医疗服务提供者的质量。

无论该项目管理是否良好,该经历都表明此类项目可能遇到哪些类型的接受度问题。当时实施了一种选择退出模式,即告知个人他们的健康数据可能会被上传至卫生与社会保健信息中心(HSCIC),除非他们提出反对,但这一选择退出机制并不明确。一个主要问题是患者无法确定其数据将被用于何种用途,即无法通过排除保险公司和制药行业来限制数据仅用于医疗研究。另一个问题是数据经过假名化处理,即使用了唯一患者标识符,批评者认为这并不会对重新识别构成重大障碍。人们担心数据会向麦肯锡或普华永道等咨询公司以及阿斯利康等制药公司开放。此外,也有人担忧警方可能访问这些数据。

2014年10月,该计划由内阁办公室重大项目管理局进行了审查,结论是其在项目定义、进度、预算、质量及/或效益交付方面存在“重大问题,目前看来无法管理或解决”。

F. 激励计划

言辞颇为引人注目:一些人认为,医疗保健正经历其历史上最重大的变革,这一变革由数字化和大规模数据分析所推动。由于不断飙升的护理成本、报销模式的转变以及消费者期望的变化。在保持当前质量的同时,改革医疗系统以降低成本增长速度,对许多工业化国家而言可能至关重要。老龄化人口以及更新、更昂贵的治疗方法的出现将加速这一趋势。

有人认为,通过全民更健康的生活方式可以实现迄今为止最大的节约,这将大大预防心血管疾病和糖尿病等慢性疾病。慢性疾病占美国医疗成本的惊人的75%[69],[70]。人们寄希望于健身和健康应用程序的广泛普及可能对人群健康大有裨益(见第六节)。

人群健康管理通过各种措施改善现状,例如采用基于价值的报销系统,促使医疗服务提供者改变其收费方式。目标是使激励措施与质量和价值保持一致。医疗服务提供者不再按照他们提供的就诊次数和检测数量获得报酬(按服务收费),而是越来越多地根据所提供的护理的价值获得支付(基于价值的医疗)。对于那些无法达到规定评分的医疗服务提供者和医疗系统,经济处罚和较低的报销将带来显著的经济负担。

美国的一项重要工具是HITECH法案。该法案根据2009年美国复苏与再投资法案(ARRA)制定。根据HITECH法案,美国卫生与公共服务部(HHS)正在投入数百亿美元,以促进和扩大卫生信息技术的应用,从而实现全国范围的电子健康记录网络。这将为明智的人群健康管理以及总体上提高医疗保健的质量、安全性和效率奠定基础。

总体目标是通过确保充分的隐私与安全,改善护理协调,减少医疗差异,让患者及其家属参与进来,并改善人群健康和公共卫生。

实施分为三个阶段。一个组织必须证明已成功实施并使用某一阶段至少最短时间后,才能进入更高阶段。如果成功达到各阶段目标,医疗补助保险计划(Medicaid)和联邦医疗保险计划(Medicare)将支付经济激励措施。如果未达到阶段目标,两个系统均可实施经济处罚。

在第一阶段,参与机构不仅需要引入电子健康记录,还需要证明其有意义使用。核心要求集包括对药物医嘱使用计算机化医嘱录入、实施药物‐药物和药物‐过敏检查,以及实施一条临床决策支持规则。此外,还需要证明对电子健康信息的保护(隐私与安全)。

第二阶段引入了新需求,例如证明医疗服务提供者与患者授权实体之间能够电子交换关键临床信息。健康信息交换(HIE)(见第四部分D节)已成为医院在第二阶段的核心能力。

有意义使用的第三阶段对于医疗服务提供者而言,正成为迄今为止最具挑战性和最详细的级别。其中包含额外的质量报告、临床决策支持和安全风险分析等内容。第三阶段规则将临床决策支持列为八个关键目标之一。与第一阶段要求的一项临床决策支持规则不同,第二阶段和第三阶段明确要求实施五项临床决策支持干预措施。

尽管HITECH法案受到许多人的欢迎,但也有人批评其增加了报告负担,并且关注报告要求而非结果。HITECH法案为数据挖掘和文本挖掘提供了许多机会,例如在开发认证工具方面,以提供证据证明医疗服务提供者正在满足各项有意义使用标准。

其他激励计划也已实施。例如,医疗保险和医疗补助服务中心(CMS)通过医院再入院减少计划(HRRP)提供激励措施。如果患者在出院后30天内因相同问题未被同一家诊所收治,则支付激励措施。

纽约州卫生部已实施交付系统改革激励支付计划,旨在改造纽约州医疗补助的医疗服务交付模式,将可避免的住院减少25%。如果在五年内实现这一雄心勃勃的目标,将向25个优选提供者系统(PPSs)支付超过80亿美元的激励和基础设施费用。这25个PPS各自是地理上本地的、规模不同(从100+到接近500+)的网络,包括医院、医师诊所、影像中心、专业护理机构(SNFs)、康复机构和临终关怀机构。这些机构通常会争夺患者,但现已自愿联合起来,形成可信健康网络(即PPS)。他们已同意共享患者数据并协调患者护理,通过更高效、以患者为中心且协调的系统来改善患者护理和体验。各PPS根据其所在地区的社区健康评估结果,选择参与不同的重点计划(例如针对心理健康、母婴健康、糖尿病、儿童哮喘等)。

尽管与更为引人注目的精准医学倡议相比,人群健康管理可能看似缓慢且平淡,但最近有观点认为,如果着眼于当前技术水平[71],[72],前者的影响力可能会大得多。拜耳和加莱亚写道:“以糖尿病为例,精准医学可能仅能帮助少数零散患者获得合适的临床试验来应对他们的1型糖尿病,但可能无法像完善的风险分层和预测分析项目那样,防止28%未确诊的2型糖尿病患者因缺乏治疗而经历不良反应”[71]。

G. 数据隐私、去标识化和健康保险可携性和责任法案

医疗行业中的数据泄露事件比预期更为频繁[11]。2015年2月对安森健康发起的网络攻击便是一次警示,该事件影响了7880万人的个人信息。医疗保健信息在黑市上具有相当高的价值。由于总体而言,即使发生重大数据泄露也不会影响收入,因此相关机构在数字安全方面的投资激励措施较少;因此,法规被引入以鼓励采取安全措施。

任何个体的医疗和个人信息的存储、访问和共享均在HIPAA隐私规则中予以规定。HIPAA安全规则则制定了保护以电子方式创建、接收、维护或传输的健康数据的国家安全标准。后者也称为电子受保护的健康信息(ePHI)[73]。

HITECH法案通过引入对违反HIPAA隐私和安全规则的卫生组织的处罚,支持HIPAA要求的执法。任何处理受保护的健康信息的公司都必须确保所有必要的物理、网络和流程安全措施均已到位并得到遵守。

V. 患者主导

患者在管理自身健康和健康数据方面变得更加积极主动(患者赋权)。患者留下的痕迹可被分析,以更好地理解人群健康和健康问题。然而,公开痕迹也可能被用于对患者不利的用途,人们对欺凌和社会评分的担忧也日益增加。

A. 留下痕迹

基于网页的搜索几乎已成为每个人生活的一部分,也是人们了解自身健康问题的首选途径。与健康相关的研究通常从维基百科开始,患者和医疗专业人员都经常查阅维基百科以获取健康问题的信息。尽管有人提出了质量问题[74],但维基百科无疑是重要的信息来源。目前存在许多专业健康门户网站(例如 netdoctor、healthline、雅虎健康、WebMD、whatnext.co 和 RevolutionHealth),其中一些网站由梅奥诊所和克利夫兰诊所等领先的医疗服务提供者运营。

其他网络服务帮助患者找到适合其问题的医疗服务提供者。其中包括商业资源如Healthgrades和ZocDoc,以及政府诸如联邦医疗保险计划的医院比较网站之类的资源。人们可以观察到,越来越多人愿意“为健康购物”,这引发了一个问题:哪家公司将成为“医疗界的亚马逊”[75]。

与普通人群类似,患者在Facebook和各种博客等社交网络中的活动日益频繁。此外,还有一些社交网络服务针对特定的健康问题[76]。其动机显而易见:患有相同问题的患者希望进行交流并分享信息。这些特定问题的社区由商业和非商业网站平台组织,第三方可向这些群体提供专门的服务。

不仅仅是患者可能希望进行自我组织,诊所和医疗专业人员也是如此,因此协作工具应运而生。

B. 分析痕迹

对匿名搜索查询日志和社交媒体中的痕迹进行统计分析,可用于为公共卫生、流行病学家和决策者提供信息。它可支持疫情的早期检测、疾病传播的分析与建模以及其他用途[77]。信息流行病学是一个新术语,指对匿名痕迹进行大规模分析,有可能产生有价值的结果和洞察。此类分析能够应对公共卫生挑战,并为科学发现提供新的途径[77]。

一个被广泛讨论的例子是将搜索查询日志分析作为疾病暴发的指标。其思路在于,社交媒体和搜索日志可能立即指示流感等传染病的暴发,并包含其传播的详细时空信息。此前,此类暴发可能数天甚至数周都未被发现。但相关模型已被证明难以实现预期效果。例如,谷歌流感最初预测效果良好,但后期拟合度非常差[78],[79]。

另一个应用是检测药物不良反应,通过联合分析美国食品药品监督管理局不良事件报告系统、匿名搜索日志和社交媒体数据,可以改善这一检测[77]。在药物警戒中,对患者痕迹的分析正变得越来越重要,药物警戒涉及药品不良反应的收集、检测、评估、监测和预防。

然而,对于来自网络查询日志和社交网站的数据在质量、可靠性以及偏倚方面的经验仍然较少,因此应极其谨慎地得出结论[80],[81]。

这些发展也存在危险:相同的痕迹在被重新识别后,可能被用于对特定个人进行推断,进而推测其健康状况。与此相关的许多问题,例如,医疗保健中的社会评分。[77]报告了一款名为“好心撒玛利亚人”的推特自杀预防应用程序,该程序监控个人的推文,寻找可能表明存在心理健康危机的词语和短语。该服务因不断出现关于侵犯隐私以及跟踪和欺凌潜在危险的投诉而被下架。正如[77],所指出的,健康问题也可能从看似无关的痕迹中推断出来。仅仅在社交网络和互联网搜索中改变沟通模式,就可能表明一位新妈妈有产后抑郁症的风险。

另一个问题是,一些公司正与分析专家合作,追踪员工的搜索查询、医疗索赔、处方,甚至投票习惯,以深入了解他们的个人生活[82]。尽管《健康保险可携性和责任法案》(HIPAA)禁止雇主查看员工的健康信息,但这并不适用于第三方。其中一家受到公众关注的公司是Castlight,该公司收集工人医疗信息的数据,例如谁正在考虑怀孕或谁可能需要背部手术。Castlight的政策是仅直接向个人提供信息和建议,并仅向雇主报告统计数据。

这些问题正日益受到监管机构的关注,例如美国的残疾人法案(ADA)和遗传信息非歧视法案(GINA)。霍维茨和穆利根[77]指出,在强大的机器学习算法面前,保护公民免受侵害存在技术难题,这些算法能够“跨越类别”:机器学习可以从远离医疗环境产生的非医疗数据中推断出健康状况[77]。

C. PatientsLikeMe

一个公开的商业社交网络项目是PatientsLikeMe[83],[84] ,该平台拥有数十万患者用户,涉及一千多种疾病。大多数用户患有肌萎缩侧索硬化症、多发性硬化症和帕金森病等神经系统疾病,但 PatientsLikeMe也越来越多地关注艾滋病和情绪障碍[85],[86]。

PatientsLikeMe 不仅仅是一个提供自助新闻的聊天板,还收集定量数据。它设计了多种详细的问卷,定期分发给其成员。例如,癫痫患者可以将他们的癫痫发作信息输入到癫痫监测器中。该平台还提供一种调查工具,用于衡量患者对其治疗方案的依从程度,同时还会扫描聊天板中的语言,以发现令人担忧的词语和表达。

PatientsLikeMe 提供多项服务。例如,它与马萨诸塞州眼耳医院合作,为帕金森病患者以及伴随情绪障碍出现幻觉的人群开发了一种对比敏感度测试。

PatientsLikeMe 的商业模式并非基于广告。相反,该公司将其商业模式建立在将患者利益与行业利益相结合的基础上,即加速临床研究、改善治疗以及提升患者护理。为实现这些目标,PatientsLikeMe 向其合作伙伴(包括制药公司和医疗器械制造商)出售汇总的去标识数据。通过这种方式,PatientsLikeMe 旨在帮助医疗行业的合作伙伴更好地了解患者的现实世界体验以及疾病的现实发展过程。PatientsLikeMe 过去和现在的部分合作伙伴包括优时比、诺华、赛诺菲、艾瓦里尔制药和阿科达治疗学。

D. 管理您自己的数据

消费者可能不仅希望研究自己的健康问题并与他人交流,还可能希望管理自己的数据。

如果患者要对自己数据负责,他们必须能够存储、管理和控制对这些数据的访问。这在本质上超出了患者自身的能力范围,因此需要商业和非商业服务来实现部分必要功能[87]。其核心是个人健康记录(PHR),即以患者为中心整合的所有个人健康信息。

最早的服务之一是微软的HealthVault,它面向希望管理自己或家人健康的消费者。HealthVault允许存储和整合患者的终身健康信息,并使患者能够授权特定方访问这些信息。例如,HealthVault可保存儿童免疫接种记录或用户的医学影像结果,并在需要时向授权方显示这些数字记录。医生可以直接将数据和文件发送到个人的HealthVault账户中。该网站还允许用户生成信函,提供给其医疗专业人员,其中包含操作说明以及安全和加密细节。正如下一节所讨论的,大量与医疗保健和健身相关的数据由移动设备产生,而类似HealthVault的服务则提供了方便的功能,用于管理、存储和分析这些数据。世界医疗卡和 WebMD也提供相关服务。

由于隐私问题及其分布式特性,个人健康记录(PHRs)很难作为分析项目的一部分使用;然而,PHR中的丰富信息可用于个性化预警与咨询系统。

VI. 连续医疗保健

随着移动设备的技术飞速进步和广泛普及,移动医疗以及更广泛意义上的技术赋能医疗的颠覆性潜力经常被讨论[88],[89]。新一代经济型传感器能够以前所未有的质量和数量在诊所之外收集健康数据。这使得医疗保健从以偶尔与医疗服务提供者接触为主的片段式医疗,转变为连续医疗,即随时随地进行健康监测和护理!连续医疗确实有潜力推动当前医疗连续性从以治疗为基础的体系向以预防为基础的体系转变。乍一看这似乎是一个遥远的目标,但许多健康问题可以通过健康生活方式、疾病的早期发现以及早期干预相结合来预防。然而,其全部潜力仍有待释放,2012年皮尤研究中心关于移动医疗的一项研究揭示了这一点[90]。尽管约有一半的智能手机用户使用手机查找健康信息,但只有五分之一的智能手机用户拥有健康应用程序。目前,这一令人兴奋的领域正处于变化之中,广泛采用的机遇、挑战和关键因素正在当前的研究中被讨论[91]–[94]。

A. 技术基础

移动医疗的技术基础包括智能传感器、智能应用和设备、先进的远程医疗网络(如优化护理网络)以及支持性软件平台。大量新型设备已进入市场,包括智能手机、智能手表、智能腕带、智能耳机和谷歌眼镜等。未来,患者消费者可能会使用多种不同的设备来测量各种不同的信号:“测量脑活动的耳机、用于心脏监测的胸带、针对独居老年人的运动传感器、糖尿病患者的远程血糖监测仪,以及用于检测尿路感染的智能尿布”[11]。体域网(BAN)是另一种技术推动力,其配备的传感器可测量生理信号、身体活动或环境参数,并配有类互联网基础设施。例如,体域网可用于监测心脏病患者并帮助诊断心律失常[95]。

移动设备的附加组件,如芯片实验室技术,是特别引人注目的技术,可能代表一种新型的即时检测设备。Laksanasopin et al.[96]展示了一种可在智能手机配件上运行的实验室级免疫测定,而Knowlton et al.[97]展示了一种用于检测镰状细胞病的智能手机用3D打印附件。对于基础设施有限的发展中国家而言,此类技术的潜力巨大。

从工程视角来看,持续性医疗护理与状态监测和预测性维护相关,这些技术由智能传感器、连接性和分析实现,这种组合通常被称为物联网(IoT)。通过测量和聚合许多不同个体的信号,机器学习算法可以被训练用于检测异常和意外关联,这可能会产生新的见解。诸如开放移动健康倡议之类的开源计划是重要的推动因素,有助于克服数据集成挑战。

B. 用例类型

1) 疾病预防 :智能手机正越来越多地用于测量、管理和显示体重、身体活动、吸烟和糖尿病等健康和生活方式相关参数。改善普通人群的生活方式和健身状况有望大幅降低医疗成本,因此这类健康监测可能对人群健康和医疗成本产生显著的积极影响。在最近的一份声明中,美国心脏协会(AHA)综述了当前使用移动技术减少心血管疾病(CVD)风险行为的情况[98]。心血管疾病(CVD)仍然是导致死亡、残疾和高医疗成本的主要原因[98] ,因此是研究移动健康技术潜力的典型例子。该研究调查了消费者可用于预防心血管疾病的多种工具,包括短信(例如戒烟支持)、可穿戴传感器和其他智能手机应用。尽管还需要更多证据和研究,但移动健康在心血管疾病预防方面前景广阔。美国心脏协会(AHA)强烈鼓励开展更多研究。

2) 早期检测 :许多疾病在早期发现且尚未引发严重健康后果时最易治疗。早期检测可发生在群体层面或个体层面。柯林斯[88] 提出了一种针对由疾病相关参数(如环境暴露或传染性病原体)引起的疾病暴发的早期预警系统。在个体层面,前述体域网是实现异常早期检测的重要推动因素。所谓智能警报可被视为个体层面另一种形式的早期检测。智能警报涵盖多种应用程序,尤其适用于老年人,用于监测心脏活动、呼吸以及潜在跌倒[95]。

AliveCor公司提供一种可连接至移动设备(智能手机或平板电脑)的移动心电图设备。该连接设备生成的心电图可通过应用程序进行记录。该移动心电图设备已获得美国食品药品监督管理局批准,还可检测导致死亡率和发病率的主要原因——心房颤动。AliveCor公司称,该设备已用于记录超过五百万份心电图记录。这些数据随后被用作训练异常检测算法的基础。

3) 疾病管理 :当患者可以在家中而非诊所接受监测,并且医生能够在无需频繁就诊的情况下优化治疗时,医疗成本可以降低。呼叫患者前来就诊。一些医院和诊所作为研究研究[11]的一部分,持续收集各种健康参数的数据。慢性疾病的管理尤其可以从连续医疗中受益。在最近的一项综述[99],中,Hamine et al.系统地筛选了随机临床试验,以寻找使用移动健康技术时治疗依从性更佳的证据。这些应用程序的类型从简单的短信服务到使用智能手机和其他无线设备进行视频消息传递不等。他们得出结论认为,这些技术无疑具有巨大潜力,但由于试验中的证据参差不齐,仍需进一步研究以提高其可用性、可行性和可接受性。

4) 支持转化研究 :全球有数亿部智能手机在使用中,这可能会极大地改变患者参与临床研究的招募方式。未来,患者或许可以自行决定是否要参与医学研究,并且能够指定其数据如何被使用和与他人共享。

主要研究机构已经开发了用于哮喘、乳腺癌、心血管疾病、糖尿病和帕金森病研究的应用程序。一个有趣的用例是使用移动健康技术在临床试验中控制疾病终点。具体而言,罗氏开发了一款应用程序,用于控制或测量帕金森病的临床终点。该应用程序作为传统医生主导评估的补充,目前正在I期试验中用于持续测量疾病和症状严重程度。该应用程序基于统一帕金森病评定量表(UPDRS),这是评估疾病和症状严重程度的传统方法。该测试约需30秒,涵盖六个与终点相关的参数,包括语音测试、平衡测试、步态测试、灵巧性测试、静止性震颤测试和姿势性震颤。

临床试验转化倡议(Clinical Trials Transformation Initiative)是一个代表临床试验领域 diverse 利益相关者的组织,致力于推进下一代临床试验。最近,该倡议启动了移动临床试验计划,以研究移动技术及其他远程异地技术如何进一步促进临床试验的开展。

C. 选定项目

许多不同的项目已经启动,涉及诊所、研究机构和技术提供商。在MD 安德森癌症中心与Polaris Health最近启动的一项试点项目中,苹果手表将收集乳腺癌患者[100]的数据。根据Polaris的声明,将要收集的数据包括治疗副作用、睡眠行为信息、身体活动水平以及患者情绪。研究人员将把这些信息与患者的电子健康记录数据以及其他乳腺癌患者的健康数据结合起来,以产生新的洞察。

另一个例子展示了发展中国家的潜力。非营利性科技机构Medic Mobile开发了一个软件平台,该平台已应用于非洲、拉丁美洲和亚洲的23个国家,以改善农村地区的护理服务。该平台的应用场景涵盖产前护理、儿童免疫接种、疾病监测以及药物库存监控。关于产前护理,该机构在其主页上报告称,在孟加拉国、肯尼亚和尼泊尔等国家,已有约50万人接受了服务。超过1800名社区卫生工人使用他们的智能手机,在妇女怀孕后将其登记到中央数据库中。系统会自动发送短信以安排就诊时间,卫生工人也可登记任何潜在的危险迹象。

日本邮政是日本最大的保险公司之一,它与 IBM和苹果公司合作,应对老龄化社会的问题[101]。他们将围绕智能手机设计应用程序分析和云服务,以帮助数百万老年人与其家庭以及医疗保健服务保持联系。该项目将帮助日本邮政——该公司 already 拥有大规模的医疗保健信息数据集合——更深入地了解其客户,并改善老年人的健康与福祉,从而让客户有可能更长寿、更健康、更独立地生活。

量化自我运动[102]通过自我追踪生物、物理、行为或环境信号[102],利用传感器将个人的日常生活转化为数据。该社区由一家同名公司支持。

D. 对临床环境和医生诊所的影响

一些医院和保险公司已经认识到患者使用远程医疗服务的意愿,因此正通过Skype和其他网络会议系统向患者提供视频咨询——一种现代版的“上门诊疗”。布卢门撒尔写道:“正如视频通话和即时通讯彻底改变了人们的沟通方式一样,现在卫生系统正在探索如何通过电子健康咨询来缓解超负荷运转的初级医疗系统的压力。”一些患者发现,这种电子就诊比去诊所更便宜、更方便。最近一项调查显示,约55%的受访者愿意将皮肤照片发送给皮肤科医生进行咨询。研究人员表示,需要更多证据来了解虚拟医疗就诊是否真的能够降低成本或改善健康结果。但患者消费者对此有需求,一些大型保险公司已开始为这些虚拟咨询付费[11]。

E. 监管影响

连续医疗生态系统将此前或多或少互不关联的利益相关者聚集在一起,现在他们必须相互协作。例如,在美国,某些应用程序开发者突然需要应对来自美国食品药品监督管理局(FDA)的上市前通知或所谓的 510(k)清除流程。这里的关键问题是,哪类移动医疗(mHealth)应用程序属于FDA对医疗设备的监管范围。事实上,根据FDA的指导,目前已有针对“移动医疗应用”的不同分类,但这些分类似乎尚未最终确定。

尽管监督医疗设备(也包括某些类型的移动应用程序)的安全性和有效性是美国食品药品监督管理局的传统职责,但一些政治家和行业代表担心监管监督会阻碍创新。然而,已有医生因移动医疗应用程序出现意外行为而收到警告信;另一个案例显示,在两年内,某款特定的糖尿病应用产生了约52份不良事件报告[104]。显然,利益相关者之间需要进一步深入的对话。Hamel et al.[104]详细描述了移动健康技术监管所带来的挑战,并提出了潜在的替代性监管情景。

F. 结论

总之,持续医疗保健的潜在益处是巨大的。当然,仍有许多挑战:能否解决数据隐私方面的重大问题?能否长期维持公众对医疗应用的兴趣,还是说这些应用只是一种暂时现象?移动医疗是否会建立报销结构?有多少企业能找到长期可持续的商业模式?我们能否克服数据集成挑战,从而为数字移动健康数据赋予临床意义?

VII. 个性化的实现

A. 精准医学正在改变医疗保健

通过同时最小化不良副作用来最大化医疗保健干预的积极效果,一直是个体化医疗的梦想。在过去几十年中,人们逐渐认识到,仅依靠传统研究的见解无法实现这一目标,因为在大规模患者研究群体中,副作用也各不相同。原因是由于个体的生物学差异、环境以及发病机制的不同,任何一种复杂疾病的发作都是独一无二的。精准医学、个性化医疗、个体化医学和分层医学——这些术语我们将互换使用——均指利用诊断检测,根据疾病风险或对治疗的反应将患者进行分组。精准医学指的是定制化医疗保健的理念,即医疗决策、实践和治疗过程针对特定患者群体量身定制。在其最极端的解读下,这引出了“n = 1 ”原则,意味着治疗应根据患者的个体特征进行定制,有时被称为“独特疾病原则”[105]。

毫无疑问,实现个性化医疗最重要的里程碑是大约15年前发布的人类基因组参考序列[106],[107]。在随后的几年中,患者的基因组谱型结合其他分子和细胞数据,成为深入理解疾病分子基础并取得巨大进展的基础。这一知识的影响不仅限于研究领域:随着下一代测序(NGS)等新的分析方法和新型蛋白质组学平台的发展使成本降低,分子数据将越来越多地融入临床实践。

主要目标是将生成的数据与临床可操作信息相关联。随着数据的增长,即使关联性较弱,也能发现并验证日益复杂的现象。事实上,研究和临床应用伴随着可用于描述生理和病理生理特征的数据体量和多样性的巨大增长。全基因组关联研究(GWAS)从数千名个体中收集超过百万个属性,便是很好的例子。

实现个性化医疗的愿景是基于研究实验室和诊所网络中的最新研究成果,对患者生物材料进行快速、实时的分析。

对疾病生物学原因的深入理解可能在未来导致疾病分类更加有意义,并在某种程度上取代主要基于临床表型分析[54]而制定的医学编码。

迄今为止,精准医学的大部分努力都集中在癌症(肿瘤学)领域,但精准医学在其他医疗领域也变得越来越重要,例如中枢神经系统(如阿尔茨海默病和抑郁症)、免疫学/移植、产前医学、儿科学、哮喘、传染病以及心血管疾病[108]。

B. 从分子层面理解疾病

在过去的几十年里,人们高度关注于了解疾病的遗传原因。

高外显率的单基因遗传病已与遗传基因中单个基因的突变相关联。目前大多数单基因遗传病的致病基因已被确定[109]。

单基因疾病相对罕见,而研究重点已 largely 转向复杂疾病:最常见的疾病(包括大多数癌症)基于多种因素的相互作用,这些因素包括若干遗传性基因变异、细胞生命周期中获得的一个或多个突变,以及环境因素。例如,全球约有18%的癌症与传染病相关[110]。由于多种因素的复杂相互作用,这些疾病表现出所谓的“缺失的遗传率”。

通过对种系DNA(通常来自血细胞)的研究,可以获得有关遗传性细胞疾病的信息。全基因组关联研究(GWAS)分析种系遗传变异与常见表型特征(如乳腺癌[111])之间的相关性。随着下一代测序(NGS)技术的发展,未来全基因组测序的成本可能降至数百美元的水平,这将使基因组分析变得更加普遍。最终,基因组测序的日益广泛应用将有助于更深入地了解哪些疾病可由遗传变异解释,并可能对某些疾病的分子医学带来革命性变化。

根据种系DNA谱,有时可以预测一个人一生中患某种疾病的可能性,从而实现早期干预,并可能防止疾病爆发。

其他值得关注的遗传变异是在体细胞生命周期内获得的,这些体细胞构成了生物体的所有细胞,但不包括生殖细胞。随着基因改变的积累,体细胞可能转变为恶性细胞并形成癌性肿瘤。体细胞癌细胞的基因谱型(突变和扩增)通过肿瘤活检分析获得。其特有的突变和基因扩增模式与许多临床相关特征相关,例如预后或治疗反应[112]。在某些情况下,肿瘤易于接近,但在其他情况下,如某些器官(例如脑、肝、肺)的肿瘤或转移灶,活检并非标准诊疗手段。对于这些癌症患者而言,获取可用于获得基因组信息的材料较为困难。最近,已开发出新方法,可对肿瘤材料的替代来源进行分析,例如循环肿瘤细胞(CTCs)。这些是来自原发性肿瘤并脱落进入血液系统的癌细胞。CTCs可能成为在远端器官继发肿瘤生长(转移)的种子,从而触发导致大多数癌症相关死亡的机制。因此,CTC分析可被视为一种“液体活检”。此外,发现循环肿瘤DNA(ctDNA)能够反映肿瘤的基因组谱型,可用于癌症检测以及预测治疗疗效[113]。

到目前为止,我们一直关注DNA。RNA从 DNA转录的过程称为基因表达。这一过程起着关键

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值