这篇报告是2017年12月发布的,作者是美国独立的科学和技术专家组成的独立咨询小组,针对一些认为医疗AI所作出的承诺仅是炒作,而没办法真正实现的一个详细的解释,论据也都是一些已经将AI技术应用到医学领域的案例,这个报告也关注了医疗AI技术目前发展遇到的问题,并对如何更好的发展提出了建议。
可执行摘要:
在智能可移动设备上推行智能健康系统,利于收集数据,并且容易执行。
关注:
在未来10年内可实现的技术能力,局限和应用。
提出目前对于医疗AI发展最关键的是数据。
获取数据有两个主要问题:
一是隐私问题,导致收集和共享数据困难;
二是成本,收集数据成本昂贵,比如临床试验,需要从一开始就密切关注数据。此外,医疗保健系统缺乏互操作性可能是实现这一目标的重要绊脚石。
(不同的信息系统之间共享信息或依据所共享的信息做出某种行为,我觉得前提是有需要相同的标准,目前我知道的比较严格的体检就是公务员考试了,是指定医院检测,但是在A,B同时为两家有权威的医院前提下,每年都会出现不满足A医院的体检要求,但是满足B医院的情况出现)
重点关注两个问题:医疗影像和诊断以及患者数据和风险分析。还有就是医疗方面的创业公司并没过多关注的话题,就是环境因素的重要性。
本报告论据内容主要分为7节:
第1节着重于医疗保健和提供的医疗保健服务
在这一节,讲了两个基于深度学习,通过医疗图像分析病情的案例。
一个是糖尿病视网膜病变,二是皮肤癌的诊断。
综合两个样例,基于高质量训练集的AI算法在其训练数据中捕获的医疗能力级别上展示了医学图像分析的性能,都是优于人工评估的。
不足在于AI算法无法在比其训练数据更高的水平上执行(使用活检结果标记皮肤图像),但应该为训练空间内的图像始终如一地提供相同的性能标准。
因此作者提出建议,支持使用原本标准之上的数据来训练评估AI算法,例如使用诊断测试的另一阶段(例如,使用活检结果标记皮肤图像)的输出来优化算法。
说明了一种新的计算技术应用于实践的关键:
1)开发新技术作为既定的标准的需要经过同行评审的认证,并且可以为AI算法提供保障措施。
2)使用AI诊断作为医疗护理标准中既定步骤的替代方案,需要比使用此类诊断程序提供有助于做出决定的支持信息更多的验证。
建议:
1)支持有前景的AI应用程序工作以及实践结果,以获得临床实践验收所需的严格批准程序。
2)为AI算法构建测试和验证方法,以在与训练集不同的条件下评估算法的性能。
第2节回顾了智能设备和医疗相关的移动应用
总结:
1)健康和保健方面的革命性变化已经开始使用智能设备来监测个人健康。 这些发展中的许多发生在传统诊断和临床环境之外。
2)未来,人工智能和智能设备将日益相互依赖,包括与健康相关的领域。 一方面,人工智能将被用于驱动许多与健康相关的移动附件和应用程序。 另一方面,移动设备将创建大量数据集,这可能为开发基于人工智能的健康和保健工具开创新的可能性。
建议:
●支持AI应用程序的开发,以增强新移动监控设备和应用程序的性能。
●开发数据基础架构以捕获和集成智能设备生成的数据以支持AI应用程序。
●要求开发包括确保数据使用的隐私性和透明性的方法。
●跟踪国外医疗保健系统的发展情况,寻找有用的技术和技术故障。
但是通过这种网络连接共享个人健康信息的潜在危险是一个问题,甚至会出现以利益为导向的AI骗局,作者对此提出了预防的建议,就是支持学习科研机构的参与,以鼓励和支持AI应用在健康领域的最佳实践和部署。
第3节主张需要良好的数据来推动AI应用程序的开发,特别是健康应用程序
1) AI竞赛可以帮助推动AI发展,因为AI的不确定性,并不知道哪种策略性能最好的。并且比赛可以加深我们对健康和医疗的理解, 保健数据性质的理解。
挑战是:
a.需要大型,标记良好的公共或半公开数据集;
b.将竞争导致的软件转化为临床工具
c.竞赛大多局限于图像识别/计算机视觉,异构,嘈杂的医疗数据集尚未得到解决。
还有一类分享讨论的办法,在公共论坛分享数据,让科学家帮助找到有益于健康的新发现。
2) 主张使用无标数据的深度学习
这里提到了强化学习,自动编码器和生成对抗网络(不熟悉),无标数据中学习技术可能有助于解决,使用来自多种来源的数据的问题,
建议是 为广泛基础的数据收集开发自动化策略方法,以便为AI工具进行格式化。
第4节涉及了大规模健康数据收集和缺失数据流的相关问题
提出了收集大规模数据的问题,然后总结web服务收集数据更有可行性,环境数据对疾病的影响也是很重要的,这一部分数据流是大多数公司没有关注的,环境暴露广泛地定义为暴露于化学品,病原体,噪音和能源(微波,紫外线,电离辐射)。对于许多疾病而言,环境暴露在健康影响中比遗传学起更大的作用。但是很少公司关注环境因素数据流的采集和维护。
还有地理环境因素
第5节探讨了AI在健康领域的成功应用的必备条件
一是数据利用上,在是用电子病历作为人工智能的训练集时需注意,如果训练集包含不正确的信息,那么输出可能是无用的或者误导性的。
二是评估方面,通过学界的计算模型,确保数据的透明度的方法在业界刚刚得到发展,比如心血管疾病可能存在多余的指标,它们具有相当高的相关性,
作者建议是鼓励采用透明的流程和政策。然后就是为了防止错误信息泛滥,应该评估在训练集中可能出现的错误率对人工智能算法的影响,支持科研机构参与,实现最佳实践。
第6节总结了调查结果和建议
谈到人工智能在临床医疗上的实践发现,并提出建议
建议包括:
1) 支持AI用于临床实战,设计AI算法,构建算法的测试和验证,用来在训练集不同的条件下,评估算法的性能。
2) 开发基础设施将数据与智能设备和AI工具集成,确保隐私和透明度,激励健康数据共享,制定战略以填充重要的数据空白
3) 创建公共论坛以便让科学家“寻找有益于健康的新发现”的方式共享数据。
最后总结:
将模拟输入转换为数字输出很复杂,并可能导致丢失对用户有用的重要信息。考虑设计未来的医疗保健信息系统时,需要解决两个问题,计算机科学的问题在于,是否可以创建和使用整个医学数据库,并保持数据以我们认知范围内可访问的形式进行维护,从而避免繁琐且成本高昂的从模拟向数字的转换。基本的生物学问题是,人脑中信息的自然编码是基本上是模拟的而不是数字的。