21、医疗数据的收集、处理与模型选择

医疗数据的收集、处理与模型选择

1. 医疗数据收集

数据收集是收集特定变量的可量化和定性数据的方法,目的是评估结果或获取可付诸行动的见解。可靠的数据收集需要有明确的程序,以确保收集到的统计数据一致、干净且可靠。这包括记录目标、确定数据需求、确定数据收集技术,并最终制定一个综合问题关键特征的数据收集计划。收集数据可被视为解决任何有监督机器学习问题的重要步骤。

1.1 数据收集要点

  • API 使用 :如果使用公共应用程序编程接口(API),在使用之前必须分析其限制。例如,一些 API 会对查询频率设置限制。
  • 样本数量 :最好有更多的训练示例或样本,这有助于模型更有效地进行泛化。
  • 样本均衡 :要确保每个类别或主题的样本数量不过度失衡,即每个类别都应有足够的样本以便进行清晰的比较。
  • 样本覆盖 :要确保样本有效涵盖可能输入的范围,而不仅仅是常见情况。

1.2 数据治理

数据的收集、获取和控制方式各不相同,且通常没有文档记录。为克服这一问题,数据治理应满足两个重要要求:考虑数据的获取和收集方式,并处理和记录为分析目的对数据所做的任何变动或操作。在有人研究、处理或收集数据时,必须遵循特定的数据“保管链”。

1.3 区块链技术

区块链是一种分布式数字存档,有助于记录系统中发生的交易,并使用加密技术进行保护。由于区块链网络具有不可挑战且经过加密验证的安全性,它为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值