医疗数据的收集、处理与模型选择
1. 医疗数据收集
数据收集是收集特定变量的可量化和定性数据的方法,目的是评估结果或获取可付诸行动的见解。可靠的数据收集需要有明确的程序,以确保收集到的统计数据一致、干净且可靠。这包括记录目标、确定数据需求、确定数据收集技术,并最终制定一个综合问题关键特征的数据收集计划。收集数据可被视为解决任何有监督机器学习问题的重要步骤。
1.1 数据收集要点
- API 使用 :如果使用公共应用程序编程接口(API),在使用之前必须分析其限制。例如,一些 API 会对查询频率设置限制。
- 样本数量 :最好有更多的训练示例或样本,这有助于模型更有效地进行泛化。
- 样本均衡 :要确保每个类别或主题的样本数量不过度失衡,即每个类别都应有足够的样本以便进行清晰的比较。
- 样本覆盖 :要确保样本有效涵盖可能输入的范围,而不仅仅是常见情况。
1.2 数据治理
数据的收集、获取和控制方式各不相同,且通常没有文档记录。为克服这一问题,数据治理应满足两个重要要求:考虑数据的获取和收集方式,并处理和记录为分析目的对数据所做的任何变动或操作。在有人研究、处理或收集数据时,必须遵循特定的数据“保管链”。
1.3 区块链技术
区块链是一种分布式数字存档,有助于记录系统中发生的交易,并使用加密技术进行保护。由于区块链网络具有不可挑战且经过加密验证的安全性,它为
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



