文章大纲
本文以人工智能医疗器械类项目构建标准数据集的思路为例(国家针对医疗行业比较谨慎,相关标准严格且经过多重验证),探讨机器学习类项目标准数据集的构建过程。
大家都知道深度学习的模型训练需要大量的数据样本,在完整的机器学习流程中通常包含训练集(Training Set)、测试集(Validation Set)和验证集(Test Set)三部分。这三部分的作用分别如下:
训练集:用于训练模型。
验证集:用于调整和选择模型。
测试集:用于评估最终的模型。
人工智能近来在医疗健康领域展现了卓越的技术实力和发展前景,国内外都有大量产品进入市场转化阶段。作为医疗器械的新兴分支,国内外目前没有人工智能医疗器械的评价标准,而此类产品的黑盒特性和快速迭代特性,对医疗器械质量评价和监管提出了新的挑战。
为了更好地服务行业发展和支撑监管需求,中国食品药品检定研究院进行了一些卓有成效的探索,建成了糖尿病视网膜病变眼底图像、肺结节CT影像这两个标准测试集,用于质量评价实践,并初步建立了以标准测试集为主、对抗测试等其他方法为辅的技术保障体系。
元数据治理
参考IBM 的经验
大数据治理统一流程模型概述和明确元数据管理策略