一、案例背景
某医院致力于借助人工智能技术提升肺部疾病诊断效率,计划部署基于卷积神经网络(CNN)的肺部 CT 结节检测模型。该模型的训练与评估依赖医院积累的 500 例肺部 CT 样本(含结节样本与无结节样本),但相较于常规机器学习任务,500 例样本量属于典型的小样本场景。医院核心需求是确保模型在不同患者的 CT 数据上均能稳定发挥检测作用,为临床诊断提供可靠辅助依据,避免因模型评估偏差导致误诊或漏诊。
二、核心问题:小样本下单次 train-test 划分的局限性
在小样本场景中,采用传统的单次 train-test 划分(如按 7:3 或 8:2 比例将 500 例样本分为训练集和测试集)评估模型,易因数据随机性产生严重偏差,主要体现在以下两方面:
- 样本分布失衡:若单次划分恰好将大量 “易识别样本”(如结节体积大、边缘清晰、位置典型的 CT 影像)归入测试集,会使模型测试准确率虚高,无法反映模型对 “难识别样本”(如微小结节、边缘模糊或位于肺部边缘的结节)的检测能力;反之,若测试集集中大量难识别样本,会导致模型准确率被低估,掩盖模型实际性能。
- 数据利用不足:小样本场景下,单次划分会使部分样本仅用于训练或仅用于测试,无法充分利用有限数据挖掘模型潜力,也难以全面验证模型在不同数据分布下的稳定性,增加模型在实际临床应用中 “失效” 的风险。
订阅专栏 解锁全文
2650

被折叠的 条评论
为什么被折叠?



