整合数据源为统一数据集
在处理医学影像数据时,我们常常需要将多个数据源整合为一个统一的数据集,以便进行后续的分析和建模。本文将详细介绍如何将不同格式的 CT 扫描数据和注释信息整合在一起,为深度学习模型的训练做好准备。
1. 数据概述
我们有两个主要的数据文件: candidates.csv 和 annotations.csv 。
- candidates.csv :包含约 551,000 行数据,每行包含一个 series_uid 、一些 (X, Y, Z) 坐标以及一个表示结节状态的 class 列(布尔值,0 表示非结节候选,1 表示结节候选)。其中,被标记为实际结节的候选有 1,351 个。
- annotations.csv :包含约 1,200 个结节的大小信息,这对于确保训练和验证数据包含各种大小的结节样本非常有用。
2. 训练和验证集的划分
对于任何标准的监督学习任务,我们需要将数据划分为训练集和验证集。为了确保模型在实际应用中的性能,这两个数据集都应该能够代表我们预期的真实世界输入数据的范围。
- 划分方法 :我们将结节按大小排序,并每隔 N 个选取一个作为验证集,以保证数据的代表性。
- 数据匹配问题 :然而, annotations.csv 中的位置信息与 candidates.csv
超级会员免费看
订阅专栏 解锁全文
2395

被折叠的 条评论
为什么被折叠?



