医学影像数据处理:从数据整合到结节定位
1. 数据概述与训练验证集划分
1.1 数据基本情况
我们有两个主要的数据文件: candidates.csv 和 annotations.csv 。 candidates.csv 包含约 551,000 行数据,每行有 seriesuid (在代码中称为 series_uid )、一些 (X, Y, Z) 坐标以及一个 class 列,该列对应结节状态(布尔值,0 表示非实际结节,1 表示实际结节,无论恶性还是良性),其中有 1,351 个候选者被标记为实际结节。 annotations.csv 包含约 1,200 个被标记为结节的候选者的信息,我们尤其关注其中的 diameter_mm 信息。
1.2 训练和验证集划分
对于标准的监督学习任务(如分类),我们需要将数据划分为训练集和验证集。划分的原则是确保这两个集合能够代表我们预期在现实世界中看到和处理的输入数据范围。如果其中任何一个集合与实际使用情况有显著差异,模型的表现可能会与预期不同。
我们将通过按结节大小对结节进行排序,并每隔 N 个选取一个放入验证集,以此来确保验证集能够涵盖不同大小的结节,避免验证集只包含极端值而导致模型评估不准确。
1.3 数据匹配问题
然而, annotations.csv 中的位置信息与
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



