医学影像数据处理:从多源数据整合到结节定位
在医学影像分析中,深度学习模型的训练需要对多源数据进行整合和处理。本文将详细介绍如何将不同来源的医学影像数据进行统一,并定位其中的结节信息。
1. 数据概述
我们有两个主要的数据文件: candidates.csv 和 annotations.csv 。
- candidates.csv :包含约 551,000 行数据,每行有 series_uid (用于标识 CT 扫描系列)、(X, Y, Z) 坐标以及一个表示结节状态的 class 列(0 表示非结节,1 表示结节)。其中,被标记为实际结节的候选者有 1,351 个。
- annotations.csv :包含约 1,200 个结节的大小信息( diameter_mm )。这些信息对于确保训练和验证数据包含不同大小结节的代表性样本非常有用,否则验证集可能只包含极端值,导致模型表现不佳。
2. 训练和验证集划分
对于标准的监督学习任务,我们需要将数据划分为训练集和验证集。为了确保这两个集合能够代表真实世界的输入数据,我们将结节按大小排序,并每隔 N 个选取一个作为验证集。
然而, annotations.csv 中的位置信息与 candidates.csv 中的坐标并不总是完全匹配。例如,通过以下命令查询:
超级会员免费看
订阅专栏 解锁全文
1469

被折叠的 条评论
为什么被折叠?



