Du Y, Bai F, Huang T, et al. SegVol: Universal and Interactive Volumetric Medical Image Segmentation[J]. arXiv preprint arXiv:2311.13385, 2023.[代码开源]
【论文概述】
本文思路借鉴于自然图像分割领域的SAM,介绍了一种名为SegVol的先进医学图像分割模型,旨在构建一种图像分割基础模型,这是一个面向体积医学图像分割的通用和交互式模型。SegVol的设计目的是通过处理各种解剖类别来提高医学图像分割的准确性和效率。该模型通过在9万个未标记的计算机断层扫描(CT)体积和6千个标记的CT体积上进行训练,能够支持超过200个解剖类别的分割,模型利用语义和空间prompts来实现。SegVol通过使用轻量级架构实现高效率,采用**“缩小-放大”机制减少计算成本**,同时能保持精确的分割。通过一系列实验,SegVol在多个分割基准测试中展现出卓越性能,尤其在复杂病变数据集上的表现显著超过现有先进模型如nnU-Net。
【一.Introduction总结】
这篇论文的Introduction写得很好,提供了对SegVol模型背景、动机、特点和性能的全面概览,这里特别总结如下:
- 体积医学图像分割的重要性:论文首先强调体积图像分割在医学图像分析中的重要作用,特别是在提取感兴趣区域(如器官、病变和组织)方面。体积分割对于多种临床应用至关重要,包括肿瘤监测、手术规划、疾病诊断和治疗优化等。
- 现有研究的局限性:尽管在医学图像分割方面取得了显著进展,但现有的解决方案仍存在关键限制,特别是在处理复杂任务(如肝脏肿瘤或结肠癌分割)和实际任务(如交互式分割)方面。现有模型通常受到可用数据集大小和类别差异性的限制,难以泛化到不同的数据集。此外,传统模型在分割复杂结构(如肿瘤和囊肿)时性能不佳,主要是因为数据不足和无法通过用户交互利用空间信息。最后,现有解决方案在推理过程中计算成本高,通常采用滑动窗口方法进行推理,这不仅耗时,而且由于仅包含局部信息而视野狭窄。
- SegVol模型的介绍:为了克服上述限制,论文引出了SegVol——一种通用且交互式的体积医学图像分割模型。SegVol旨在分割200多种解剖类别,准确分割器官、组织和病变。该模型基于轻量级架构构建,确保其在实际医学图像分析中的高效性。
- SegVol的关键特性:论文概述了SegVol的几个关键特点:
- 预训练:在96k CT体积上进行预训练,并利用伪标签减少数据集和分割类别之间的虚假相关性。
- 文本提示分割:集成语言模型,通过在25个数据集的200多个解剖类别上的训练,实现文本提示分割。
- 语义和空间提示的协同策略:通过协调语义提示和空间提示,实现高精度分割。
- 缩小-放大机制:显著降低计算成本,同时保留精确分割。
- 性能评估:SegVol在多个分割数据集上进行了广泛评估,主要涉及重要解剖类别的实验,展示了其通用分割能力,并与四种最先进方法进行了比较,显示出其显著优势,特别是在难分割的类别中。
【二.数据处理】
数据预处理
本文收集了25个开源数据集,首先基于每个Voxels的平均体素值计算一个阈值。高于此阈值的体素被视为前景。计算前景体素的99.95百分位和0.05百分位,并将其作为剪切原始体素的上下界,进一步使用均值和标准偏差对前景体素进行归一化。
伪掩模生成和去噪
大多数数据集仅具有少数分割目标的注释,例如几个器官。因此,深度模型可能会学习数据集和分割目标之间的虚假相关性,并在推理阶段产生较差的结果。论文使用经典FH算法先产生伪mask,但由于FH产生的伪mask可能含有噪声或者错误,本文采取以下策略进一步处理:1)在应用时,伪掩码被替换为ground-truth掩码。2)过滤掉小于整个体积的1‰的微小结构。3)对每个mask进行膨胀和腐蚀操作。
论文中用于预处理的FH分割算法,这里补充概述一下:“FH algorithm”指的是Felzenszwalb和Huttenlocher提出的图像分割算法。这种算法是一种用于分割数字图像的高效且有效的方法。其核心思想是将图像视为一个图(graph),其中像素代表节点,而节点之间的边代表像素之间的相似度。算法的目的是将图像分割成多个区域,这些区域内部的像素在某种意义上是相似的,而不同区域的像素则具有较大差异。
FH算法的主要特点包括:
1.基于图的表示:算法将图像表示为图,其中图中的每个节点对应一个像素,节点之间的边表示像素间的相似性。
2.分段准则:算法使用特定的准则来决定是否将图中的两个相邻节点(即两个像素)划分到同一个分割区域。这通常涉及比较节点间的相似性(如颜色、亮度或纹理)和预设的阈值。
3.效率:该算法以其计算效率而闻名,能够快速处理大型图像,使其适合于各种应用。
4.灵活性和广泛适用性:尽管该算法最初是为一般图像分割设计的,但它可以通过调整参数适应不同类型的图像和特定的分割需求。
在医学图像处理领域,这种类型的算法可能被用于生成伪标签或辅助标记,从而帮助训练更复杂的模型(如SegVol),尤其是在标记数据稀缺的情况下。通过使用这些伪标签,可以增强模型对未标记数据的理解,从而提高其在实际医学应用中的性能和准确性。
【三.模型结构】
模型结构图:

a. SegVol的主要结构包括图像编码器、文本编码器、提示编码器和mask解码器。除了文本编码器外,所有网络都是可学习的。图像编码器提取体积输入的图像嵌入。图像嵌入与提示嵌入一起输入到解码器中,以预测分割mask
具体组成的各部分概述如下:
- Image encoder
使用VIT,以MAE方式先在96k CTs上自监督训练,然后在6k CT,带有150k标记mask的数据上监督训练。(p.s 这一步就耗费很大了)
-
Text prompt encoder
直接使用CLIP模型对输入的prompts编码,给定一个单词或短语作为提示,使用模板s ='A computerized tomography of a [text prompt]'撰写prompts。然后将

本文介绍了一种名为SegVol的先进医学图像分割模型,通过借鉴自然图像分割的SAM方法,设计了一种轻量级架构,支持200多个解剖类别分割。模型在大量未标记和标记数据上预训练,利用文本提示和空间信息提升分割精度,特别强调了缩小-放大机制以降低计算成本。实验结果显示SegVol在多个基准测试中表现出色,尤其是在复杂病变数据集上优于现有模型如nnU-Net。
最低0.47元/天 解锁文章
38





