SAM2介绍
SAM 2 是 Meta 公司发布的 Segment Anything Model 2 的简称。SAM 2 是一种先进的图像和视频分割模型,是 SAM 的升级版本。其具有以下特点:
- 准确性提升:相比原始的 SAM 模型,SAM 2 在分割精度上有所提高。
- 速度加快:处理速度提高了大约六倍,能更快地生成分割掩模。
- 支持视频分割:除图像分割外,还支持视频中的对象分割。
- 实时处理:可实现实时处理,适用于增强现实(AR)和虚拟现实(VR)等需要快速响应的应用场景。
- zero - shot 泛化:具有良好的 zero - shot 迁移能力,可在未见过的数据上工作而无需额外训练。
- 可提示的模型架构:继承了 SAM 的特性,能根据点、框、文本等不同的提示来生成分割结果。
SAM 2 的这些特性使其成为计算机视觉领域的重要进展,为图像和视频处理提供了强大的工具,在自动驾驶、医学影像分析、影视后期制作等多个领域都有广泛的应用前景。
摘要
背景:基础分割模型,如分割一切模型(Segmenting Anything Model,SAM)和SAM 2,通过在不同领域实现卓越的零样本性能,改变了分割技术的格局。在本研究中,我们通过检验SAM 2在零样本场景以及微调后的器官/组织语义分割能力,评估其对手术场景的理解能力。
方法:我们利用五个公共数据集来评估和微调SAM 2,以实现对手术视频/图像中的解剖组织进行分割。微调应用于图像编码器和掩码解码器。为了更好地模拟现实世界中数据采集的限制,我们将每个类别的训练子集限制在50到400个样本。使用加权平均骰子系数(weighted mean Dice coefficient,WMDC)评估数据集大小对微调性能的影响,并将结果与先前报道的最先进(state-of-the-art,SOTA)结果进行比较。
结果:SurgiSAM 2,即微调后的SAM 2模型,在分割性能上有显著提升,与基线SAM 2相比,WMDC相对提高了17.9%。将提示点从1个增加到10个,以及将训练数据规模从每个类50个样本增加到400个样本,都提高了模型性能;在验证子集上,使用10个提示点和每个类400个样本时,达到了0.92的最佳WMDC。在测试子集上,该模型在30个类中的24个(80%)上优于先前的SOTA方法,使用10点提示时WMDC为0.91。值得注意的是,SurgiSAM 2能有效地泛化到未见过的器官类别,在9个未见过的类别中的7个(77.8%)上达到了SOTA性能。然而,严重解剖的组织和外观相似的器官,如小肠和大肠,仍然是具有挑战性的。
结论:SAM 2在手术场景分割中实现了卓越的零样本和微调性能,在多个不同数据集的器官类别上超过了先前的SOTA模型。这表明其在实现自动化/半自动化注释流程方面具有巨大潜力,从而减轻注释负担,推动多种手术应用的发展。
引言
基础模型改变了自然语言处理领域\(1,2\)。这些模型在大规模数据集上以任务无关的方式进行预训练,可以针对与初始训练目标不同的下游任务进行微调。它们在新任务上的泛化能力和卓越的零样本性能,即在没有任何特定任务预训练的情况下执行任务的能力,在减少昂贵的数据集创建和整理需求方面具有显著优势。计算机视觉通过利用大型通用模型实现生成目的\(3\),并在图像分类和目标检测等其他视觉任务中达到最先进的性能\(4-6\),从而受益匪浅。最近,随着Meta发布分割一切模型(SAM)\(7\)和SAM 2\(8\),这种方法被应用于语义分割,摆脱了开发特定任务模型的传统方法\(9\)。这使得在各种生物医学和临床应用中,只需进行最小限度的调整,就能对未见过的数据集和任务实现泛化。
在生物医学领域,语义分割不可或缺,特别是在医学成像中,用于疾病诊断、治疗规划和疾病监测。然而,如前所述,目前该领域主要由缺乏灵活性的特定任务模型主导。SAM和SAM 2在医学图像上的零样本性能并不突出\(10\),在不同数据集和任务上的结果不一致。医学成像中的低对比度、边界不清晰、物体小或形状不规则\(11-13\)以及其他复杂因素导致了这些限制。然而,SAM和SAM 2在涉及大型、定义明确的物体的任务中,已显示出超越SOTA性能的潜力\(14,15\)。此外,几项利用大规模医学数据集的研究表明,通过微调SAM的各个组件(如生物医学SAM 2中的图像编码器和掩码解码器\(16\)、MedSAM中的仅掩码解码器\(17\)、SAMed中的低秩自适应(LoRA)微调\(18\)以及医学SAM适配器中的定制适配器模块\(19\)),性能有显著提升。这些研究产生了令人印象深刻的结果,通常能与完全监督的特定任务SOTA模型相媲美或超越它们。
虽然SAM和SAM 2主要在计算机辅助诊断应用中进行评估,但语义分割还可以服务于另一个关键的医学应用——手术场景理解。实现对结构的像素级精确识别对于准确解读手术场景至关重要。这方面的成功可以极大地推动未来手术和手术教育的发展,实现对手术工具、组织及其相互作用的精确时空跟踪,进而促进下游应用,如实时手术导航、自动化技能评估,甚至最终实现自主机器人手术。
由于手术工具边界清晰,与背景组织形成鲜明对比,工具分割相对简单\(20,21\)。然而,SAM 2在涉及手术中活体组织的分割任务上的零样本性能仍未得到探索。此外,SAM和SAM 2训练数据中手术数据的代表性有限,这为通过在手术视频数据上微调SAM 2来显著提高性能提供了机会。鉴于在该领域获取标注训练图像既繁琐又昂贵,我们利用公共手术分割数据集全面评估SAM 2的能力。
本文的贡献如下:
- 我们评估了SAM 2对手术视频中解剖组织的零样本可提示分割能力。
- 我们在公共手术分割数据集上对SAM 2进行微调,在微调过程中涵盖的多个器官类别上实现了SOTA性能,同时还展示了对一些未参与微调过程的未见器官类别的泛化能力。
- 我们评估了受限数据集对微调性能的影响,以模拟在获取用于分割的标注手术视频数据集时面临的现实世界挑战。我们证明,每个类仅用50张图像进行微调就能显著提高性能。
一个通用的基础模型可以极大地帮助理解手术场景,因为在手术场景中,标注数据集稀缺,而且由于需要耗时且昂贵的注释,分割任务具有挑战性。这个微调后的模型可以显著提高创建手术视频数据集时的注释效率,从而促进计算机视觉模型在各种生物医学和临床应用中的采用。
方法
初步的SAM 2架构
SAM 2架构是一种多功能的分割模型,专为图像和视频分割任务而设计。它基于SAM构建,并集成了先进的时间图像处理能力。SAM 2架构的核心组件包括图像编码器、提示编码器和掩码解码器,以及诸如记忆编码器、记忆注意力机制和记忆库等新颖组件,以增强视频中的分割性能(图1)。虽然SAM 2允许对视频中跨帧的时间上下文进行建模,但在本研究中,我们仅将其用于单个图像的分割。
图1:SAM 2模型及其组件的示意图。
数据集
为了全面评估SAM 2在手术场景中的分割性能,我们利用了五个手术视频数据集,这些数据集针对不同手术专业的多个器官/组织类别有不同数量的注释。这些数据集是根据对先前使用公开可用手术视频数据集的研究的文献综述选择的。这些数据集如下:
1. CholecSeg8k22\]包含8,080张独特的腹腔镜图像,专注于胆囊切除术。它包括12个分割类别——腹壁、血液、结缔组织、胆囊管、脂肪、胆囊、胃肠道、抓钳、肝静脉、L形电灼器、肝脏和肝韧带。
2. Dresden 23\]包含2,431张独特的腹腔镜图像,专注于结直肠手术。它包括11个类别——腹壁、结肠、肠系膜下动脉、肠静脉、肝脏、胰腺、小肠、脾脏、胃、输尿管和精囊腺。
3. UreterUD 24\]包含586张独特的腹腔镜图像,专注于泌尿外科手术。它包括3个类别——输尿管、子宫动脉和神经。
4. Endoscapes 25\]包含493张独特的腹腔镜图像,专注于胆囊切除术。它包括6个类别——胆囊管、胆囊动脉、胆囊板、胆囊、肝胆囊三角和器械。
5. m2caiSeg 26\]包含299张来自微创腹部手术的独特图像。它包括17个类别——动脉、胆汁、双极电凝器、血液、夹子、脂肪、胆囊、抓钳、钩子、肠、冲洗器、肝脏、剪刀、标本袋、套管针、未知物和上壁。
这些数据集在类别复杂性、类别数量和手术背景方面代表了一系列不同的挑战,为在手术场景分割任务中微调SAM 2以及确定其对手术场景的理解能力提供了全面的评估框架。数据集中存在的器械类别在分割时被包含,但在计算加权平均骰子系数(WMDC)时被排除。这些结果在补充文件1中报告。
数据集预处理和划分
数据集中的图像/帧以原始形式使用,未进行任何预处理。多类别掩码被分割为所有数据集的单个类别掩码。数据集预处理脚本/笔记本可在Github仓库(https://github.com/Devanish31/SurgiSAM2)中获取。
所有数据集都被划分为训练集、验证集和测试集,确保在每个数据集中的所有类别都按患者进行划分。划分比例如下:CholecSeg8k\[13/2/2(患者)、Dresden\[90/5/5(%)、Endoscapes\[201/41/40(患者、UreterUD\[70/15/15(%)和m2caiSeg\[80/10/10(%)。在m2caiSeg数据集中进行了额外的质量控制,以去除存在空掩码、掩码与图像大小不匹配以及掩码面积小于50像素等问题的低质量掩码。
评估流程和训练数据
我们从真实掩码中随机提取点,以模拟用户交互式地为提示SAM 2进行分割提供点。点的数量从1到10逐步增加,在验证子集上以2为间隔评估零样本分割性能。我们没有探索其他提示变化,如结合正提示和负提示或纳入边界框提示,因为本研究的主要重点不是提示工程,而是评估模型性能。尽管如此,这些其他方法可能会潜在地提高性能。
训练子集用于微调SAM 2模型,使用10点提示在验证子集上跟踪分割性能。为了研究数据规模的影响,使用来自训练子集的每个类不同数量(50、100、200和400个样本)的数据进行微调,评估增加数据量是否能提高性能。我们有意将数据集限制在每个类少于400个样本,有两个原因:(1)主要目标是在现实世界条件下研究SAM 2,在这种情况下,手术训练数据通常很稀缺;(2)将每个类限制为400个样本确保了所有类别有更平衡的表示,因为在200和400的数据规模下,几个类别没有足够的掩码,避免了每个类超过400个样本时出现更大的类别不平衡。
从所有数据集中的30个器官/组织类别中总共选择了21个独特的器官/组织类别进行微调。将使用10点提示的分割性能与类似条件下的基线SAM 2模型的性能进行比较。
在所有数据规模下表现最佳的微调模型检查点在测试子集上进行评估。将其在各个类别和任务上的性能与原始数据集论文中报告的其他算法或模型架构的性能进行比较。
分割性能指标、分析和可视化
分割质量通过几个标准指标来确定,以评估预测掩码和真实掩码之间的重叠/一致性。计算了以下指标:
1. 交并比(Intersection over Union,IoU):IoU衡量预测掩码和真实掩码之间的重叠程度,计算为它们的交集与并集的比值。具体定义为:
\[\text{IoU} =
\begin{cases}
\frac{\text{Intersection}}{\text{Union}}, & \text{如果}\ \text{Union} > 0 \\
0, & \text{否则}
\end{cases}
\]
IoU通过惩罚误报和漏报,提供了一种稳健的一致性度量。
2. 骰子系数(Dice coefficient):骰子系数评估预测掩码和真实掩码之间的相似性,计算为:
\[\text{Dice} =
\begin{cases}
\frac{2 \cdot \text{Intersection}}{\text{Predicted Sum} + \text{Ground Truth Sum}}, & \text{如果}\ \text{Predicted Sum} + \text{Ground Truth Sum} > 0 \\
0, & \text{否则}
\end{cases}
\]
这个指标通过相对于预测掩码和真实掩码的总大小对交集进行加权,强调了重叠部分。
3. 精确率(Precision):精确率量化预测掩码中正确预测的像素占所有像素的比例(真正例 /(真正例 + 假正例)),定义为:
\[\text{Precision} =
\begin{cases}
\frac{\text{Intersection}}{\text{Predicted Sum}}, & \text{如果}\ \text{Predicted Sum} > 0 \\
0, & \text{否则}
\end{cases}
\]
高精确率表明误报较少。
4. 召回率(Recall):召回率衡量真实掩码中正确预测的像素占所有像素的比例(真正例 /(真正例 + 假负例)),计算为:
\[\text{Recall} =
\begin{cases}
\frac{\text{Intersection}}{\text{Ground Truth Sum}}, & \text{如果}\ \text{Ground Truth Sum} > 0 \\
0, & \text{否则}
\end{cases}
\]
高召回率表明漏报较少。
这些指标针对验证集和测试集中的所有示例/掩码进行计算,并针对每个类别求平均值。虽然计算了所有指标,但为简洁起见,正文中主要呈现最常用的分割指标——骰子系数。此外,计算骰子系数的加权平均值作为WMDC,使用所有数据集的组织类别结果,权重由每个类别的示例数量确定。
每个类别的平均骰子系数(\((\text{Dice}_{i})\))计算为:
\[\text{Dice}_{i}=\frac{1}{n_{i}} \sum_{j = 1}^{n_{i}} \text{Dice}_{i, j}
\]
其中:
- \(\text{Dice}_{i, j}\):类别\(i\)中第\(j\)个示例的骰子系数。
- \(n_{i}\):类别\(i\)中的示例总数。
然后计算总体WMDC(\((\text{Dice}_{\text{weighted}})\))为:
\[\text{Dice}_{\text{weighted}}=\frac{\sum_{i = 1}^{C} n_{i} \cdot \text{Dice}_{i}}{N}
\]
其中:
- \(N\):所有类别的示例总数,定义为\(N=\sum_{i = 1}^{C} n_{i}\)。
- \(C\):类别总数。
- \(n_{i}\):基于类别\(i\)中的示例数量,该类别对总体骰子系数的加权贡献。
微调细节和超参数
我们遵循SAM 2 Github仓库(https://github.com/facebookresearch/sam2)中概述的微调规范。SAM 2模型使用AdamW优化器进行微调,基础学习率为\(5.0×10^{-6}\),并使用余弦调度器。视觉特定学习率为\(3.0×10^{-5}\)。权重衰减设置为0.1。损失函数结合了掩码损失、骰子损失、IoU损失和类别损失,权重分别为20、1、1和1,这与原始SAM/SAM 2训练方法一致。训练进行30个epoch,批次大小为1,采用数据增强技术,如水平翻转、仿射变换、调整大小和颜色抖动。使用预训练的SAM 2.1检查点(SAM 2-Hiera-B+)进行微调,仅优化图像编码器和掩码解码器。所有实验在单个NVIDIA A100 GPU上进行,每两个epoch保存一次检查点。在不同的训练数据规模(每个类50、100、200和400个样本)上进行微调,包括21个独特的器官/组织类别,每个规模分别在3、6、11和16小时内完成。每个训练规模每五个epoch保存一次检查点,并分析所有组织类别的WMDC,以确定每个规模的最佳检查点。
评估微调模型的泛化能力
为了保留SAM 2的通用分割能力并减轻灾难性遗忘,我们采用低学习率并限制训练epoch的数量。我们进行多数据集训练,以提高跨数据集的泛化能力,并最小化对单个数据集的过拟合。为了确定泛化能力,我们评估在所有数据集的未见测试子集上表现最佳的微调模型检查点的分割性能,这些测试子集在所有数据集中按患者对所有类别进行了划分。我们还评估了微调模型在数据集的未见/未训练类别(主要是m2caiSeg)上的性能。
此外,我们还将SurgiSAM 2的分割性能与另一个生物医学基础分割模型MedSAM进行了比较。
视频中组织跟踪的初步评估:基线SAM 2与SurgiSAM 2
我们使用来自四个不同手术的手术视频,对基线和微调后的SAM 2模型的组织跟踪性能进行了评估。这些视频根据知识共享许可从YouTube获取,其中包含训练数据集中未包含的组织和器官:肺叶切除术中的肺、子宫切除术中的卵巢、阑尾切除术中的阑尾以及肾囊肿摘除术中的脾脏。从每个视频中,我们提取了7 - 8个持续0.5秒的短片段,每个组织类别产生约100帧,总共约400帧。为了模拟手动分割工作流程,每个片段的第一帧用1到10个点进行提示,视频预测模型生成的结果掩码在其余帧中传播。然后计算每个器官类别的骰子系数,以比较基线和微调模型的跟踪性能。
结果
数据集特征
所有纳入数据集的特征在表1和图2中呈现。五个数据集,CholecSeg8k、Dresden、Endoscapes、UreterUD和m2caiSeg分别包含45,635个跨12个分割类别的注释掩码、13,138个跨11个分割类别的注释掩码、648个跨3个分割类别的注释掩码、1,911个跨6个分割类别的掩码以及2,044个跨17个分割类别的掩码。
图2:五个数据集(CholecSeg8k、Dresden、Endoscapes、UreterUD和m2caiSeg)的注释掩码数量(x轴),按所有器官/组织类别的训练、验证和测试划分(y轴)进行分类。CholecSeg8k数据集在所有数据集划分中占比最大。
零样本评估:模型骨干和提示数量的影响
使用Hiera Large和Hiera Base Plus骨干网络,结合1到10个提示点,对基线SAM 2的性能进行评估。随着提示点数量的增加,WMDC逐渐提升,两个模型在10个提示点时均达到最高性能(图3)。在大多数类别中,Hiera Large始终优于Hiera Base Plus,10个提示点时,总体WMDC分别为0.84和0.78(图3)。在诸如胆囊动脉(提升0.36)、胆囊板(提升0.74)、肝脏(提升0.27)和精囊腺(提升0.19)等结构上,性能提升最为显著。此后,出于计算目的,仅使用Hiera Base Plus模型进行分割。
图3:使用加权平均骰子系数(x轴)对Hiera Large和Hiera Base Plus骨干网络的性能进行比较,在分割任务中,评估1到10个提示点(y轴)的情况。Hiera-Large和Hiera-Base-Plus的性能随着提示点数量的逐渐增加而提升,在较高提示点数量附近趋于平稳。
不同训练数据规模下的微调性能
对SAM 2(SurgiSAM 2)进行微调后,在所有组织类别上,WMDC绝对提升了0.14,相对基线SAM 2 Base Plus模型提升了17.9%。在所有数据规模下,大部分性能提升在前六个epoch内实现,之后提升幅度较小(图4)。通过使用每个类不同的样本数量(50、100、200和400)对SAM 2进行微调,评估训练数据规模对模型性能的影响。对于每个数据规模,根据每5个epoch的WMDC确定表现最佳的模型检查点,并用于进一步比较。值得注意的是,对于所有数据规模(每个类50到400个样本),在第6个epoch之后,性能提升仅为微小变化(补充文件2)。
图4:在使用不同训练数据规模(每个类50、100、200和400个样本)(x轴)对SAM 2进行微调的过程中,加权平均骰子系数的提升(y轴)随epoch的变化。虽然所有训练数据规模都显示出相对于基线的显著提升,但即使经过长时间训练,每个类50和400个样本之间仍存在性能差距。此外,微调的大部分性能提升在6个epoch时就已实现。
关于训练数据规模,每个类样本数量增加到50以上时,分割性能的提升微乎其微。在每个类400个样本和10个提示点的情况下,记录到最高性能,WMDC达到0.92(图4)。数据规模扩展的益处在各种器官和结构中保持一致。增加训练数据规模提高了组织类别的WMDC;然而,当同时考虑器械类别时,由于模型更专注于分割组织/器官,WMDC会降低(图5)。
图5:“仅组织类别”和“组织加器械类别”场景下,单点提示和10点提示时的加权平均骰子系数(y轴),以及逐渐增加的训练数据规模(x轴)。在“仅组织类别”和“组织加器械类别”中,性能随着数据规模的增加而逐渐提升,但幅度较小。分割指标的器械类别的报告在补充文件1和2中。
与先前最先进方法及其他SAM模型的比较
在测试子集上,使用1点和10点提示,对SurgiSAM2与先前最先进方法的性能进行评估。微调后的SAM 2(SurgiSAM 2)在分割精度上有显著提升,在使用10点提示时(30个类别中的24个,占80%),甚至在使用1点提示时(30个类别中的20个,占66.6%),始终优于先前的最先进方法(表3)。有趣的是,SurgiSAM2在所有器官类别上也优于医学分割特定模型MedSAM(图6)。SurgiSAM 2在分割较小且更具挑战性的结构方面表现出色,在诸如肠系膜下动脉、胆囊管、胆囊动脉、子宫动脉和精囊腺等器官上,平均骰子系数提升最为显著,分别为0.43、0.37、0.32、0.29和0.28。然而,某些类别,包括胆囊、腹壁和肝脏,由于其基线性能出色,仅显示出微小的提升。这些发现突出了SAM在处理复杂分割任务,尤其是较小且解剖结构复杂的结构方面的能力,进一步证明了其作为手术场景理解的可靠且适应性强的模型的潜力。
图6:不同模型在手术图像中的多类别分割性能。比较先前最先进方法(灰色)、MedSAM(红色)、基线SAM2(橙色)和SurgiSAM2(绿色)在多个解剖结构上的表现。径向轴上显示的百分比值范围从0 - 100%(器官类别的平均骰子得分为0.0 - 1.0)。SurgiSAM 2在大多数器官和组织类别上优于所有其他模型。(由于本研究中的微调是在包含3900万个参数的较小版本的SAM 2上进行的,因此未使用MedSAM 2。将此版本与本研究中进行微调的具有8900万个参数的base-plus模型进行比较,可能无法提供公平的评估)
泛化能力
为防止数据泄露,在训练、验证和测试中实施严格的按患者划分。相对于训练子集,在测试子集中未观察到明显的性能下降,这进一步支持了模型对未见示例和患者有效泛化的能力。在可用的30个组织类别中,对21个选定的组织类别进行SAM 2微调,也提高了其余9个未见类别的骰子得分,与基线SAM 2相比,平均增加了0.17。值得注意的是,在这9个未见类别中的7个(77.8%)上达到了最先进的性能。未见类别主要由训练数据中不同数据集的器官冗余类别组成。这突出了模型对训练数据集之外的相似类别(器官/组织)的泛化能力,展示了强大的跨数据集迁移能力。
成功案例和边缘案例的定性评估
为清晰展示分割效果,我们进行了可视化实验,展示了根据骰子指标确定的不同类别和数据集的最佳和最差分割案例示例。结果见图7。
图7:SAM分割性能的定性评估,展示了不同数据集和解剖结构中表现最佳(左)和最差(右)的预测。SurgiSAM 2在较小器官(脾脏、输尿管)、不连续器官(肝脏)和变形器官(操作中的胆囊)的分割上表现出色。然而,SurgiSAM 2在较小器官经过大量解剖(胆囊动脉、胆囊管、肠静脉)、抽象解剖概念(如肝胆囊三角)以及外观相似的器官(小肠和大肠)的分割上可能会遇到困难。
视频中组织跟踪的初步评估:基线SAM 2与SurgiSAM 2
在使用1 - 10个提示点时,SurgiSAM 2在所有类别上相对于基线SAM 2模型有适度提升(图8),在某些提示点数量下表现相当。值得注意的是,基线模型本身表现稳健,随着提示点数量的增加,结果逐渐改善。与其他图像数据集相比,基线模型在这些视频上表现更优,这可归因于几个因素。首先,使用掩码作为提示提供了器官类别的密集表示。其次,视频持续时间短(0.5秒)导致帧间变化最小。最后,评估的器官具有清晰的边界,本质上更易于分割。此实验作为对模型组织跟踪能力的初步评估,旨在显著提升注释工作流程,而非对基线和微调后的SAM 2模型进行全面评估。
图8:基线SAM 2和SurgiSAM 2的视频跟踪性能比较,使用平均骰子得分(y轴)。虚线表示基线SAM 2模型的性能,实线表示微调后的SurgiSAM 2模型的性能。两个模型随着点提示数量的增加(x轴),分割精度均有所提高。SurgiSAM 2在大多数提示点数量下略微优于基线模型,获得更高的骰子得分。两个模型的性能在8 - 10个点提示附近趋于平稳,SurgiSAM 2保持略微更高的骰子得分。
讨论
本研究展示了像SAM 2这样的基础模型对专业手术数据的适应性,在广泛的器官和组织上实现了最先进的分割性能。在手术数据集上对SAM 2进行微调,实现了卓越的准确性和泛化能力,通常超越特定任务模型,同时所需的标注样本数量显著减少。与传统的特定任务模型不同,传统模型要求每个任务/应用都有大量标注数据集,而SurgiSAM 2可以利用其通用分割能力,为手术应用的全自动或半自动分割流程提供可扩展、资源高效的解决方案。鉴于注释手术视频的劳动强度大,需要忙碌的专业外科医生进行注释,且注释视频稀缺,这一点尤为重要。
我们的发现与最近在医学图像分割中使用SAM的进展一致,在这些研究中,微调基础模型显示出巨大的潜力,特别是当同时对图像编码器和掩码解码器进行微调时。虽然本研究没有直接比较SAM 2单个组件的微调效果,但先前研究表明,仅对掩码解码器进行微调的模型性能较差\[16\]。我们的微调方法相对于基线SAM 2有17.9%的相对提升,并且在大多数组织类别上始终优于先前的最先进模型,在器械类别上也没有显著的性能下降。尽管使用边界框或学习到的特征向量作为提示可能会进一步提高性能\[27 - 29\],但本研究的重点是评估SurgiSAM 2在手术场景分割中的潜力,而非优化提示工程。
值得注意的是,这些结果是在每个类仅使用50 - 400个标注样本的情况下取得的。即使每个类仅使用50个样本,与使用400个样本相比,微调导致的性能下降也微乎其微。与像nnU - Net\[30\]这样的完全监督特定任务模型相比,这意味着训练数据需求减少了一到两个数量级,同时性能相当或略优。此外,SurgiSAM 2在对未见任务和数据集的泛化方面表现出色,在来自其他数据集的77.8%的未见冗余类别上达到了最先进的性能。这强调了其有效捕捉不同解剖结构的低级特征和高级器官特定语义特征的能力。该模型在无需重新训练的情况下跨数据集泛化的能力在手术环境中特别有利,因为手术视频注释成本高、耗时长,且难以获得高技能的注释人员。
另一个关键发现是SurgiSAM 2有效分割手术数据中常见但难以准确分割的不连续或不规则结构(如图6中的肝脏)的能力。在单点提示的情况下也能观察到这一点。尽管在处理胃肠道、输尿管和精囊腺等具有挑战性的结构方面有这些优势和显著的性能提升,但仍存在一些挑战。SurgiSAM 2在严重解剖的小器官(如图6中的胆囊板、胆囊动脉、胆囊管和肠静脉)上表现不佳。组织解剖会不可预测地改变器官的外观和特征表示,使模型难以准确识别它们。覆盖在腹部器官上的脂肪组织也会使注释复杂化,并影响模型性能,因为可能难以准确区分和标记像素是属于器官还是脂肪组织。此外,当小肠和结肠同时出现在同一帧中时,小肠有时会被误分类为结肠,这可能是由于它们相似的视觉特征,或者是因为CholecSeg8k数据集中的胃肠道类别包含来自小肠和大肠的示例。此外,分割抽象和动态的解剖概念(如肝胆囊三角)仍然是一个重大挑战。在许多情况下,一些可能对外科医生(及其患者)最有益的组织,如胆囊切除术中的胆总管和结肠切除术中的输尿管,可能被证明是使用分割模型最难识别的。最后,其他挑战包括手术电灼产生的照明不佳和烟雾,这些会影响图像质量和模型性能。
通过纳入更大的图像编码器(如Hiera Large),并探索提示策略(如结合正提示和负提示、避免在边界区域采样提示点、使用边界框和高维学习到的器官特定特征向量\[31,32\]),可以进一步提升SurgiSAM 2的性能。
此外,采用多帧分割方法来利用视频中的时间信息,而不是像本研究中那样仅依赖孤立的图像,也可以进一步提高分割效果。内存优化方法(如高效帧修剪\[33\])可以进一步促进术中环境下的手术视频分割。
SurgiSAM 2即使在训练数据有限的情况下也能泛化并表现良好的能力具有重要的临床意义。通过在标注数据集稀缺的场景中实现分割,SurgiSAM 2解决了将计算机视觉模型应用于手术的关键瓶颈。目前,将人工智能集成到手术工作流程中的限速步骤是需要对训练数据进行大量手动注释,这既耗时又耗费资源。凭借SurgiSAM 2卓越的分割能力,外科医生可以利用人工智能增强对手术场景的理解,即使在代表性不足或新的手术场景中也是如此。这减少了对大规模注释工作的依赖,为人工智能驱动的工具在手术应用(如实时术中指导、自动化技能评估和机器人手术)中的更广泛临床应用铺平了道路。
我们承认本研究存在局限性。虽然本研究使用了所有带有组织分割掩码的公共数据集,但这些数据集可能无法全面代表手术过程中遇到的所有器官和结构的多样性。这可能会限制SurgiSAM2对手术环境中更广泛的手术程序和解剖结构的泛化能力。此外,从原始数据集中随机方便地采样不同训练数据规模的帧,可能会过度代表手术某些方面的场景。通过外科医生手动策划纳入更具代表性的数据集,或基于余弦相似性聚类等方法自动采样图像,可能会进一步提高性能。最后,由于计算限制,未评估使用完整数据集规模时可能实现的更高性能。
结论
总之,SAM 2在不同数据集的多个器官类别上展示了卓越的零样本性能,并且在微调后有显著提升。微调后的SAM 2,即SurgiSAM 2,强调了基础分割模型的潜力,即使在训练数据有限的情况下,也能为手术场景分割提供强大、通用且经济高效的解决方案。SurgiSAM 2通过实现半自动流程,显著减少了手动注释需求,为可扩展的分割解决方案铺平了道路。这对于手术场景理解具有巨大潜力,有助于对组织和器械进行准确的时空跟踪,从而实现实时手术导航、自动化技能评估和自主机器人手术等临床应用。
代码和数据可用性声明
本研究的基础代码(以及所有数据集的训练/验证/测试划分)和最终微调检查点的数据分别可在Github(https://github.com/Devanish31/SurgiSAM2)和Figshare(10.6084/m9.figshare.28489961)上获取。