SurgiTrack:外科手术视频中的细粒度多类别多工具跟踪|文献速递-视觉大模型医疗图像应用|文献速递-视觉大模型医疗图像应用

Title

题目

SurgiTrack: Fine-grained multi-class multi-tool tracking in surgical videos

SurgiTrack:外科手术视频中的细粒度多类别多工具跟踪

01

文献速递介绍

手术器械跟踪在计算机辅助手术系统中发挥着至关重要的作用,可为一系列应用提供有价值的支持,包括技能评估(Pedrett 等人,2023)、视觉伺服(Xu 等人,2023)、导航(Xu 等人,2022)、腹腔镜定位(Dutkiewicz 等人,2005)、安全和风险区域评估(Richa 等人,2011)以及增强现实(Martin-Gomez 等人,2023)。相比于仅在单帧图像中识别目标器械的器械检测,器械跟踪更进一步,还包括在视频后续帧中对器械位置的估计和预测。

传统的器械跟踪依赖于基于颜色、纹理、SIFT 和几何特征的传统机器学习方法(Pezzementi 等人,2009;Sznitman 等人,2012;Alsheakhali 等人,2015;Dockter 等人,2014;Du 等人,2016)。近年来,深度学习的进展(Bouget 等人,2017;Lee 等人,2019;Nwoye 等人,2019;Zhao 等人,2019a,b;Robu 等人,2021;Nwoye,2021;Fathollahi 等人,2022;Wang 等人,2022;Rueckert 等人,2023)引领了一个新时代,使得可以提取更具鲁棒性的特征来实现器械重新识别(re-ID)。尽管取得了显著进展,但仍存在诸多挑战。现有研究主要集中在单器械跟踪(Zhao 等人,2019b)、单类别多器械跟踪(Fathollahi 等人,2022)或多类别单器械跟踪(Nwoye 等人,2019)。然而,在实际手术场景中,通常会同时使用多个类别的器械,这需要多类别多器械的跟踪,这一领域因缺乏必要的数据集而未得到充分探索。最近,一个名为 CholecTrack20 的新数据集(Nwoye 等人,2023)被引入,为多类别多器械跟踪提供了所需的支持。该数据集还定义了三种不同的轨迹视角:(1) 器械在手术过程中的全生命周期,(2) 器械在体内的循环过程,以及 (3) 器械在摄像机视野内的可见时长(如图 1 所示)。同时在这三种视角下跟踪器械被称为多视角跟踪。CholecTrack20 数据集提供了丰富的多视角跟踪标注,可适应多样化的手术需求,但迄今为止尚未有深度学习模型在该数据集上用于自动器械跟踪。为开发一种适用于手术视频中多视角多类别多器械跟踪的方法,我们首先在 CholecTrack20 数据集上对 10 种最先进的检测方法进行基准测试,并对适用于手术领域的 re-ID 方法进行了广泛的消融研究。re-ID 模块在管理手术视频中器械身份的时间一致性方面起着关键作用。然而,由于器械的复杂运动模式、频繁遮挡以及手术场景中有限的视野范围,挑战依然存在。特别是当多个同类器械实例具有相同的外观特征时,在器械被遮挡、移出摄像机视野或重新插入手术场景后重新识别它们是一项艰巨的任务。

与现有方法不同,我们的初步实验表明,仅依赖器械外观线索进行轨迹区分并不理想,尤其是在区分同一类别的实例时。为了解决这一问题,我们引入了领域知识,特别是器械的使用模式和器械操作员的信息。后者,即器械操作员,指的是操作器械的外科医生的手部动作,在区分同类器械实例时比外观特征更为准确。然而,手术内镜图像中并未直接观察到操作员信息,这使得其自动预测成为一项挑战。受到这些发现的启发,我们提出了一种名为 SurgiTrack 的新型深度学习方法用于手术器械跟踪。SurgiTrack 将器械操作员的动作近似为器械的起始方向,并采用注意力机制对器械运动方向进行编码,有效模拟不可见的外科医生手部动作或穿刺点的位置,用于器械重新识别。我们的模型设计允许方向估计器在没有操作员标签的数据集上进行自监督学习,其性能可与有监督方法相媲美。这一技术确保了我们的方法可以在缺乏操作员标签的手术数据集上进行探索。此外,为了应对器械轨迹的多视角特性,我们的网络通过协调的二分匹配图算法关联轨迹。该算法除了常规的线性分配外,还解决了跨视角轨迹的身份冲突问题,并在总体上提高了轨迹身份重新分配的准确性。

总结而言,我们的贡献包括以下几点:正式化了多视角器械跟踪建模,并在 CholecTrack20 数据集上对最先进方法进行了基准测试。开发了依赖于基于自监督注意力的运动方向估计和协调二分图匹配的 SurgiTrack 模型用于器械跟踪。对不同轨迹视角下的器械跟踪进行了广泛评估,涵盖不同的视频帧率以及诸如出血、烟雾和遮挡等各种视觉挑战。

这些贡献共同推动了手术器械跟踪领域的研究,促进了计算机辅助手术系统和人工智能干预技术的进一步发展。

Abatract

摘要

Accurate tool tracking is essential for the success of computer-assisted intervention. Previous efforts oftenmodeled tool trajectories rigidly, overlooking the dynamic nature of surgical procedures, especially trackingscenarios like out-of-body and out-of-camera views. Addressing this limitation, the new CholecTrack20 datasetprovides detailed labels that account for multiple tool trajectories in three perspectives: (1) intraoperative, (2)intracorporeal, and (3) visibility, representing the different types of temporal duration of tool tracks. Thesefine-grained labels enhance tracking flexibility but also increase the task complexity. Re-identifying tools afterocclusion or re-insertion into the body remains challenging due to high visual similarity, especially amongtools of the same category. This work recognizes the critical role of the tool operators in distinguishingtool track instances, especially those belonging to the same tool category. The operators’ information arehowever not explicitly captured in surgical videos. We therefore propose SurgiTrack, a novel deep learningmethod that leverages YOLOv7 for precise tool detection and employs an attention mechanism to model theoriginating direction of the tools, as a proxy to their operators,

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值