Residual Attention U-Net 论文笔记

原创

已于 2022-06-28 11:35:34 修改 · 2.8k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #神经网络

于 2022-04-16 10:28:43 首次发布

本文介绍了一种针对白内障手术器械的新型深度学习网络RAUNet，它采用ResidualAttentionU-Net结构，通过增强注意力模块解决镜面反射和类不平衡问题。RAUNet在Cata7数据集上表现出色，平均 Dice 率97.71%，IOU 达95.62%，标志着在该领域的先进水平。

Residual Attention U-Net 论文笔记

原文地址：RAUNet: Residual Attention U-Net for Semantic Segmentation of Cataract Surgical Instruments

Abstract

手术器械的语义分割在机器人辅助手术中起着至关重要的作用。然而，由于镜面反射和等级不平衡的问题，白内障手术器械的精确分割仍然是一个挑战。本文提出了一种attention-guided网络来分割白内障手术器械。设计了一个新的注意模块来学习辨别特征，并解决镜面反射问题。它捕获全局上下文并对语义依赖进行编码，以强调关键语义特征，增强特征表示。这个注意力模块的参数很少，这有助于节省内存。因此，它可以灵活地插入其他网络。此外，还引入了一种hybrid loss（混合损耗）来训练我们的网络以解决类不平衡问题，它融合了cross entropy and logarithms of Dice loss。我们构建了一个名为Cata7的新数据集来评估我们的网络。据我们所知，这是第一个用于语义分割的白内障手术器械数据集。基于该数据集，RAUNet实现了最先进的性能，平均骰子率为97.71%，平均IOU率为95.62%。

Keywords: Attention, Semantic Segmentation, Cataract, Surgical Instrument

**关键词：**注意，语义分割，白内障，手术器械

1、Introduction

近年来，手术器械的语义分割在机器人辅助手术中得到了越来越广泛的应用。其中一个关键应用是手术器械的定位和姿态估计，这有助于手术机器人的控制。分割手术器械的潜在应用包括客观的手术技能评估、手术流程优化、报告生成等[1]这些应用可以减少医生的工作量，提高手术的安全性。

白内障手术是世界上最常见的眼科手术。每年大约执行1900万次[2]。白内障手术对医生的要求很高。计算机辅助手术可以显著降低意外手术的概率。然而，大多数与手术器械分割相关的研究都集中在内镜手术上。关于白内障手术的研究很少。据我们所知，这是第一项对白内障手术器械进行分割和分类的研究。

最近，人们提出了一系列分割手术器械的方法。Luis等人[3]提出了一种基于完全卷积网络（FCN）和光流的网络，以解决手术器械的堵塞和变形等问题。RASNet[4]采用注意模块来强调目标区域，并改进特征表示。Iro等人[5]提出了一种新的U形网络，可以同时提供仪器的分割和姿态估计。Mohamed等人[6]采用了一种结合递归网络（RNN）和卷积网络(CNN)的方法来提高分割精度。综上所述，可以看出卷积神经网络在外科器械分割中取得了优异的性能。然而，上述方法都是基于内窥镜手术。白内障手术器械的语义分割与内窥镜手术有很大不同。

白内障手术器械的语义分割需要面对许多挑战。与内窥镜手术不同，白内障手术需要强烈的光照条件，导致严重的镜面反射。镜面反射改变了手术器械的视觉特性。此外，白内障手术器械对于显微操作来说也很小。因此，手术器械通常只占据图像的一小部分。背景像素的数量远大于前景像素的数量，这导致了严重的类不平衡问题。因此，手术器械更容易被误认为是背景。眼组织和摄像头视野受限造成的遮挡也是一个重要问题，导致手术器械的一部分不可见。这些问题使得识别和分割手术器械变得困难。

为了解决这些问题，提出了一种新的网络——Residual Attention U-Net(RAUNet)。它引入了一个注意模块来改进特征表示。这项工作的贡献如下。