论文阅读《A Survey on Deeping Learning In Medical Image Analysis》

最新推荐文章于 2024-07-27 10:47:45 发布

原创最新推荐文章于 2024-07-27 10:47:45 发布 · 1.8k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #神经网络

论文解读专栏收录该内容

4 篇文章

订阅专栏

本文综述了深度学习技术在医学图像分析领域的应用，涵盖了从图像分类、对象检测到分割、配准等多个任务，以及在脑部、眼部、胸部等不同解剖区域的应用。文章探讨了深度学习方法的关键方面，包括网络架构的选择、数据预处理、模型超参数优化等，并讨论了医学图像处理的特殊挑战，如训练数据集的缺乏、类不平衡问题以及网络的‘黑匣子’特性。

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

整理一些翻译和自己的理解

Kawahara将CNN类架构应用于源自MRI扩散 - 张量成像（DTI）的脑连接图。为此，他们开发了几个新层，这些层构成了其网络的基础，即所谓的边到边，边到节点和节点到图的层。他们使用他们的网络预测大脑发育，并表明他们在评估认知和运动评分方面优于现有方法。

对象或病变分类：

Gao等人提出使用CNN和RNN的组合来对裂隙灯图像中的核白内障进行分级，其中CNN滤波器是预训练的。无论图像大小如何，该组合都允许处理所有上下文信息。结合3D信息通常也是医学成像中对象分类任务中良好性能的必要条件。由于计算机视觉中的图像往往是2D自然图像，因此在这些场景中开发的网络不直接利用3D信息。作者使用了不同的方法将3D以有效的方式与自定义架构集成。 Setio等（2016）使用多流CNN将胸部CT中的关注点分类为结节或非结节。从候选者中提取的多达九个不同方向的片段用于单独的流中并在完全连接的层中合并以获得最终的分类输出。相比之下，Nie等人。（2016c）通过训练3D CNN来评估MRI的3D特性，以评估高级别胶质瘤患者的生存率。

端到端的训练方式

其他方式：RBMs/SAEs/CSAE等

主要区别在于使用稀疏自编码的无监督预训练

缺乏标注的训练数据，使用MIL-framework，监督+无监督，效果好于手工特征，且效果接近完全监督方法的性能。

3.2 Detection

解剖对象定位（在空间或时间上），例如器官或标志，已经成为分割任务或用于治疗计划和干预的临床工作流程中的重要预处理步骤。

医学成像中的通常需要定位解析3D体积。为了利用深度学习算法解决3D数据解析，已经提出了几种将3D空间视为2D正交平面的组合的方法。

杨等人。（2015）通过处理具有常规CNN的三组独立的2D MRI切片（每个平面一个）来识别股骨远端表面上的界标。

landmark的3D位置被定义为具有最高分类输出的三个2D切片的交点。 de Vos等。（2016b）通过在2D解析3D CT体积之后识别矩形3D边界框，更进一步并且在解剖区域（心脏，主动脉弓和降主动脉）周围定位感兴趣区域（ROI）。预训练的CNN架构以及RBM已被用于相同的目的（Cai等人，2016b; Chen等人，2015b; Kumar等人，2016），克服了缺乏数据以学习更好的特征表示。所有这些研究都将本地化任务作为分类任务，并将其作为通用的深度学习架构和学习流程可以利用。

其他作者尝试修改网络学习过程以直接预测位置。

复杂性提高-分解3D卷积为三个一维卷积：carotid artery bifurcation detection in CT data（颈动脉分叉检测）

边缘空间学习驱动的稀疏自适应深度神经网络：在3D经食管超声心动图检测主动脉瓣

扫描定位-时间数据中的平面或者关键帧/RNN/LSTM/LSTM-RNN

总之，通过使用CNN进行2D图像分类进行本地化似乎是识别器官，区域和地标的最常用策略，效果良好。然而，最近几篇论文通过修改学习过程扩展了这一概念，从而直接强调了准确的定位，并取得了可喜的成果。我们期望进一步探索这些策略，因为它们表明深度学习技术可以适应广泛的本地化任务（例如多个地标）。 RNN在时域中的定位中显示出前景，并且多维RNN也可以在空间定位中发挥作用。

Object or lesion detection

感兴趣或者病变区域的目标检测是诊断的关键部分，是临床医生劳动最密集的之一

定位+辨别在全图像空间的小病变区域

计算机辅助系统-自动检测病变，提高检测准确性减少专家的阅读时间

1995-CNNs

使用CNN 像素分类，之后应用某种形式的后处理来获得候选对象

上下文信息和3D卷积融合-多流CNN

3D CNN

弱监督学习-标记数据的负担

一个关键点是因为每个像素都被分类，通常在训练设置中类平衡严重偏向非对象类。

通常大多数非对象样本易于区分，阻止深度学习方法专注于具有挑战性的样本

由于以滑动窗口方式对每个像素进行分类导致冗余计算的数量级(orders of magnitude of redundant calculation)，因此Wolterink中使用的fCNN也是对象检测管道的重要方面。

只有少数论文直接解决了对象检测特有的问题，如类不平衡/硬阴性挖掘或图像的高效像素/体素处理。

3.3 f分割

3.3.1 Organ and substructure segmentation

与体积和形状有关的临床参数的大量分析 cardiac or brain (心脏或者脑部)

分割的任务通常被定义为识别构成感兴趣对象的轮廓或内部的体素集合。

U-net/V-net/ResNet-like

RNN/3D LSTM-RNN/3D RNN/bi-directional LSTM-RNNs with 2D U-net-like-architectures

相关论文:《A deep learning model integrating FCNNs and CRFs for brain tumor segmentation》

参考：https://blog.youkuaiyun.com/qq_30019237/article/details/82530257

FCNN：

输入：两组不同大小的图像块。
* 优势：同时保存了局部图像信息以及图像上下文信息。
输出：以像素为单位的图像块标记结果。
训练过程：两组不同大小的图像块进入不同网络分支，同时进行训练。每层步长设置为1，以便后续处理每一个slice。最大池化层用于获取图像信息。

CRF-RNN

输入：FCNNs的输出结果（每一个像素都被标记/初步分割的图像块）、图像信息。
输出：在表观与空间一致性两个方面都被优化的图像分割结果。

这里使用了两个方法来将图像分割问题转化为优化问题：
1. 最小化能量函数：

该方法以2D图像作为输入，通过全连接条件随机场（Fully connected CRFs）对各像素所分配得到标签的概率进行了预测。主要参数包括分配给图像的标签、分配给像素的标签、单个标签分配的代价以及多个标签联合分配的代价，输出为标签分配的概率。

2. 均值场递归：

原文为该方法目的是为了计算标签分配的概率

均值场以递归神经网络方式实现，主要参数为门函数（Gating functions）、递归参数以及FCNNs的输出结果。基本实现步骤如下：

1. 构建粗糙分割结果以实现初始化。

2. 传递相邻标签之间相互影响关系信息。

3. 权重过滤输出。

4. 兼容性转换，以平衡方法各系数。

5. 局部更新，包括添加Unary Potentials，归一化，获取密集标签图（Dense label map）—— 即新一轮迭代的输入。

6. 再次运行步骤1，开始新一轮递归或是输出当前结果。

FCNNs与CRF-RNN整合

基本步骤：

1. 使用图像块训练FCNNs。

2. 使用图像切片训练CRF-RNN。

* 此时保持已训练的FCNN参数固定。

3. 使用图像切片对整个网络进行微调。

体素分割的挑战-产生虚假响应—Fcnn+MRF/CRFs 调整分割输出

在大多数情况下，图形模型应用于由CNN或fCNN产生的似然图之上，并充当标签正则化器。

3.3.2 病变分割

物体分割+器官和子结构分割挑战

全局信息和局部信息结合

病变分割与对象检测共享的另一个挑战是类不平衡，因为图像中的大多数体素/像素来自非患病类。

一些论文通过调整损失函数来解决这个问题：

Brosch等。（2016）将其定义为敏感性和特异性的加权组合，特异性的权重更大，使其对数据不平衡更不敏感。其他人通过对阳性样本执行数据增加来平衡数据集

3.4 Registration

医学图像的配准（即空间对准）是常见的图像分析任务，其中从一个医学图像到另一个医学图像计算坐标变换。通常，这在迭代框架中执行，其中假设特定类型的（非）参数变换并且优化预定度量（例如，L2范数）。虽然分割和病变检测是深度学习的更受欢迎的主题，但研究人员发现深度网络可以有利于获得最佳的配准性能。从广义上讲，目前有两种策略很普遍。一是使用深度学习网络估计相似性度量产生迭代的优化策略，第二个是直接预测转换参数使用深度回归网络。

自编码器评估相似性/优化配准参数

Transformation has 6 parameters, two translational, 1 scaling and 3 angular parameters.

与分类和分割相比，研究界似乎尚未确定将深度学习技术整合到配准方法中的最佳方法。关于这个问题的论文还不多，现有的论文都有明显的不同方法。因此，提出最有希望的方法的建议似乎是不合适的。但是，我们期望在不久的将来看到更多的深度学习对医学图像配准的贡献。

3.5 医学图像的其他任务

3.5.1 基于内容的图像检索

挑战是在像素级的图片上提取高效的特征表示并且把他们和有意义的概念联系起来

一个有趣的研究途径可能是为检索任务本身直接培训深层网络。

3.5.2 图像生成和增强

已经提出了使用深度架构的各种图像生成和增强方法，范围从去除图像中的阻碍元素，归一化图像，改善图像质量，数据完成和模式发现。

原始输入和输出之差作为损失函数生成需要的图像

Multi-stream CNN低分辨率—高分辨率重建推断丢失的空间信息/其他域

图像增强：强度归一化，去噪声深度学习

3.5.3 Combining Image Data With Reports

(1) leveraging reports to improve image classification accuracy

(2) generating text reports from images

据我们所知，Schlegl等人采取了利用报告的第一步。（2015），他认为大量注释数据可能难以获取并建议将报告中的语义描述添加为标签。该系统对图像集及其文本描述进行了训练，并被教导在测试时间内预测语义类标签。他们表明，语义信息提高了光学相干断层扫描（OCT）图像中各种病理的分类准确性。

产生图像标注、

Table 1: Overview of papers using deep learning techniques for brain image analysis. All works use MRI unless otherwise mentioned.

Table 2: Overview of papers using deep learning techniques for retinal image analysis. All works use CNNs.

鉴于PACS系统在图像和相应的诊断报告方面拥有丰富的数据，它似乎是未来深度学习研究的理想途径。可以预期，字幕自然图像的进展也将及时应用于这些数据集。

4. Anatomical application areas（解剖应用领域）

4.1 Brain

除了针对扫描级别分类（例如阿尔茨海默病诊断）的方法之外，大多数方法学习从局部斑块到表示以及随后从表示到标签的映射。然而，局部斑块可能缺乏解剖信息的任务所需的上下文信息。是最重要的（例如白质病变分割）。要解决这个问题，Ghafoorian等人。（2016b）通过逐渐降低贴片侧的采样率来使用非均匀采样的贴片以跨越更大的背景。许多组使用的替代策略是多尺度分析和完全连接层中的表示的融合。

3D –2D slice-by-slice

DNN完全接管了许多脑图像分析挑战。

几乎所有上述方法都集中在脑MR图像上。我们期望其他脑成像模式（如CT和US）也可以从基于深度学习的分析中受益。

4.2 Eye

眼科成像在过去几年中发展迅速，但直到最近才将深度学习算法应用于眼睛图像理解。

简单CNN应用CFI

解剖结构分割，眼角膜畸形检测与分割，眼部疾病诊断图像质量评估

比赛：35000CFI 中预测疾病的严重程度大部分使用深度学习，效果超过human

端到端的CNN，

糖尿病视网膜病变检测，显示出与七名经过认证的眼科医生相媲美的表现。

4.3 chest

在射线照相和计算机断层扫描的胸部图像分析中，结节的检测，表征和分类是最常见的应用。许多作品将从深度网络派生的特征添加到现有特征集中，或者将CNN与使用手工特征的经典机器学习方法进行比较。在胸部X光检查中，有几组用单一系统检测多种疾病。在CT中，检测指示间质性肺病的纹理模式也是一个受欢迎的研究课题。

图像分析CNN+文本分析RNN 未来研究方向

肺节点检测

4.4 Digital pathology and microscopy（数字病理学和显微镜）

组织样本的大规模千兆像素全幻灯片图像（WSI）的日益普及使得数字病理学和显微镜成为深度学习技术的一个非常流行的应用领域。

这个领域的三个主要挑战：（1）检测，分割或分类核（2）大器官的分割（3）在病变者WSI级检测和分类感兴趣的疾病。

深度学习技术也已应用于组织病理学图像的标准化。颜色归一化是组织病理学图像分析的重要研究领域。在Janowczyk等人。（2016a），提出了一种基于深度稀疏自动编码器的苏木精和伊红（H＆E）染色组织病理学图像的染色标准化方法。最近，Sethi等人证明了颜色标准化的重要性。（2016）用于基于CNN的H＆E染色图像的组织分类

数字病理学中引入的巨大挑战促进了计算机化数字病理学技术的发展。评估数字病理图像分析的现有和新方法的挑战是：EM分段挑战2012年神经元过程的2D分割，ICPR 2012和AMIDA 2013中的有丝分裂检测挑战，用于腺体分割的GLAS，以及用于处理乳房的CAMELYON16和TUPAC 癌组织样本

GLAS解决了结肠直肠癌组织样本中腺体实例分割的问题。徐等人。（2016d）使用三种CNN模型获得了最高排名。第一个CNN将像素分类为腺体与非腺体。从第一CNN的每个特征图，使用整体嵌套边缘技术提取边缘信息，该技术使用侧面卷积来产生边缘图。最后，第三个CNN合并腺体和边缘图以产生最终分割。

CAMELYON16是向参与者提供WSI的第一个挑战。

与其他医学成像应用相反，在这一挑战中大量注释数据的可用性允许训练非常深的模型，如22层GoogLeNet（Szegedy等，2014），16层VGG-Net（Simonyan和Zisserman， 2014）和101层ResNet

最近举行的TUPAC挑战涉及检测乳腺癌组织中的有丝分裂，以及预测WSI水平的肿瘤分级。 Paeng等人的最佳表现系统。（2016）在所有任务中实现了最高性能。该方法有三个主要组成部分：（1）寻找高细胞密度区域，（2）使用CNN检测感兴趣区域中的有丝分裂，

（3）将有丝分裂检测的结果转换为每个WSI的特征向量，并使用SVM分类器计算肿瘤增殖和分子数据得分。

4.5 breast

胸部图像 DNN 大部分胸部图像为2维，自然图像的方法可以被简单迁移，除了一个例外，唯一的任务是检测乳腺癌; 这包括三个子任务：

（1）质量样病变的检测和分类，（2）微钙化的检测和分类，以及（3）乳腺癌风险评分图像。

乳房X光检查是迄今为止最常见的方式，因此最受关注。关于断层合成，US和剪切波弹性成像的工作仍然很少，我们只有一篇论文用深度学习分析乳房MRI;

数据集不可获得-挑战

半监督学习/弱监督学习/迁移学习深度模型和手工特征结合即使对于非常大的数据集，它们仍被证明是互补的

用于质量样病变检测和分类的现有技术趋向于遵循具有候选检测器的两阶段管道; 这种设计将图像缩小为一组潜在的恶性病变，这些病变被送入深度CNN

替代方案使用绕过级联方法的（R-CNN）

如果获得更大的数据集，将会获得更好的结果

4.6 Cardiac（心脏）

深度学习已应用于心脏图像分析的许多方面; 文献总结在表7中.MRI是研究最多的模式，左心室分割是最常见的任务，但应用的数量高度多样化：分割，跟踪，切片分类，图像质量评估，自动钙评分和冠状动脉中心线跟踪和超级分辨率。

简单2D CNN 3D 4D切片例外-3D CNNs

DBNs 用于特征提取和被整合到复合的分割框架中

结合CNN +RNN ：Poudel等人。（2016）在U-net架构中引入了一个循环连接，用于逐片切割左心室，并在分割下一个切片时了解从前一个切片中记住哪些信息。

Kong等。（2016）使用具有标准2D CNN和LSTM的架构来执行时间回归以识别特定帧和心脏序列。

最大挑战：2015年Kaggle Data Science Bow，其目标是自动测量心脏MRI中的收缩末期和舒张末期容量。 192支球队参加了20万美元的奖金竞赛，排名靠前的球队都使用深度学习，尤其是fCNN或U-net分割方案。

4.7 Abdomen （腹部）

大多数关于腹部的论文旨在定位和分割器官，主要是肝脏，肾脏，膀胱和胰腺（表8）。两篇论文涉及肝肿瘤分割。主要方式是用于前列腺分析的MRI和用于所有其他器官的CT。

大肠是解决各种应用的唯一区域，但总是以直接的方式：CNN用作特征提取器，这些特征用于分类。

值得注意的是，在两个分割挑战中 - 肝脏SLIVER07和前列腺PROMISE12--更传统的图像分析方法直到2016年占主导地位。在PROMISE12中，目前排名第二和第三的自动方法使用的是主动外观模型。来自IMorphics的算法在近五年内排名第一（现在排名第二）。然而，类似于Unet（Yu et al。，2017）的3D fCNN最近占据了最高位置。

本文有一个有趣的方法，其中使用求和操作而不是U-net中使用的串联操作，使其成为ResNet和U-net架构之间的混合体。同样在SLIVER07--一个10年的肝脏分割挑战 - CNN已经开始出现在2016年的排行榜顶端，取代以前主导的形状和外观建模方法。

4.8 Musculoskeletal骨骼肌

分割/识别骨骼，节点连接的软组织畸形在各种图像形式中

4.9 其他

值得注意的是，可以应用基于深度学习的单一架构或方法而无需修改不同的任务; 这说明了深度学习的多功能性及其普遍适用性。

在一些作品中，使用预训练的架构，有时使用来自完全不同的域的图像进行训练。一些作者通过使用来自预期应用领域的小型数据集对其进行训练来分析微调网络的效果。将CNN提取的特征与“传统”特征相结合也是常见的。

从表11可以看出，大量针对产科应用的论文脱颖而出。大多数论文都涉及基础工作，例如从US流中选择合适的框架。在这些US序列中进行深度学习的自动化测量的更多工作可能会随之而来。

第二个CNN 发展领域为皮肤镜图像分析，皮肤癌诊断十分困难，许多研究只关注用专业相机获得的图像，而最近基于深度网络的系统产生了有希望的结果。

Esteva等人最近的一项工作。（2017）通过在皮肤镜和标准摄影图像的数据集上训练最近的标准架构（Google的Inception v3），展示了出色的效果。该数据集比以前的文献中使用的数据集大两个数量级。在全面评估中，所提出的系统与30名经过认证的皮肤科医生相同。

5. 结论

概述

308论文被调查，深度学习进入医学图像处理每个方面，发展迅速，大量的多样深度结构被提及。最早的研究使用预先训练的CNN作为特征提取器。这些预先训练的网络可以简单地下载并直接应用于任何医学图像的事实促进了它们的使用。此外，在这种方法中，可以简单地扩展基于手工特征的现有系统。然而，在过去的两年中，我们已经看到端到端训练的CNN已成为医学成像解释的首选方法（见图1）。这种CNN通常被集成到现有的图像分析管道中，并取代传统的手工机器学习方法。这是本调查中最大的一组论文所遵循的方法，我们可以自信地说这是目前的标准做法。

成功的深度学习方法的关键方面

在审阅了这么多论文之后，我们可以期望能够为每个单独的任务和应用领域提炼出完美的深度学习方法和架构。尽管卷积神经网络（和衍生物）现在显然是大多数医学图像分析竞赛中的最佳表现者，但我们可以得出的一个明显结论是，确切的结构并不是获得良好解决方案的最重要的决定因素。

结构相同-结果不同

经常被忽视的一个关键方面是，关于要解决的任务的专家知识可以提供除了向CNN添加更多层之外的优点。在应用深度学习算法时获得良好性能的小组和研究人员通常在深度网络之外的方面进行区分，例如新颖的数据预处理或增强技术。

一些研究人员已经表明，设计包含独特任务特定属性的体系结构可以获得比直接CNN更好的结果。multi-view and multi-scale networks 网络设计的其他常常被低估的部分是网络输入大小和接收场（即输入空间中有助于单个输出单元的区域）。应该考虑例如所需的分辨率和上下文来选择输入尺寸以解决问题。增加批量尺寸却没有增加感受野是没有用的。作为标准的健全性检查，研究人员可以通过对网络输入的视觉评估来自己执行相同的任务。如果他们或域专家无法获得良好的性能，则需要修改网络输入或体系结构的可能性很高。

我们要触及的最后一个方面是模型超参数优化（例如学习速率，退火率），这可以帮助从网络中得到额外的性能。我们认为这对于先前讨论的主题和培训数据质量的性能而言是次要的。令人失望的是，没有明确的方法可以获得最佳的超参数集，因为它是一个高度经验的练习。大多数研究人员都回归到基于直觉的随机搜索（Bergstra和Bengio，2012），这种搜索通常看起来效果不错。 Bengio（2012）之前已经介绍了一些基本技巧。研究人员还研究了用于超参数优化的贝叶斯方法（Snoek等，2012），但据我们所知，这尚未应用于医学图像分析。

医学图像处理的特殊挑战

缺乏训练数据集，但是，这个概念只是部分正确。在大多数西方医院中，PACS系统在放射学中的使用已经成为至少十年的常规，并且这些系统充满了数百万张图像。很少有其他领域可以在结构良好的档案中以数字方式获得为特定目的而获得的这种大小的成像数据。类似PACS的系统并未广泛用于医学领域的其他专业，如眼科和病理学，但随着成像在各学科中变得越来越普遍，这种情况正在发生变化。我们还看到越来越多的公共数据集可用。

因此，主要的挑战不是图像数据本身的可用性，而是获取这些图像的相关注释/标签。传统上，PACS系统存储放射科医师描述其发现的自由文本报告。

将这些报告以自动方式转换为准确的注释或结构化标签需要复杂的文本挖掘方法，这是一个重要的研究领域，其中深度学习现在也被广泛使用。通过在几个医学领域引入结构化报告，预计将来可以更轻松地提取数据标签。例如，已经出现的论文直接利用放射学家的BI RADS分类来训练深度网络（Kisilev等，2016）或分析光学相干断层扫描图像的语义描述（Schlegl等，2015）。我们预计，在不久的将来，用于网络培训的最佳利用自由文本和结构化报告的研究数量将会增加。

考虑到利用来自PACS或类似系统的自由文本报告来训练算法的复杂性，通常研究人员要求领域专家（例如放射科医师，病理学家）为图像数据制作任务特定的注释。标记足够大的数据集可能需要花费大量时间。在某些情况下，多实例或主动学习方法也可能带来好处，并且最近在深度学习的背景下进行了研究（Yan et al。，2016）。人们还可以考虑通过众包来利用非专家标签（Rajchl等，2016b）。其他潜在的解决方案可以在医疗领域内找到; 在组织病理学中，有时可以使用特定的免疫组织化学染色来突出感兴趣的区域，减少对专家经验的需求（Turkki

等人，2016）。

就算有专家标注的数据，标签噪声也会产生干扰，而在计算机视觉中，图像标记中的噪声通常相对较低，在该数据集中，肺结节由四名放射科医师独立注释。随后，读者审查了彼此的注释，但没有强制达成共识。事实证明，他们没有一致同意结节的结节数量是他们完全同意的数量的三倍。培训这种数据的深度学习系统需要仔细考虑如何处理参考标准中的噪声和不确定性。人们可以想到将标签不确定性直接纳入损失函数的解决方案，但这仍然是一个开放的挑战。

在医学成像中，通常将分类或分割呈现为二元任务：正常与异常，对象与背景。然而，这通常是一种粗略的简化，因为两个类都可以是高度异构的。例如，正常类别通常由完全正常的组织组成，但也包括几类良性发现，这可能是罕见的，并且可能偶尔包括各种各样的成像伪影。这通常会导致系统非常擅长排除最常见的正常子类，但在几个罕见的子类中却惨遭失败。一个简单的解决方案是通过为深度学习系统提供所有可能子类的详细注释来将其转变为多类系统。显然，这再次加剧了注释专家时间有限的问题，因此通常根本不可行。一些研究人员通过应用选择性抽样（van Grinsven等，2016）或硬阴性挖掘（Wang et al。，2016b），将训练过程中的智能结合起来，专门研究解决这种不平衡问题。然而，当参考标准中存在大量噪声时，这种策略通常会失败。处理类内异质性的其他方法将受到高度欢迎。

另一个与数据相关的挑战是类别不平衡。在医学成像中，根据手头的任务，异常类别的图像可能难以找到。例如，乳腺癌筛查计划的实施产生了庞大的乳房X线照片数据库，这些数据库已在世界各地建立。然而，这些图像中的大多数是正常的，并且不包含任何可疑病变。当乳房X线照片确实包含可疑病变时，这通常不是癌症，甚至大多数癌性病变也不会导致患者死亡。设计擅长处理这种类不平衡的深度学习系统是另一个重要的研究领域。我们在当前文献中遇到的典型策略是将特定数据增强算法应用于未充分表示的类，例如缩放和旋转变换以生成新的病变。佩雷拉等人。（2016）对脑病变分割的数据增强策略进行了彻底的评估，以对抗类不平衡。

在医学图像分析中，有用信息不仅包含在图像本身内。医生通常会利用大量有关患者病史，年龄，人口统计数据等数据来做出更好的决策。一些作者已经研究过将这些信息以直接的方式结合到深度学习网络中（Kooi等，2017）。但提升不大，其中一个挑战是平衡深度学习网络中的成像特征（通常为数千个）与临床特征（通常只有少数）的数量，以防止临床特征被淹没。医生通常还需要使用解剖信息来进行准确的诊断。然而，医学成像中的许多深度学习系统仍然基于贴片分类，其中贴片的解剖位置通常是网络未知的。一种解决方案是将整个图像馈送到深度网络并使用不同类型的评估来推动学习，例如，Milletari等人所做的。（2016b），他根据Dice系数设计了一个损失函数。这也利用了这样的事实，即医学图像通常使用相对静态的协议来获取，其中解剖结构总是大致处于相同的位置并且具有相同的比例。但是，如上所述，如果网络的感知区域在整个图像中较小，则没有任何益处。此外，由于例如存储器限制，将完整图像馈送到网络并不总是可行的。在某些情况下，由于GPU技术的进步，这可能在不久的将来得到解决，但在其他情况下，例如具有千兆像素大小的图像的数字病理学，必须发明其他策略。

Outlook

深度学习的结果在某些方面有可能超越医学专家，然而，我们认为将这些论文放在与医学图像分析相关的背景中是很重要的，因为大多数任务决不能被认为是“已解决”。需要考虑的一个方面是Esteva等人。（2017）和Gulshan等。（2016）专注于小的2D彩色图像分类，其与在计算机视觉中已经解决的任务（例如ImageNet）相对类似。这使他们能够利用经过充分发掘的网络架构，如ResNet和VGG-Net，这些架构在这些任务中表现出色。但是，无法保证这些体系结构在例如回归/检测任务中是最佳的。它还允许作者使用在数百万自然图像的标记良好的数据集上预先训练的网络，这有助于对抗缺乏类似大型标记的医学数据集。相反，在大多数医学成像任务中，使用3D灰度或多通道图像，其中不存在预训练的网络或架构。此外，该数据通常具有非常特定的挑战，例如各向异性体素尺寸，变化通道之间的小配准误差（例如，在多参数MRI中）或变化的强度范围。虽然医学图像分析中的许多任务可以被假定为分类问题，但这可能并不总是最佳策略，因为它通常需要使用非深度学习方法（例如计数，分割或回归任务）的某种形式的后处理。

回顾机器学习社区在深度学习方面的当前趋势，我们确定了一个与医学成像高度相关并且正在接受（更新）兴趣的关键领域：无监督学习。神经网络的复兴始于2006年左右，随着神经网络的贪婪分层预训练以无人监督的方式普及。这很快就被完全监督的方法所取代，这些方法成为AlexNet在2012年ImageNet竞赛中取得成功后的标准，本次调查中的大多数论文采用监督方法。然而，对无监督培训策略的兴趣仍然存在，并且最近已经重新获得了关注。

无监督的方法很有吸引力，因为它们允许（初始）网络训练，使用世界上可用的大量未标记数据。假设无监督方法仍将发挥重要作用的另一个原因是类似于人类学习，这似乎更有效，并且在某种程度上也以无人监督的方式发生; 我们可以在不知道具体标签的情况下学会识别物体和结构。我们只需要非常有限的监督就可以将这些已识别的对象分类为类。我们期望在医学成像中产生影响的两种新的无监督策略是由Kingma和Welling（2013）引入的变分自动编码器（VAE）和由Goodfellow等人引入的生成对抗网络（GAN）。（2014）。前者将变分贝叶斯图形模型与神经网络合并为编码器/解码器。后者使用两个竞争卷积神经网络，其中一个生成人工数据样本，另一个是人工与真实样本区分。两者都具有随机成分并且是生成网络。最重要的是，他们可以进行端到端的培训，并以完全无人监督的方式学习代表性的功能。正如我们在前面的段落中讨论的那样，获取大量未标记的医疗数据通常比标记数据容易得多，而像VAE和GAN这样的无监督方法可以最佳地利用这些丰富的信息。

最后，深度学习方法经常被描述为“黑匣子”。特别是在医学中，问责制很重要并且可能产生严重的法律后果，因此通常不足以建立良好的预测系统。该系统还必须能够以某种方式表达自己。已经开发了几种策略来理解卷积网络的中间层正在响应什么，例如反卷积网络（Zeiler和Fergus，2014），引导反向传播（Springenberg等，2014）或深泰勒组合（Montavon等。，2017）。其他研究人员将预测与图像的文本表示（即字幕）联系起来（Karpathy和Fei-Fei，2015），这是了解网络感知的另一种有用途径。最后，一些团体试图将贝叶斯统计与深度网络相结合，以获得真正的网络不确定性估计Kendall和Gal（2017）。这将允许医生评估网络何时给出不可靠的预测。利用这些技术将深度学习方法应用于医学图像分析可以加速临床医生和患者之间对深度学习应用的接受。我们还预见深度学习方法将用于医学成像中的相关任务，大多数尚未探索，例如图像重建（Wang，2016）。因此，深度学习不仅会对医学图像分析产生巨大影响，而且会对医学影像作出整体影响。

--- - -- - - -- - -- - - ----- - - - - - 完结散花~~~ -- - - - - - - - - - - - - - - - - - - - -

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型