文献:U-Net: Convolutional Networks for Biomedical Image Segmentation
官方代码:U-Net: Convolutional Networks for Biomedical Image Segmentation (uni-freiburg.de)
手敲代码(非官方):GitHub - 1158245177/UNet
本文用于个人学习,学习过程以原论文为主。如有错误,欢迎指正🙏
Abtracts
一些渣翻
很多赞同的声音认为深度网络需要成千上万的附加训练采样。本文中,我们提出一种网络和训练策略依赖于数据扩增。这个结构包括一个捕捉文本的方法和一个能精确定位的对称扩展方法。我们展现了这种网络可以从非常少的图像被训练端到端并相较于之前最好的方法(滑动窗口卷积神经网络)其在对于电子显微镜堆栈中神经结构分类的ISBI挑战赛中表现更出色。使用相同的网络在转换的轻量显微镜图像上训练,我们赢得了2015年ISBI细胞追踪挑战赛。然而,网络是快速的。在最新的 GPU 上,分割一幅 512x512 的图像只需不到一秒钟的时间。
1.Introduction
在过去的两年,深度卷积网络在许多视觉识别任务领域大放光彩。尽管卷积网络已经存在很长时间,但是他们的成功由于可训练集群大小和可考虑的网络大小而受限。Krizhevsky的突破在于其在具有1百万训练图像的ImageNet数据集上使用8个layers和数百万的参数训练网络。从那以后,更大更深层的网络都能够被训练。
卷积网络的经典用途就是分类任务,其输出图像为单分类标签。然而,在很多视觉任务中,特别是生物医学图像处理,理想输出应具有定位功能,一个分类标签应具体对应某一像素。并且,成千上万的训练图像通常超过生物医学任务领域数量。因此,Ciresan训练了一个滑动窗口建立的网络来预测每一像素点的分类标签,具体通过提供像素点周围得到位置信息作为输入。首先,网络是定位的,其次,训练数据转换为patch要比训练图像多得多哦。其训练结果在2012年赢得EM分类任务。显然,Ciresan的策略有两大缺点。1.它很慢,由于其网络必须对与每一个patch单独运行,