U-Net - Convolutional Networks for Biomedical Image Segmentation论文翻译——中文版

文章作者:Tyan
博客:noahsnail.com  |  CSDN  |  简书

声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢!

翻译论文汇总:https://github.com/SnailTyan/deep-learning-papers-translation

U-Net: Convolutional Networks for Biomedical Image Segmentation

摘要

许多人都赞同深度网络的成功训练需要大量标注的训练样本。在本文中,我们提出了一种网络及训练策略,它依赖于大量使用数据增强,以便更有效地使用获得的标注样本。这个架构包括捕获上下文的收缩路径和能够精确定位的对称扩展路径。我们证明了这种网络可以从非常少的图像进行端到端训练,并且优于之前的ISBI赛挑战赛的最好方法(滑动窗口卷积网络),ISBI赛挑战赛主要是在电子显微镜堆叠中进行神经元结构分割。使用在透射光显微镜图像(相位衬度和DIC)上训练的相同网络,我们在这些类别中大幅度地赢得了2015年ISBI细胞追踪挑战赛。而且,网络速度很快。在最新的GPU上,分割一张512x512的图像不到一秒钟。网络的完整实现(基于Caffe)和预训练网络可在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net上获得。

1 引言

在过去两年,深度卷积网络在许多视觉识别任务中的表现都优于当前的最新技术,例如[7,3]。虽然卷积网络已经存在了很长时间[8],但由于可用训练集的大小和所考虑网络的规模,它们的成功受到了限制。Krizhevsky等人[7]的突破是通过大型网络在ImageNet数据集上的监督训练实现的,其中大型网络有8个网络层和数百万参数,ImageNet数据集包含百万张训练图像。从那时起,即使更大更深的网络也已经得到了训练[12]。

卷积网络的典型用途是分类任务,其中图像输出是单个的类别标签。然而,在许多视觉任务中,尤其是在生物医学图像处理中,期望的输出应该包括位置,即类别标签应该分配给每个像素。此外,生物医学任务中通常无法获得数千张训练图像。因此,Ciresan等人[1]在滑动窗口设置中训练网络,通过提供像素周围局部区域(patch)作为输入来预测每个像素的类别标签。首先,这个网络可以定位。其次,局部块方面的训练数据远大于训练图像的数量。由此产生的网络大幅度地赢得了ISBI 2012EM分割挑战赛。

显然,Ciresan等人[1]的策略有两个缺点。首先,它非常慢,因为必须为每个图像块单独运行网络,并且由于图像块重叠而存在大量冗余。其次,定位准确性与上下文的使用之间存在着权衡。较大的图像块需要更多的最大池化层,从而降低了定位精度,而较小的图像块则允许网络只能看到很少的上下文。许多最近的方法[11,4]提出了一种分类器输出,其考虑了来自多个层的特征。同时具有良好的定位和上下文的使用是可能的。

在本文中,我们构建了一个更优雅的架构,即所谓的“全卷积网络”[9]。我们对这种架构进行了修改和扩展,使得它只需很少的训练图像就可以取得更精确的分割; 参见图1。[9]中的主要思想是通过连续层补充通常的收缩网络,其中的池化运算符由上采样运算符替换。因此,这些层增加了输出的分辨率。为了进行定位,来自收缩路径的高分辨率特征与上采样输出相结合。然后,后续卷积层可以基于该信息学习组装更精确的输出。

Figure 1

图1. U-net架构(最低分辨率为32x32像素的示例)。每个蓝色框对应于一张多通道特征映射。通道数在框的顶部。x-y尺寸提供在框的左下边。白框表示复制的特征映射。箭头表示不同的操作。

我们架构中的一个重要修改是在上采样部分中我们还有大量的特征通道,这些通道允许网络将上下文信息传播到具有更高分辨率的层。因此,扩展路径或多或少地与收缩路径对称,并产生U形结构。网络没有任何全连接层,并且仅使用每个卷积的有效部分,即分割映射仅包含在输入图像中可获得完整上下文的像素。该策略允许通过重叠图像区策略无缝分割任意大小的图像(参见图2)。为了预测图像边界区域中的像素,通过镜像输入图像来外推缺失的上下文。这种图像块策略对于将网络应用于大的图像非常重要,否则分辨率将受到GPU内存的限制。

Figure 2

图2. 重叠图像块策略可以无缝分割任意大小的图像(EM堆叠中的神经元结构分割)。分割的预测在黄色区域,要求蓝色区域的图像数据作为输入。缺失的输入数据通过镜像外推。

对于我们的任务,可用的训练数据非常少,我们通过对可用的训练图像应用弹性变形来使用更多的数据增强。这允许网络学习这种变形的不变性,而不需要在标注图像语料库中看到这些变形。 这在生物医学分割中尤其重要,因为变形曾经是组织中最常见的变化,并且可以有效地模拟真实的变形。Dosovitskiy等人[2]在无监督特征学习的领域内已经证明了数据增强在学习不变性中的价值。

许多细胞分割任务中的另一个挑战是分离同类的接触目标,见图3。为此,我们建议使用加权损失,其中接触单元之间的分离背景标签在损失函数中获得较大的权重。

Figure 3

图3. 用DIC(差异干涉对比)显微镜记录玻璃上的HeLa细胞。(a)原始图像。(b)覆盖的实际分割。不同的颜色表示不同的HeLa细胞实例。(c)生成分割掩码(白色:前景,黑色:背景)。(d)以像素损失权重的映射来迫使网络学习边界像素。

由此产生的网络适用于各种生物医学分割问题。在本文中,我们展示了EM堆叠中神经元结构的分割结果(从ISBI 2012开始的持续竞赛),其中我们的表现优于Ciresan等人[1]的网络。此外,我们展示了2015 ISBI细胞追踪挑战赛光学显微镜图像中的细胞分割结果。我们在两个最具挑战性的2D透射光数据集上以巨大的优势赢得了比赛。

2 网络架构

网络架构如图1所示。它由一个收缩路径(左侧)和一个扩展路径(右侧)组成。收缩路径遵循卷积网络的典型架构。它包括重复使用两个3x3卷积(无填充卷积),每个卷积后跟一个线性修正单元(ReLU)和一个2x2最大池化操作,步长为2的下采样。在每个下采样步骤中,我们将特征通道的数量加倍。扩展路径中的每一步都包括特征映射的上采样,然后进行2x2卷积(“向上卷积”),将特征通道数量减半,与来自收缩路径的相应裁剪特征映射串联,然后是两个3x3卷积,每个卷积后面接ReLU。由于每一次卷积都会丢失边界像素,因此裁剪是必要的。在最后一层,使用1x1卷积将每个64分量特征向量映射到所需数量的类别上。网络总共有23个卷积层。

为了允许输出分割映射的无缝平铺(参见图2),选择输入的图像块大小非常重要,这样所有的2x2最大池化操作都可以应用在具有偶数x和偶数y大小的层上。

3 训练

使用输入图像及其相应的分割映射来训练带有随机梯度下降的网络,网络是采用Caffe[6]实现的。由于无填充卷积,输出图像比输入少恒定的边界宽度。为了最小化开销并最大限度地利用GPU内存,我们倾向于在大批量数据大小的情况下使用大的输入图像块,从而将批量数据大小减少到单张图像。因此,我们使用高动量(0.99),使得大量先前看到的训练样本确定当前优化步骤中的更新。

References

  1. Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural networks segment neuronal membranes in electron microscopy images. In: NIPS. pp. 2852–2860 (2012)

  2. Dosovitskiy, A., Springenberg, J.T., Riedmiller, M., Brox, T.: Discriminative unsupervised feature learning with convolutional neural networks. In: NIPS (2014)

  3. Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2014)

  4. Hariharan, B., Arbelez, P., Girshick, R., Malik, J.: Hypercolumns for object segmentation and fine-grained localization (2014), arXiv:1411.5752 [cs.CV]

  5. He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing human-level performance on imagenet classification (2015), arXiv:1502.01852 [cs.CV]

  6. Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Ca↵e: Convolutional architecture for fast feature embedding (2014), arXiv:1408.5093 [cs.CV]

  7. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)

  8. LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., Jackel, L.D.: Backpropagation applied to handwritten zip code recognition. Neural Computation 1(4), 541–551 (1989)

  9. Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation (2014), arXiv:1411.4038 [cs.CV]

  10. Maska, M., (…), de Solorzano, C.O.: A benchmark for comparison of cell tracking algorithms. Bioinformatics 30, 1609–1617 (2014)

  11. Seyedhosseini, M., Sajjadi, M., Tasdizen, T.: Image segmentation with cascaded hierarchical models and logistic disjunctive normal networks. In: Computer Vision (ICCV), 2013 IEEE International Conference on. pp. 2168–2175 (2013)

  12. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition (2014), arXiv:1409.1556 [cs.CV]

  13. WWW: Web page of the cell tracking challenge, http://www.codesolorzano.com/celltrackingchallenge/Cell_Tracking_Challenge/Welcome.html

  14. WWW: Web page of the em segmentation challenge, http://brainiac2.mit.edu/isbi_challenge/

如果有收获,可以请我喝杯咖啡!