『论文阅读』U-Net Convolutional Networks for Biomedical Image Segmentation

xiaoxiao2021-02-28 59

U-Net Convolutional Networks for Biomedical Image Segmentation

用于生物医学图像分割的U-Net卷积网络

Abstract

普遍认为，深度网络的成功培训需要数千个带注释的训练样本。在本文中，提出了一种网络和培训策略，依靠强大的数据增强功能（data augmentation）更有效地使用可用的注释示例。该体系结构包括捕捉上下文的收缩路径（contracting path）和实现精确定位的对称扩展路径（symmetric expanding path）。表明，这种网络可以从非常少的图像端对端地进行训练，并且在ISBI对电子微观堆栈中的神经结构进行分割的挑战方面优于先前的最佳方法（滑动窗口卷积网络）。使用透射光显微镜图像（相差和DIC）训练的相同网络，我们在这些类别中赢得了ISBI 2015细胞跟踪挑战赛并有大幅度提升。而且，网络速度很快。在最近的GPU上，512x512图像的分割需要不到一秒的时间。Caffe实现和模型见http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net。

1. Introduction

在过去的两年中，深卷积网络在许多视觉识别任务中超越了现有技术的水平。虽然卷积神经网络很早就出现，但由于可用训练集的大小和所考虑的网络的大小，其成功受限。 Krizhevsky等人的突破是由于在ImageNet数据集上训练了一个具有8层和数百万个参数的大型网络，并有100万个训练图像。从那时起，更大和更深的网络已经被训练。

卷积网络的典型用途是分类任务，其中输出到图像是单个类别标签。然而，在许多视觉任务中，尤其是在生物医学图像处理中，期望的输出应该包括定位，即，应该将类别标签分配给每个像素。此外，在生物医学任务中，千量级的训练图像通常难以训练。因此，Ciresan等人在滑动窗口设置中训练网络，通过提供围绕该像素的局部区域（补丁）作为输入来预测每个像素的类别标签。首先，这个网络可以本地化。其次，补丁方面的训练数据远大于训练图像的数量。由此产生的网络大幅度赢得了ISBI 2012的EM细分挑战。

显然，Ciresan等人的策略有两个缺点。首先，它非常慢，因为网络必须分别为每个补丁运行，并且由于补丁重叠而导致大量冗余。其次，在本地化精确度和上下文的使用之间进行权衡。较大的修补程序需要更多的最大化缓冲层来降低本地化的准确性，而较小的修补程序则使网络只能看到很少的上下文。最近的方法提出了一个分类器输出，它考虑了来自多个层的特征。良好的本地化和上下文的使用是可能的同时。

在本文中，我们建立在更优雅的架构上，即所谓的“完全卷积网络”。我们修改和扩展了这个架构，使其能够在很少的训练图像下工作，并产生更精确的分割; 参见图1。其中的主要思想是通过连续层来补充常用的contracting 网络，其中pooling 操作被upsampling操作所取代。因此，这些层增加了输出的分辨率。为了本地化，合同路径中的高分辨率特征与上采样输出相结合。随后的连续卷积层可以学习根据这些信息组合更精确的输出。主要结构见图1.

架构中的一个重要修改是，在上采样部分有大量的特征通道，它们允许网络将上下文信息传播到更高分辨率的层。结果，扩张路径或多或少与收缩路径对称，并产生u形结构。该网络没有任何完全连接的层，并且仅使用每个卷积的有效部分，即，分割图仅包含像素，对于该像素，输入图像中的完整上下文是可用的。该策略允许通过重叠拼贴策略对任意大的图像进行无缝分割（参见图2）。为了预测图像的边界区域中的像素，通过镜像输入图像来推断丢失的上下文。这种平铺策略对于将网络应用于大图像很重要，否则分辨率将受到GPU内存的限制。

至于我们的任务，只有很少的训练数据可用，我们通过对可用的训练图像应用弹性变形来使用过多的数据增强。这使得网络能够学习这种变形的不变性，而不需要在注释图像语料库中看到这些变换。这在生物医学分割中特别重要，因为变形曾经是组织中最常见的变异，并且可以有效地模拟真实变形。 Dosovitskiy等人证明了学习不变性的数据增强在无监督特征学习的范围内的价值。

许多细胞分割任务中的另一个挑战是分离相同类别的触摸物体; 参见图3.为此，我们提出使用加权损失，其中触摸单元之间的分离背景标签在损失函数中获得大的权重。

由此产生的网络适用于各种生物医学分割问题。在本文中，我们展示了关于EM堆栈中神经元结构分割的结果（一个持续的竞争从ISBI 2012开始），其中我们超出了Ciresan等人的网络。此外，我们还展示了2015年ISBI细胞跟踪挑战的光学显微镜图像中细胞分割的结果。在这两个最具挑战性的二维透射光数据集中，我们高分胜出。

2. Network Architecture

网络架构如图1所示。它由一条收缩路径（左侧）和一条扩展路径（右侧）组成。收缩路径遵循卷积网络的典型体系结构。它由两次3x3卷积（无卷积卷积）的重复应用组成，每卷积一个整流线性单元（ReLU）和一个2x2最大池化操作，步进2用于下采样。在每个下采样步骤中，我们将特征通道的数量加倍。扩展路径中的每一步包括对特征映射进行上采样，然后进行2x2卷积（“上卷积”），该特征映射将特征通道的数量减半，与收缩路径中相应裁剪的特征映射级联，以及两个3x3卷积，每个卷积都有一个ReLU。由于每个卷积中边界像素的丢失，裁剪是必要的。在最后一层，使用1x1卷积来将每个64分量特征向量映射到期望数量的类。网络总共有23个卷积层。

为了实现输出分段映射的无缝平铺（请参见图2），选择输入切片大小非常重要，以便将所有2x2最大池操作应用于具有偶数x和y大小的图层。

3. Training

输入图像及其对应的分割图被用来用Caffe的随机梯度下降实现训练网络。由于unpadded的卷积，输出图像比输入小一个恒定的边界宽度。为了最大限度地降低开销并最大限度地利用GPU内存，我们倾向于在较大批量的情况下使用较大的输入切片，从而将批量减少为单个图像。因此，我们使用高动量（0.99），以便大量先前看到的训练样本确定当前优化步骤中的更新。

能量函数通过与交叉熵损失函数相结合的最终特征映射上的逐像素软最大值来计算。定义softmax函数为：

pk(x)=exp(ak(x))∑Ki=1exp(ai(x)) p k ( x ) = exp ⁡ ( a k ( x ) ) ∑ i = 1 K exp ⁡ ( a i ( x ) ) 其中

ak(x) a k ( x ) 表示在像素区域x(

x∈Ω,Ω⊂Z2 x ∈ Ω , Ω ⊂ Z 2 )，K表示总类别数，

pk(x) p k ( x ) 表示似然函数。

pk(x) p k ( x ) 接近于1

表示 ak(x) 是最大的激活函数，其他的k的激活函数的 pk(x) 接近于0。交叉熵惩罚p_{l(x)}(x)与1的偏差通过以下公式：

E=∑x∈Ωw(x)log(pl(x)(x)) E = ∑ x ∈ Ω w ( x ) log ⁡ ( p l ( x ) ( x ) ) 其中l是每个像素的真实标签，w是权重地图，表示训练中某些像素更加重要。

通过预先计算每个真实分割的权重图，以补偿训练数据集中某个类的不同频率像素，并迫使网络学习我们在触摸单元之间引入的小分离边界（请参阅图3c和d）。分离边界使用形态学操作来计算。然后计算权重图通过：

w(x)=wc(x)+w0∗exp(−(d1(x)+d2(x))22σ2) w ( x ) = w c ( x ) + w 0 ∗ exp ⁡ ( − ( d 1 ( x ) + d 2 ( x ) ) 2 2 σ 2 ) 其中

wc w c 是权重地图来平衡类像素的频率。

d1 d 1 表示最近单元边界的距离。

d2 d 2 表示到第二最近单元的边界的距离。文中设置

w0=10,σ≈5pixels w 0 = 10 , σ ≈ 5 p i x e l s 。

初始化权重很重要。在具有许多卷积层和通过网络的不同路径的深层网络中，权重的良好初始化非常重要。否则，网络的某些部分可能会过度激活，而其他部分则无法提供。理想情况下，应调整初始权值，使网络中的每个特征映射具有近似单位差异。对于具有我们的体系结构（交替卷积和ReLU层）的网络，这可以通过从具有标准偏差 2/N−−−−√ 的高斯分布中绘制初始权重来实现，其中N表示一个神经元的输入节点的数量，例如3x3的64通道的卷积层N=3*3*64=576.

3.1 增加数据

只有很少的训练样本可用时，数据增强对于教导网络所需的不变性和鲁棒性属性至关重要。在显微图像的情况下，我们主要需要移位和旋转不变性以及对变形和灰度值变化的鲁棒性。特别是训练样本的随机弹性变形似乎是训练具有很少注释图像的分割网络的关键。我们使用随机位移矢量在粗糙的3×3网格上生成平滑变形。位移从10像素标准偏差的高斯分布中采样。然后使用双三次插值计算每像素位移。压缩路径末端的退出层执行进一步的隐式数据增强。

转载请注明原文地址: https://www.6miu.com/read-2249986.html

技术

最新回复(0)

『 论文阅读』U-Net Convolutional Networks for Biomedical Image Segmentation