U-Net: Convolutional Networks for Biomedical Image Segmentation 解析

时间：2019-03-18 17:13:16

网络结构包括一个捕获上下文信息的收缩路径和一个用于精确定位的对称扩张路径，该网络能使用很少的图像就能够进行端到端的训练，并且在ISBI对电子显微镜下神经元结构进行的分割挑战方面胜过先前的最佳方法（滑动窗口卷积网络）。

结构

卷积层：无填充卷积+relu+（2*2，stride=2）的max pooling

卷积滤波器的数量每次下采样后double。

patch：上采样的时候是下采样时候的两倍。因为要把下采样的patch合并过来。

优化器：SGD， 0.99的动量系数

loss： cross entropy loss function

输入：尽可能大的batch来完美使用GPU内存。

权重初始化：高斯（0，sigma=sqrt(2/N)）

图像增强采用仿射变换。

U-Net 网络架构：

左侧：收缩路径遵循典型卷积神经网络的的结构，重复使用的两个3*3卷积（无填充卷积），每一组卷积后紧跟着一个ReLU和一个步长为2 的2*2 的最大池化操作进行下采样，每次下采样后将特征通道的数目变为原来两倍。

右侧：扩张路径中每一步都包含对特征映射进行上采样紧跟着一个2*2的卷积，将特征通道数减半，与来自收缩路径的对应的裁剪特征图进行连接，以及两个3*3 卷积，每个卷积后都跟随着一个ReLU.由于边缘像素的丢失，裁剪是非常必要的。在最后一层，一个1*1 的卷积将每64个分量特征向量映射为所需的类的数量。

总体来说，有23个卷积层。

训练：

输入图像和它对应的分割特征图是使用随机梯度下降进行训练网络。但是由于无填充卷积，输出的边界比输入小一个恒定的边界框度，为了最大限度地降低开销并最大限度地利用GPU内存，我们倾向于在大批量大小的情况下使用大的输入切片，将批量缩小为单个图像。因此，我们使用一个高动量(0.99)，以便大量以前看到的训练样本决定当前优化步骤中的更新。

能量函数是通过最终特征图映射与交叉熵损失函数相结合的逐像素软最大值来计算的。

soft-max define：

注：()表示在在像素处的特征通道k中的激活值。

K 是类的数目是近似的最大函数

对于有最大激活的k，=1 其余k时，=0 交叉熵然后在每个位置惩罚偏差从1使用

是每个像素的真实标签

是我们在训练中引入的重要像素的一个权重图。

预先计算每个真实图的分割的权重图，去弥补训练数据集中每个类别的不同像素频率，我们预先计算每个地面实况分割的权重图，以补偿训练数据集中某个类别的像素的不同频率，并迫使网络学习我们在触摸单元之间引入的小分离边界（见图） 3c和d）。

使用形态学计算来计算分离边界。然后将权重图计算为

注： R 是平衡类频率的权重图，d1：表示距离最近细胞边界的距离 d2：表示距离第二最近细胞边界的距离

设：

对于有网络的我们的架构（交替卷积和ReLU层）可以实现通过用标准的偏差为的高斯分布绘制初始权重其中N表示一个神经元的传入节点数。例如。对于前一层中的3x3卷积和64个特征通道N = 9*64 = 576。