IEEE TGRS|【论文笔记】R2-CNN: Fast Tiny Object Detection in Large-Scale Remote Sensing Images

R²-CNN: Fast Tiny Object Detection in Large-Scale Remote Sensing Images

快速轻量的大尺度遥感图像目标检测框架

论文地址：/pdf/1902.06042.pdf

在大尺度遥感图像中检测小物体一直是遥感图像目标检测的具有挑战性的问题。首先，遥感图像尺寸很大，检测过程很慢很难用于实际应用。其次，遥感图像背景复杂，造成严重的错误响应。同时，细小的目标增加了检测的难度。为了解决以上的问题，此文章提出了一个针对遥感图像目标检测的框架，R2 CNN。R2 CNN 包括一个基本的Tiny-Net框架，全局注意力模块，分类器和检测器。

1 R2 CNN

R2 CNN是一个自增强框架。将大尺度遥感图像以20%的重叠率裁剪为640*640大小的图像。

本文提出的自增强结构有以下两个优势：1）大尺度遥感图像的大多数区域都不含有目标，所以不需要过多的检测器来检测。在不增加检测器开销的情况下，分类器分支可以过滤出一个空白块。2）大多数检测误报因为复杂的背景，本文框架的分类器可以识别困难检测场景下小目标。另一方面，在分类器过滤掉大多数的误报情况下，检测器收到很少的误报候选。即使分类器分错了，之后检测器也能分辨出来。

文章使用两个conv-bn-relu模块提取特征，之后加入average pooling 和1*1卷积。Softmax loss 用于指导分类器训练。

2 Tiny-Net

Tiny-net是一个轻量级的残差结构，可以更快速提取特征。这个结构受Resnet模型的启发，有更少的参数。可以不受训练样本的限制以及自然图像和遥感图像之间区域差距。

除了conv-1，其他3*3的block是残差结构。为了保证特征图可以分辨小目标检测，conv-1层没有使用下采样。

3 Global attention block

全局注意力模块建立在tiny-net模型上，来抑制FP。

当你观察两个相似外观的目标，在没有上下文环境的时候并不能分清他们是什么。比如，如图所示，很难分清谁才是目标。

CNN有两种感受野[39]，一种是理论感受野，一种是有效感受野。理论感受野指理论上可以影响本单元数值的输入域。然而，并不是每个像元都会对最终结果有所贡献。有效感受野与比理论感受野要小，如图（b）。有效的感受野包含很少的上下文信息，所以容易导致误报。

为了抑制误检，本文使用特征金字塔池化层作为全局特征块。特征图首先通过不同金字塔层进行池化，比如1*1,2*2,4*4。然后使用双线性插值将池化层恢复到原特征图大小，然后再对特征图进行融合。特征图可以获得更多的上下文信息，感受野也可以扩展到整幅图像。

4 Detector

在遥感图像中，大多目标尺寸非常小，所以RPN生成anchor的方法不能有效的检测小目标。所以本文提出了尺度不变性的anchor生成机制。作者在tiny-net中加入了放大缩小结构，可以提高小目标的召回率。同时，位置敏感ROI池化层可以共享所有检测器的计算获得更多的空间信息。

如（a）图，anchor 步长对于小目标来说是非常大的。

本文使用了k-means方法对训练样本自动生成bbox先验尺寸。为了提取对微小目标检测有用的特征，一种方法是使用放大和缩小结构扩大特征图来减少锚定步长。首先用残差结构缩小特征图，anchor的步长为16,。之后放大特征图，恢复最初的尺度。此外，文章在stride-8和上采样层之间使用了一个skip connection。发现stride-16可以提取更高层次的特征。Skip connection可以融合低层特征和高层特征。

考虑到遥感图像复杂的背景环境，我们使用了特征敏感性的ROI Pooling层。

5 实验

使用1169张GF-1的图像和318张GF-2图像，分别是18000*18192个像元，2m分辨率，27620*29200个像元，0.8m分辨率。从谷歌地球上手机的640*640大小的38472个切片。用102张GF-1作为测试集，40张GF-2 图像作为测试集。从谷歌地球收集4633张图像作为RGB测试集，GF-1和GF-2收集1000张作为灰色图像测试集。