计算机视觉：图像分类物体检测图像语义分割实例分割和全景分割

计算机视觉

图像分类 Image Classification物体检测 Object Detection/ Object Localization语义分割 Semantic Segmentation实例分割 Instance Segment全景分割 Panoptic Segmentation

图像分类 Image Classification

The task of object classification requires binary labels indicating whether objects are present in an image.

给定一组各自被标记为单一类别的图像，我们对一组新的测试图像的类别进行预测，并测量预测的准确性结果，这就是图像分类问题。

物体检测 Object Detection/ Object Localization

Detecting an object entails both stating that an object belonging to a specified class is present, and localizing it in the image. The location of an object is typically represented by a bounding box.

物体检测，包含两个问题，一是判断属于某个特定类的物体是否出现在图中；二是对该物体定位，定位常用表征就是物体的边界框，通常是以包围盒的(bounding box)形式。

语义分割 Semantic Segmentation

The task of labeling semantic objects in a scene requires that each pixel of an image be labeled as belonging to a category, such as sky, chair, floor, street, etc. In contrast to the detection task, individual instances of objects do not need to be segmented.

语义分割是在像素级别上的分类，属于同一类的像素都要被归为一类，因此语义分割是从像素级别来理解图像的。

Simply, our goal is to take either a RGB color image (height×width×3) or a grayscale image (height×width×1) and output a segmentation map where each pixel contains a class label represented as an integer (height×width×1).

不同于此前的图像分类和目标检测，在开始图像分割的学习和尝试之前，我们必须明确语义分割的任务描述，即搞清楚语义分割的输入输出都是什么。我们输入当然是一张原始的RGB图像或者单通道的灰度图，但是输出不再是简单的分类类别或者目标定位，而是带有各个像素类别标签的与输入同分辨率的分割图像。简单来说，我们的输入输出都是图像，而且是同样大小的图像。

https://www.jeremyjordan.me/semantic-segmentation/

实例分割 Instance Segment

“instance segmentation” means the segmentation of the individual objects within a scene, regardless of if they are the same type.

实例分割是物体检测+语义分割的综合体。相对物体检测的边界框，实例分割可精确到物体的边缘；相对语义分割，实例分割可以标注出图上同一类物体的不同个体。

类似于处理分类标签数据，对预测分类目标采用像素上的 one-hot 编码，即为每个分类类别创建一个输出的 channel 。

将分割图添加到原始图像上的效果验证。这里有个概念需要明确一下——mask，在图像处理中我们将其译为掩膜，如 mask-rcnn 中的 mask。mask 可以理解为我们将预测结果叠加到单个 channel 时得到的该分类所在区域。

由于语义分割需要输入输出都是图像，所以与之前经典的图像分类和目标检测网络在分割任务上就不大适用了。在此前的经典网络中，经过多层卷积和池化之后输出的特征图尺寸会逐渐变小，所以对于语义分割任务我们需要将逐渐变小的特征图给还原到输入图像的大小。

为了实现上述目标，现有的语义分割等图像分割模型的一种通用做法就是采用编码和解码的网络结构，此前的多层卷积和池化的过程可以视作是图像编码的过程，也即不断的下采样的过程。那解码的过程就很好理解了，可以将解码理解为编码的逆运算，对编码的输出特征图进行不断的上采样逐渐得到一个与原始输入大小一致的全分辨率的分割图。

FCN将网络全连接层用卷积取代，因此使任意图像大小的输入都变成可能，而且速度比Patch classification方法快很多。

全景分割 Panoptic Segmentation

Kirillov A , He K , Girshick R , et al. Panoptic Segmentation[J]. .

论文来自何凯明组，主要工作是提出了将实例分割和语义分割结合起来的全景分割任务，并给出了此类任务的性能指标PQ(Panoptic Quality)。

语义分割、实例分割和全景分割：

语义分割：逐个像素分配标签（per-pixel class labels）assign a class label to each pixel

实例分割：逐个object进行mask和分类标签（per-object mask and class label）detect and segment each object instance

全景分割：逐像素分配一个stuff或things的语义标签和一个实例ID（per-pixel class+instance labels）generalizes both se- mantic and instancesegmentation

强调了things和stuff的区别：

things：countable objects such as people, animals, tools可数的objects，采用实例分割来处理

stuff：amorphous regions of similar texture or material such as grass, sky, road相同或者相似纹理或材质的不规则区域，例如grass、sky、road等采用语义分割来处理。

The proposed task requires gener- ating a coherent scene segmentation that is rich and com- plete, an important step toward real-world vision systems.