人脸表情系列：论文阅读——Facial Expression Recognition by De-expression Residue Learning

时间：2020-11-13 12:20:59

task是表情识别，将一张图像视为两部分组成：expressive component和neutral component。从一张图像中生成该个体的无表情图像称为de-expression learning procedure，则这个过程中逐步抛掉的就是expressive component。既然是抛掉的部分，如何使用呢？本文借助同尺寸的两组feature maps，得到两者间的差也就是被抛掉的expressive component，这就是残差学习/residue learning的意思。

该方法着重解决了identity information给表情识别带来的问题，因为生成的图像和输入图像仅在表情上有所改变，无论是图像整体的光照还是个体的面部信息，都未发生改变，这样用于识别的残差就受这些因素影响很小。

网络结构如下图所示：

整个结构分为两部分，首先是一个cGAN的结构(上图的长方形框部分)：输入是一对图像，经过Generator生成与输入对应的无表情图像，再由Discriminator判别和；第二部分使用了Generator中的feature maps获取残差，然后通过cnn进行表情识别。

第一部分判别器和生成器的目标函数如下：

Generator的目标函数中还包括了和的L1 loss。训练中，先优化cGAN，然后保持其参数不变，对下面的cnn进行优化。在下面表情分类的网络中，共有4个子网络，分别在2，4，8，16四个尺寸上获取残差进行分类得到四个loss，然后四个全连接层的结果进行concatenate后再次分类得到loss 5。这五次分类准确率如下图所示：

可以看到，在分类子网络cnn相同时(说明感受野相同)，尺寸越大的feature maps保留了越多的表情信息。但也可能不是尺寸产生的影响，而是所保留expressive information的不同：如果是生成器的前半段，feature maps尺寸越大，越靠近输入图像，也就是表情信息还未过滤掉，feature maps中还包含很多；如果是生成器后半段，feature maps尺寸越大，越靠近输出图像，此时表情信息已经接近没有了。因此尺寸大的feature maps之间的残差是最能表征expressive information的。但由上图可知，即使是CNN-4也就是尺寸最小的部分，也有一定的分类功能，并没有完全过滤掉表情信息，因此进行concatenate后再次分类是有必要的。

但是表情过滤不彻底可能有一部分来自于生成器中的连接，如下图所示：

在Decode过程中，每一次都concatenate了Encode过程中得到的同尺寸的feature maps，应该是为了丰富图像本身的信息，保证生成图像尽可能在除去表情的部分接近输入图像。但是Encode中的feature maps都是包含了不少表情信息的，这就导致表情信息再一次融合到了生成图像中，还是会产生干扰，感觉有点矛盾。生成图像效果如下：

包含背景的图像中，面部边界有些模糊，但表情部分效果还不错。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。