2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > Deep Facial Expression Recognition: A Survey

Deep Facial Expression Recognition: A Survey

时间:2024-02-01 19:37:56

相关推荐

Deep Facial Expression Recognition: A Survey

Shan Li and Weihong Deng ∗ , Member, IEEE

虽然人脸检测是实现特征学习的唯一必要步骤,但进一步利用局部地标的坐标对人脸进行比对可以显著提高识别性能。这一步是至关重要的,因为它可以减少面部尺度和平面内旋转的变化。表2研究了深度FER中广泛使用的人脸关键点检测算法,并对其效率和性能进行了比较。

主动外观模型(AAM)[53]是一个经典的生成模型,它从整体的面部外观和整体的形状模式来优化所需的参数。在判别模型中,混合树(MoT)结构模型[56]和判别响应图拟合(DRMF)[59]使用基于部分的方法,通过每个地标周围的局部外观信息来表示人脸。此外,许多判别模型直接使用级联回归函数将图像外观映射到关键点位置,取得了较好的效果,如IntraFace[73]中实现的监督下降法(supervised descent method, SDM)[62]、人脸对齐3000 fps[64]、人脸增量对齐[65]。近年来,深度网络被广泛应用于人脸对齐。级联CNN[67]是早期以级联方式预测关键点的工作。基于此,任务受限的深卷积网络(TCDCN)[74]和多任务CNN (MTCNN)[69]进一步利用多任务学习来提高性能。一般来说,级联回归由于其速度快、精度高,已成为目前最流行和最先进的人脸对齐方法。

相对于只使用一个检测器进行人脸对齐,一些方法提出将多个检测器组合起来,以便在具有挑战性的无约束环境中处理人脸时更好地进行关键点估计。Yu等人[75]将三种不同的面部关键点检测器串联起来,相互补充。Kim等[76]考虑了不同的输入(原始图像和直方图均衡化图像)以及不同的人脸检测模型(V&J[72]和MoT[56]),选取了Intraface提供的置信度最高的关键点集[73]。

3.1.2数据增加

深度神经网络需要足够的训练数据来保证给定识别任务的通用性。然而,大多数面向FER的公开数据库并没有足够数量的图像用于培训。因此,数据扩充是实现深度FER的重要步骤。数据增强技术可以分为两类:实时数据增强和离线数据增强。

通常,实时数据增强被嵌入到深度学习工具包中,以减轻过度拟合。在训练过程中,从图像的四个角和中心随机裁剪输入样本,然后水平翻转,得到的数据集比原始训练数据集大十倍。试验中采用两种常见的预测模式:只使用人脸的中心patch进行预测(如[61],[77]),或者对全部10个裁剪的样本的预测值取平均值

除了基本的实时数据扩充外,还设计了各种离线数据扩充操作,以进一步扩充数据的大小和多样性。最常用的操作包括随机扰动和变换,如旋转、移位、倾斜、缩放、噪声、对比度和颜色抖动。例如,常用的噪声模型salt &使用pepper和speckle噪声[79]和高斯噪声[80]、[81]来放大数据大小。对于对比度变换,改变每个像素的饱和度和值(HSV颜色空间的S和V分量)进行数据增强[70]。

多个操作的组合可以生成更多不可见的训练样本,使网络对偏离和旋转的人脸具有更强的鲁棒性。在[82]中,作者应用了5个图像外观滤波器(disk、average、Gaussian、unsharp和motion filters)和6个仿射变换矩阵,通过在单位矩阵上添加少量几何变换来形式化。在[75]中,提出了一种更全面的仿射变换矩阵,随机生成旋转、倾斜和尺度不同的图像。此外,基于深度学习的技术可以应用于数据扩充。例如,在[83]中创建了一个三维卷积神经网络(CNN)合成数据生成系统,用于机密地创建表情饱和度不同的人脸。而生成式对抗网络(GAN)[84]也可以通过生成不同姿态和表情的不同表象来增加数据。

3.1.3 Face normalization

光照和头部姿态的变化会引起图像的巨大变化,从而影响FER的性能。因此,我们引入了两种典型的人脸归一化方法来改善这些变化:光照归一化和姿态归一化(正面化)。光照归一化:在不同的图像中,即使同一个人具有相同的表情,光照和对比度也会发生变化,特别是在无约束的环境中,这可能会导致较大的类内方差。在[60]中,我们评估了几种常用的光照归一化算法,即基于各向同性扩散(IS)的归一化、基于离散余弦变换(DCT)的归一化[85]和基于高斯差(DoG)的归一化。[86]采用基于同态滤波的归一化去除光照归一化,据报道,在所有其他技术中,基于同态滤波的归一化效果最为一致。此外,相关研究表明,直方图均衡化和光照归一化相结合的人脸识别性能优于单独使用光照归一化的人脸识别性能。而deep FER文献中的许多研究(如[75],[79],[87],[88])都采用直方图均衡化来增强图像的全局对比度进行预处理。

当背景和前景的亮度相似时,该方法是有效的。然而,直接应用直方图均衡化可能会过分强调局部对比度。为了解决这个问题,[89]提出了一种将直方图均衡化与线性映射相结合的加权求和方法。在[79]中,作者比较了三种不同的方法:全局对比度归一化(GCN)、局部归一化和直方图均衡化。报告了GCN和直方图均衡化分别在训练和测试步骤上达到了最佳的准确性。

位姿归一化:在无约束条件下,位姿变化较大是另一个常见而棘手的问题。一些研究已经使用位姿归一化技术来生成FER的正面人脸视图(如[90],[91]),其中最受欢迎的是Hassner等人提出的[92]。具体来说,在对人脸关键点进行定位后,生成一个适用于所有人脸的三维纹理参考模型来有效地估计可见的人脸成分。然后,将每个输入的人脸图像反向投影到参考坐标系中,合成初始人脸。另外,Sagonas等人[93]提出了一种有效的统计模型,可以同时定位关键点和只使用正面人脸转换面部姿态。最近,一系列基于gan的深度模型被提出用于正面视图合成(如FF-GAN[94]、TP-GAN[95]和DR-GAN[96]),并报告了很有前景的性能

3.2 Deep networks for feature learning

深度学习最近成为一个热门的研究课题,并在各种应用中取得了最先进的性能[97]。深度学习试图通过多重非线性转换和表示的层次结构捕获高级抽象。在本节中,我们简要介绍了一些应用于FER的深度学习技术。这些深度神经网络的传统结构如图2所示。

3.2.1 Convolutional neural network (CNN)

CNN在包括FER在内的多种计算机视觉应用中得到了广泛的应用。21世纪初,FER文献[98]、[99]中的几项研究发现,CNN对位置变化和尺度变化具有较强的鲁棒性,在人脸姿态变化未见的情况下,其性能优于多层感知器(multilayer perceptron, MLP)。[100]利用CNN来解决人脸表情识别中主体独立性以及平移、旋转、尺度不变性等问题

CNN由三种异构层组成:卷积层、池化层和完全连接层。卷积层有一组可学习滤波器,可对整个输入图像进行卷积,生成各种特定类型的激活特征图。卷积运算具有三个主要优点:局部连通性,它学习相邻像素之间的相关性;在同一特征图中共享权重,大大减少了需要学习的参数数量;以及物体位置的平移不变性。

池化层在卷积层之后,用于减小特征映射的空间大小和网络的计算成本。平均池化和最大池化是最常用的两种用于平移不变性的非线性下采样策略。完全连接的层通常包含在网络的末端,以确保层中的所有神经元完全连接到前一层中的激活,并使2D特征映射能够转换为一维特征映射,以进一步表征和分类。

表3列出了一些已经应用于FER的知名CNN模型的配置和特点

除了这些网络,还有一些著名的派生框架。在[101]、[102]中,采用基于区域的CNN (R-CNN)[103]为FER学习特征。在[104]中,Faster R-CNN[105]通过生成高质量的区域建议来识别面部表情。此外,Ji等人提出了3D CNN[106],通过3D卷积捕获多个相邻帧编码的运动信息,进行动作识别。Tran et al. [107]提出了一种设计良好的C3D算法,该算法利用大规模监督训练数据集上的三维卷积来学习时空特征。许多相关的研究(如[108],[109])都使用了该网络来处理包含图像序列的FER。

3.2.2 Deep belief network (DBN)

Hinton等[113]提出的DBN是一种学习提取训练数据深层层次表示的图形模型。传统的DBN是由一堆受限玻尔兹曼机(RBMs)构建的[114],它们是由可见单元层和隐藏单元层组成的两层生成随机模型。RBM中的这两层必须形成一个没有横向连接的二部图。在DBN中,除了具有无向连接的顶层和顶层之外,高层的单元被训练来学习相邻低层单元之间的条件依赖关系。DBN的训练包括两个阶段:预训练和微调[115]。首先,采用一种高效的逐层贪婪学习策略[116]对深度网络进行无监督初始化,在不需要大量标记数据的情况下,可以在一定程度上避免局部最优结果较差。在此过程中,对比分歧[117]用于训练DBN中的RBM以估计对数似然的近似梯度。 然后,在监督下通过简单的梯度下降微调网络参数和所需输出。

3.2.3 Deep autoencoder (DAE)

DAE最早是在[118]引入的,用于学习有效的降维编码。与前面提到的训练用来预测目标值的网络相比,DAE通过最小化重建误差来优化重建输入。DAE的变体存在,如去噪自编码器[119],它从部分损坏的数据中恢复原始的未失真输入;稀疏自编码网络(DSAE)[120],使得学习到的特征表示具有稀疏性;收缩自动编码器(CAE 1)[121],它增加了一个活动依赖的正则化,以诱导局部不变特征; 卷积自动编码器(CAE 2)[122],它使用网络中隐藏层的卷积(和可选的池化)层; 和变分自动编码器(VAE)[123],它是一个定向图形模型,具有某些类型的潜在变量来设计复杂的数据生成模型

3.2.4 Recurrent neural network (RNN)

RNN是一种捕捉时间信息的连接模型,更适合于任意长度的序列数据预测。除了以单一的前馈方式训练深度神经网络外,RNNs还包含了跨越相邻时间步长的递归边,并且在所有步骤中共享相同的参数。经典的时间反向传播(BPTT)[124]用于训练RNN。长短时记忆(LSTM),由Hochreiter &Schmidhuber[125]是传统RNN的一种特殊形式,用于解决训练RNN中常见的梯度消失和爆炸问题。LSTM中的单元状态由三个门调节和控制:输入门允许或阻止输入信号改变单元状态,输出门启用或阻止单元状态影响其他神经元,以及忘记门 调制细胞的自我反复连接以积累或忘记其先前的状态。通过组合这三个门,LSTM可以对序列中的长期依赖性进行建模,并已广泛用于基于视频的表达识别任务

3.2.5 Generative Adversarial Network (GAN)

3.3 Facial expression classification

在学习了人脸的深层特征后,FER的最后一步是将人脸分类为基本的情感类别之一。与传统的特征提取步骤和特征分类步骤相互独立的方法不同,深度网络可以端到端执行FER。具体地说,在网络的末端增加一个loss层来调节反向传播误差;然后,网络可以直接输出每个样本的预测概率。在CNN中,softmax loss是最常用的函数,它最小化了估计类概率与真实分布之间的交叉熵。另外,[130]证明了使用线性支持向量机(SVM)进行端到端训练的好处,该方法最大限度地减少了基于边缘的损失,而不是交叉熵。同样,[131]研究了深度神经森林(NFs)[132]的适应性,该神经森林用NFs取代了softmax loss layer,并为FER取得了竞争的结果。除了端到端学习方法,另一种方法是使用深度神经网络(特别是CNN)作为特征提取工具,然后应用额外的独立分类器.如支持向量机或随机森林,到提取的表示[133],[134]。此外,[135]、[136]表明,在DCNN特征上计算的协方差描述符和在对称正定流形(SPD)上用高斯核分类比在softmax层上用标准分类更有效。

4 T HE STATE OF THE ART

在这一节中,我们回顾了现有的为FER设计的新型深度神经网络,以及为解决特定表情问题而提出的相关训练策略。根据数据类型的不同,我们将文献中的工作分为两大类:静态图像的深FER网络和动态图像序列的深FER网络。然后,我们就网络体系结构和性能方面对当前的深度FER系统进行了概述。由于部分被评估的数据集没有提供明确的数据组用于训练、验证和测试,相关研究可能会在不同的实验条件下使用不同的数据进行实验,因此我们总结了表情识别性能以及数据选择和分组方法的信息

4.1 Deep FER networks for static images

由于数据处理的便利性以及相关训练和测试材料的可用性,大量现有研究基于静态图像进行表情识别任务而不考虑时间信息。本文首先介绍了针对于表情识别的神经网络的特殊预训练和微调技术,然后对该领域的新型深度神经网络进行了综述。对于每个最常评估的数据集,表4显示了该领域中当前最先进的方法,这些方法是在与人无关的协议中明确进行的(训练和测试集中的主题是分开的)。

4.1.1 Pre-training and fine-tuning

如前所述,在相对较小的面部表情数据集上直接训练深度网络容易出现过拟合。为了缓解这一问题,许多研究使用额外的面向任务的数据,对他们自己构建的网络进行从零开始的预培训,或者在著名的预培训模型(如AlexNet[25]、VGG[26]、VGG-face[148]和GoogleNet[27])上进行微调。Kahou等人[57],[149]指出,使用额外的数据可以在不过度拟合的情况下获得高容量的模型,从而提高FER的性能。为了选择合适的辅助数据,可以选择大规模人脸识别(FR)数据集(如CASIA WebFace[150]、野外名人脸(CFW)[151]、FaceScrub dataset[152])或相对较大的FER数据集(FER[21]和TFD[37])。Kaya等[153]认为,为FR训练的VGG-Face战胜了为物体识别而开发的ImageNet。Knyazev等人[154]观察到的另一个有趣的结果是,对较大FR数据的预训练正向影响情绪识别的准确性,进一步微调额外的FER数据集可以帮助提高性能。

多阶段微调策略(见图3中的submit 3)可以获得更好的性能,而不是直接使用预训练或微调的模型来提取目标数据集上的特征[63]:在使用FER对预训练模型进行第一阶段微调之后,采用基于目标数据集(EmotiW)的训练部分的第二阶段微调来优化模型以适应更具体的数据集(即 ,目标数据集)。虽然对外部FR数据进行预训练和微调可以间接避免训练数据过小的问题,但是网络是与FER单独训练的,学习特征中仍然保留着人脸为主的信息,这可能会削弱网络表达表情的能力。

为了消除这种影响,提出了两阶段训练算法FaceNet2ExpNet111。微调后的人脸网络作为表情网络的良好初始化,仅用于指导卷积层的学习。利用表情信息对完全连通层进行从无到有的训练,使目标网络的训练规范化

4.1.2 Diverse network input

传统的方法通常使用RGB图像的整个对齐人脸作为网络的输入来学习FER的特征。然而,这些原始数据缺乏重要的信息,如均匀或规则纹理和图像缩放、旋转、遮挡和光照方面的不变性,这可能代表了FER的混杂因素。一些方法使用不同的手工特性及其扩展作为网络输入来缓解这个问题。

底层表示对给定RGB图像中小区域的特征进行编码,然后用局部直方图对这些特征进行聚类和汇聚,这些特征对光照变化和较小的配准误差具有鲁棒性。底层表示对给定RGB图像中小区域的特征进行编码,然后用局部直方图对这些特征进行聚类和汇聚,这些特征对光照变化和较小的配准误差具有鲁棒性。

基于部件的表示根据目标任务提取特征,从整个图像中去除非关键部件,并利用对任务敏感的关键部件。[158]表明了三个感兴趣的区域(ROI),即,眉毛、眼睛和嘴巴与面部表情的变化密切相关,并将这些区域作为DSAE的输入。其他研究提出自动学习面部表情的关键部分例如,[159]使用深层多层网络[160]来检测需要视觉注意的部位的强度显著性图。并[161]应用邻域中心差分向量(NCDV)[162]获得具有更多内在信息的特征

4.1.3 Auxiliary blocks & layers辅助块

基于CNN的基础架构,已有多项研究提出了添加设计良好的辅助块或层来增强学习特征的表达相关表示能力。一种新颖的CNN架构,HoloNet [90],是为FER设计的,其中CReLU [163]与强大的残余结构相结合[28],以增加网络深度而不降低效率和初 inception-residual块[164],[165] ]是专为FER设计的,可以学习多尺度特征来捕捉表情变化。另一个CNN模型,监督评分集合(SSE)[91],被引入,以提高FER的监管程度,其中三种类型的监督块分别嵌入主流CNN的早期隐藏层,用于浅,中,深监督 (见图6(a))。设计了一种特征选择网络(feature selection network, FSN)[166],在AlexNet中嵌入一种特征选择机制,根据学习到的面部表情特征图,自动过滤无关特征,强调相关特征。(并且通过在AlexNet内嵌入特征选择机制来设计特征选择网络(feature selection network, FSN)[166],其自动过滤不相关的特征并根据所学习的面部表情特征图强调相关特征。)有趣的是,Zeng等[167]指出,不同的FER数据库之间的注释不一致是不可避免的,当训练集通过合并多个数据集来扩大时,这种不一致的注释会损害训练集的性能。为了解决这一问题,作者提出了一种不一致的伪真值标注(IPA2LT)框架。在IPA2LT中,端到端可训练的LTNet旨在通过最大化这些不一致注释的对数似然性来发现人类注释和从不同数据集训练的机器注释的潜在真相。

神经网络中传统的softmax损失层只是简单地将不同类的特征分离开来,而现实场景中的FER不仅存在类间相似性高的问题,而且存在类内变异大的问题。因此,一些研究工作提出了新的损失层。受中心损失(center loss)的启发[168],即惩罚深度特征与其对应的类中心之间的距离,提出了两种变体,以帮助监督softmax损失,从而为FER提供更有鉴别性的特征:(1)将island loss[140]形式化,进一步增加不同class center之间的两两距离**(图6(b))**。(2)局部保留损失(LP损失)[44],将同一类的局部邻近特征聚在一起,使得每个类的类内局部簇为紧凑。此外,基于三重损失[169],一个正的例子比一个负的有固定间隙的例子更接近锚点,提出了两种变体来代替或协助监督softmax损失:(1)将指数三重损失(triplebased loss)[145]形式化,使困难样本在网络更新时权重更大,(2) (N+M)-元组簇损失[77]形式化,以缓解恒等不变FER三重损失中锚点选择和阈值验证的困难(详见图6©)。此外,还提出了特征损失[170],为训练初期的深度特征提供补充信息。

4.1.4 Network ensemble

之前的研究表明,多个网络的集合可以比单个网络表现得更好[171]。在实施网络集成时,应考虑两个关键因素:(1)充分的网络多样性,以确保互补性;(2)适当的集成方法,可以有效地聚合委员会网络。

对于第一个因素,不同种类的训练数据和不同的网络参数或架构被认为可以产生不同的委员会。变形和归一化等预处理方法[146],4.1.2节中描述的方法可以生成不同的数据来训练不同的网络。通过改变滤波器的大小、神经元的数目和网络的层数,并应用多个随机种子进行权重初始化,也可以增强网络的多样性[76],[172]。此外,可以使用不同的网络结构来增强多样性。例如,将一个以监督方式训练的CNN和一个以非监督方式训练的卷积自编码器(CAE)结合起来进行网络集成[142]。

对于第二个因素,委员会网络的每个成员可以在两个不同的级别上进行组合:特性级别和决策级别。对于特征级集成,最常用的策略是将从不同网络中学习到的特征串联起来[88],[174],例如,[88]将从不同网络中学习到的特征串联起来,得到一个特征向量来描述输入图像(如图7(a)所示)。对于决策级总体,采用了三种广泛使用的规则:多数表决规则、简单平均规则和加权平均规则。表5总结了这三种方法。由于加权平均规则考虑到每个个体的重要性和置信度,许多加权平均方法被提出来寻找网络集成的最优权值集。[57]提出了一种随机搜索方法,对每种情绪类型的模型预测进行加权。[75]利用log-likelihood loss和hinge loss自适应地为每个网络分配不同的权重。[76]提出了基于验证精度的加权平均来强调合格个体(见图7(b))。[172]使用CNN学习每个模型的权重。

4.1.5 Multitask networks

许多现有的FER网络专注于单个任务,学习对表情敏感的特性,而不考虑其他潜在因素之间的交互。然而,在现实世界中,FER与各种因素交织在一起,比如头部姿势、光照和主体身份(面部形态)。为了解决这一问题,引入了多任务学习,将知识从其他相关任务中转移出来,并解决了干扰因素。Reed等[143]构建了一种高阶Boltzmann machine (disBM)来学习表情相关因子的流形坐标,并提出了解缠结的训练策略,使表情相关隐藏单元对人脸形态不发生变化。其他工作[58][175]。表明,同时进行FER与其他任务,如人脸关键点定位和人脸AUs检测[176],可以共同提高FER性能。

此外,有几篇文献[61]、[68]采用多任务学习的方法对恒等不变FER进行了研究。在[61]中,提出了一种具有两个相同子cnns的身份感知CNN (IACNN)。一个流使用表情敏感对比损失来学习表情判别特征,另一个流使用身份敏感对比损失来学习身份相关特征来学习身份不变FER。在[68]中,提出了一种多信号CNN (multi - signal CNN, MSCNN),在FER和人脸验证任务的监督下进行训练,迫使模型专注于表情信息(图8)。此外,提出了一种一体化的CNN模型[177],可以同时解决包括微笑检测在内的多种人脸分析任务。首先利用人脸识别训练的权值对网络进行初始化,然后通过对多个数据集的训练,将任务特定的子网络从不同的层中分离出来,进行基于域的正则化。具体来说,由于smile检测是一项独立于主题的任务,它更多地依赖于低层提供的局部信息,因此作者建议将低层卷积层融合起来,形成一个用于smile检测的通用表示。传统的监督多任务学习需要为所有任务标记训练样本。为了缓解这一问题,[47]提出了一种新的属性传播方法,该方法可以利用面部表情与其他异构属性之间的内在对应关系,尽管不同的数据集分布不同。

4.1.6 Cascaded networks

在级联网络中,不同任务的各个模块被依次组合在一起,构成一个更深层次的网络,其中前一个模块的输出被后一个模块利用。相关研究提出了不同结构的组合来学习特征的层次结构,通过这个层次结构可以逐步滤除与表达式无关的变异因子。最常见的是,不同的网络或学习方法是按顺序和单独组合的,并且每个网络或学习方法都以不同的方式和层次结构来进行。在[178]中,DBNs被训练成首先检测人脸和与表情相关的区域。然后,用叠加式自动编码器对这些解析后的人脸组件进行分类。在[179]中,提出了一种多尺度压缩卷积网络(CCNET)来获得局部平移不变(LTI)表示。在此基础上,设计了收缩式自动编码器,将与情感相关的因素从主体身份和姿态中分层分离出来。在[137]、[138]中,首先使用CNN体系结构学习过完备表示,然后利用多层RBM学习FER的高级特征(图9)。Liu等人提出了一种改进的DBN (BDBN),它不是简单地将不同的网络连接起来,而是在统一的循环状态下迭代地执行特征表示、特征选择和分类器构建。与无反馈连接相比,该循环框架将分类误差向后传播,交替启动特征选择过程,直到收敛。因此,在此迭代过程中,FER的判别能力得到了很大的提高。

4.1.7 Generative adversarial networks (GANs)

近年来,基于gan的方法已成功地应用于图像合成中,生成逼真的人脸、数字等多种图像类型,这对训练数据的增强和相应的识别任务都是有益的。已有研究提出了新的基于gan的位姿不变FER和恒等不变FER模型。

对于姿态不变的FER, Lai等[180]提出了一种基于GAN的人脸正面化框架,该框架中,生成器在保留身份和表情特征的同时对输入的人脸图像进行正面化,识别器将真实图像与生成的人脸图像进行区分。Zhang等[181]提出了一种基于gan的多视图FER模型,可以在任意姿态下生成不同表情的图像。对于身份不变FER, Yang等[182]提出了一种包含两部分的身份自适应生成(Identity-Adaptive Generation, IA-gen)模型。上半部分分别使用cGANs生成同一对象不同表情的图像。然后,下半部分在不涉及其他个体的情况下,对每个单一的身份子空间进行FER,从而很好地缓解了身份的变化。Chen等[183]提出了一种保密保留表征学习变分GAN (ppr - vgan),该方法将VAE和GAN结合起来,学习一种显式脱离身份信息的恒等不变表示,并生成保留表情的人脸图像合成。Yang等[141]提出了一种去表情残差学习(DeRL)方法来探索表情信息,该方法在去表情过程中被过滤掉,但仍然嵌入到生成器中。然后,模型直接从生成器中提取这些信息,以减轻主体变化的影响,提高FER性能。

4.1.8 Discussion

现有的结构良好的深层FER系统主要关注两个关键问题:缺乏丰富多样的训练数据和表情无关的变化,如光照、头部姿态和身份。表6显示了这些不同类型方法在两个开放问题(数据大小需求和表情无关的变化)和其他关注点(计算效率、性能和网络训练的难度)方面的相对优势和劣势。

为了解决训练数据不足和过度拟合的问题,训练前的预训练和微调已成为深入研究的主流。一项被证明特别有用的实用技术是,利用从大规模物体或人脸识别数据集到小规模FER数据集的辅助数据,在多个阶段对网络进行预培训和微调,即,从大到小,从一般到具体。然而,与端到端训练框架相比,与表情无关的表征结构仍然停留在现成的预训练模型中,如与物体网络的很大的域差异 [153]和face net中的主体识别干扰[111]。因此,提取的特征往往容易受到身份变化的影响,性能会下降。值得注意的是,随着大型野外FER数据集(如AffectNet and RAF-DB)的出现,使用中等规模的深度网络进行端到端训练也可以获得具有竞争力的性能[45][167

除了直接使用原始图像数据训练深度网络外,还推荐多种预先设计的特征,以增强网络对常见干扰(如光照、头部姿势和遮挡)的鲁棒性,并迫使网络更多地关注具有表情信息的面部区域。此外,使用多个异构输入数据可以间接地扩大数据大小。然而,在这种方法中,身份偏差的问题往往被忽略。此外,生成不同的数据会增加额外的时间消耗,并且将这些多数据组合在一起会导致高维数,这可能会影响网络的计算效率。

训练一个具有大量隐藏层和灵活过滤器的深度广域网络,是学习对目标任务有鉴别能力的深度高层次特征的有效方法。但是,这个过程容易受到训练数据大小的影响,如果没有足够的训练数据来学习新参数,这个过程就会表现不佳。将多个相对较小的网络并行或串联集成是解决这一问题的自然研究方向。网络集成是将不同的网络在特征层或决策层进行集成,结合各自的优势,通常应用于情绪竞争中,以提高性能。然而,设计不同类型的网络来互相补偿明显地增加了计算成本和存储需求。此外,每个子网络的权重通常是根据原始训练数据的性能来学习的,导致对新出现的不可见测试数据的过拟合。多任务网络结合目标FER任务与人脸关键点定位、人脸AU识别、人脸验证等辅助任务的交互作用,对多个网络进行联合训练,可以很好地解决身份偏差等与表达无关的因素。这种方法的缺点是,它需要来自所有任务的标记数据,而且随着涉及的任务越来越多,训练变得越来越麻烦。另外,级联网络以分层的方式对多个网络进行序列训练,不断增强学习特征的识别能力。一般来说,这种方法可以缓解过度拟合的问题,同时,逐步解开与面部表情无关的因素。不足之处在于,现有级联系统的子网络大多是单独训练,没有反馈,采用端到端训练策略更有利于提高训练效率和性能。

理想情况下,深度网络,特别是CNNs,具有良好的处理头部姿态变化的能力,但目前大多数FER网络没有明确地处理头姿态变化,也没有在自然场景中进行测试。生成式对抗网络(GANs)可以通过对人脸图像进行正面化,同时保留表情特征[180]或综合任意姿态来帮助训练位置不变网络[181],从而解决这一问题。GANs的另一个优点是,可以通过生成相应的中性人脸图像[141]或合成不同的表情来显式地解算身份变化,同时保留身份不变的FER[182]的身份信息。此外,GANs可以帮助增加训练数据的规模和多样性。GAN的主要缺点是训练不稳定以及视觉质量与图像多样性之间的权衡。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。