微表情识别研究综述

微表情识别研究综述

微表情识别的主流的方法:卷积神经网络(Convolutional Neural Networks, CNN)及其改进、光流法(optical flow)及其改进、局部二值模式(Local Binary Pattern, LBP)及其改进方法

人脸的微表情识别涉及图像处理和分析、计算机视觉、人工智能、心理学、生物学等方向。

Ekman 等人在 2002 年开发出微表情识别的工其——METT(Micro Expression Training Tool)。研究表明,METT 工具平均可以提高个体对于微表情识别能力的 30% ~ 40% 。此外,还设计了面部动作编码系统(Facial Action Coding System,FACS),根据人脸的解剖学特点,将其划分成若干既相互独立又相互联系的运动单元(Action Unit,AU),并分析了这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情,并给出了大量的照片说明。分为六种表情,用不同的运动单元组合编码(FACS码)来对应不同的表情。开心、愤怒、恐惧、悲伤、惊讶、其他。

方法

卷积神经网络

通常 CNN 被用作对图像类输入的特征提取和深度特征提取,在对提取的特征进行分析后可以得到所需的输出结果。微表情的特点是面部运动比较微小,若使用卷积神经网络通常需要使用其他辅助方法更改网络的输入,或更改优化网络结构,使网络能提取到更有用的特征,从而提高对微表情识别的准确率。

光流法

光流(optical flow)是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法有几个假设条件:首先要亮度恒定,一个像素点随着时间的变化,其亮度值(像素灰度值)是恒定不变的。其次是小幅度运动,时间的变化不会引起位置的剧烈变化。这样才能利用相邻帧之间的位置变化引起的灰度值变化进行光流特征提取。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。微表情其有面部动作较为微小,不易察觉的特点,因此光流法作为检测微小运动的常用方法,对微表情的面部动作识别有很大优势。在检测到面部微表情的运动信息后,配合其他方法可对微表情进行有效的识别。

局部二值模式

局部二值模式(Local Binary Pattern, LBP)可以有效地处理光照变化,在纹理分析、纹理识别等方面被广泛应用,其有灰度不变性和旋转不变性等显著优点。中心像素的LBP 值反映了该像素周围区域的纹理信息,如图1 所示。由于该特征其有简单易算性,因此得到了广泛的使用。

对于视频图像来说,传统的LBP 算法无法应用于视频信号,因此,需要对 LBP 算法进行一些改进。对三个正交平面进行局部二进制模式(Local Binary Patterns From Three Orthogonal Planes, LBP-TOP),已广泛应用于面部表情。为了同时考虑视频的空间和时间信息,LBP-TOP 扩展了LBP。相比LBP,此方法考虑了三种类型的平面(XY、XT、YT)而不是一个平面(空间XY)。给定一个视频序列,可以将其分别看作沿时间 T 轴、空间 Y 轴和空间 X 轴的XY、XT 和 YT 平面的堆栈。分别从三种类型的平面导出三个直方图,并连接成一个直方图作为动态视频纹理描述符,如图2 所示。

卷积神经网络作为处理图像的传统方法被广泛应用,目前主流的思想还是配合光流法作为输入,与 LSTM 相结合,可以达到较好的效果。但使用卷积神经网路进行深度学习存在着致命的问题,目前使用的数据集的样本数量不高,对于卷积神经网络来说,属于小样本问题,因此在计算时需要数据增强,或进行跨域实验,同时可以提高鲁棒性。在之后的过程中可尝试使用迁移学习,可以一定程度缓和过拟合问题,除此之外还可以使用如对抗神经网络等方法生成一些样本再去训练,可以一定缓和样本数据量小的问题。

CNN + LSTM结合,作为输入,使用迁移学习解决小样本问题。

使用光流法进行微表情的识别。

光流法很适合识别微表情这种微小动作的行为,但光流对基于灰度不变假设,容易受外界光照的影响,并且在相机无法大尺度移动,转动角度不能过快,这些都会导致提取的特征对识别造成影响,目前的微表情数据集内的数据都是满足以上的要求。

但对于自然场景来说,这点是不能保证的,因此在算法中需要对这点进行优化,保证在实际中的应用。使用光配合ROI 方法对感关趣的区域进行识别是目前常用的方法,配合FACS 系统可以对表情进行识别,但对于脸部对齐等问题,在实践中无法轻易达成,而注意力机制对于微表情识别来说也是一种方式达到ROI 的效果,因此可以尝试将注意力机制和光流法进行融合,使其鲁棒性更高。

先不考虑自然场景,只考虑在数据集中的数据效果

局部二值模式作为经典的纹理分析算法,以算法简单为特点被广泛应用,LBP-TOP 将LBP 算法扩展到视频。但目前逐像素提取特征所得到的特征太多,在浪费计算量的同时降低准确率。在图像中面部区域的特征并不是全部都有用的,如在表情变化中与上一帧变化不明显的图像。针对这个问题,可以采取提取关键帧后进行特征提取的方法,提高识别率。

而在STLBP-IP 中采用图像积分的方法可以对脸的五官进行区分,若关注其中重要部分的纹理变化,配合FACS 系统,可以对微表情进行有效的识别。根据FACS 系统,眼睛、嘴巴、鼻子等周围会显示出纹理的变化,因此其他位置的纹理变化检测也可以适当精简。除了以上几种方法,在未来的改进过程中还可以对提取后的特征进行筛选。特征筛选的方法主要分三种: 过滤式(filter) 、封装式(wrapper) 和嵌入式(embedded)。过滤式特征选择方法对每个维度的特征赋予权重,然后依据权重将特征进行排序;封装式特征选择方法将子集选择看作为一个优化问题,生成不同的组合,对组合进行评价,再与其他组合进行比较;嵌入式特征选择方法则在模型既定的情冴下挑选出那些对模型的训练有重要意义的特征。这三种主流筛选方法分别针对不同的情冴,过滤式特征选择方法直接利用所有训练样本的统计性能来评价各个特征的重要性,与后续分类算法无关,并不保证选择出的特征子集对分类性能是最优的,但其优势在于可排除大量无关性能,通用性好,可用于特征的预筛选。封装式特征选择方法需要与后续分类算法结合,依据分类器的准确率评价每个特征的重要性,筛选出对于特定的分类算法最优的特征子集。嵌入式特征筛选方法类似过滤法,但它是通过机器学习训练来确定特征的优劣,而不是直接从特征的统计学指标来确定特征的优劣。和包装法相比,嵌入法也是用机器学习的方法来选择特征,区别是不通过不停地筛掉特征来进行训练,每次迭代使用的都是特征全集。嵌入式特征选择方法是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动完成了特征选择。三种方法各有优劣,因此可以相互结合使用。利用好预处理方法并针对分类器方法的各自的优点,筛选出最优的特征子集,从而提高对微表情识别的准确率。

微表情识别综述

微表情的分类有两种标准:基于情绪的分类和基于面部动作编码系统(Facial Action Coding System)的分类。

人类的面部表情7 类基础表情分类包括:生气、厌恶、恐惧、开心、悲伤、惊喜(惊讶)和中立。基于情绪的微表情分类,在7 类基础表情分类的基础上对表情细分,通过将单一的基础表情类别映射到二维空间,其横轴为情感的正负程度,纵轴为情感的激烈程度,可以细分得到更多的表情类别。

另一种微表情分类的标准是用FACS(Facial Action Coding System)对微表情进行编码。FACS 是一个面部动作的标注系统,由一系列编码组成,每个编码是一个动作单元(Action Unit, AU)。由于面部动作编码系统用一个或多个动作单元描述一个表情,从而可以将微表情的分类任务转换为动作单元的识别。

数据集

目前主要有三个微表情数据集:SMIC、CASME II和SAMM。

  • SMIC 数据集是这三个数据集中最早发布的,由于SMIC 数据集对每个微表情只使用了三种情绪分类进行标注,即正面表情、惊喜(惊讶)表情和负面表情,没有标注FACS 编码,所以相比于CASMEII 和SAMM数据集,SMIC 数据集使用价值不高。而且SMIC 数据集使用的是100 帧/秒的摄像机,而CASMEII 和SAMM 数据集使用的是200 帧/秒的高速摄像机,所以SMIC 数据集的面部分辨率偏低。
  • CASMEII 数据集在人脸微表情识别领域被广泛使用。CASMEII 数据集对每个微表情既使用了5 种情绪分类进行标注:开心、厌恶、惊喜(惊讶)、压抑和其他,也有标注FACS 编码,可信度较高。而且,由于CASMEII 数据集使用的是200 帧/秒的高速摄像机,面部分辨率可以达到280*340。但是,CASMEII 数据集存在一个问题:由于被测试者都是中科院的学生,这导致年龄分布不均衡,并且只涉及一个种族。
  • SAMM 数据集优于前面两个数据集,它的面部分辨率达到了400*400,对每个微表情不仅使用了7 种基础情绪分类进行标注:生气、厌恶、恐惧、开心、悲伤、惊喜(惊讶)和轻蔑(取代中立),而且标注FACS 编码。SAMM 数据集还有一个优点:被测试者年龄分布均匀,种族分布广泛,涉及到13 个种族。虽然SAMM 数据集的使用价值很高,但是它仍不可避免的存在微表情数据集的通病:样本量不足和样本分布不均。样本量不足导致学习的分类模型欠拟合,样本分布不均导致数据量多的标签识别率明显高于数据量少的标签。

方法

基于LBP-TOP(Local Binary Pattern From Three Orthogonal Planes)的经典方法

近年来,人脸微表情的识别已经成为了学界的热点问题之一,研究人员提出了很多方法解决微表情的识别问题,其中基于LBP-TOP(Local Binary Pattern From Three Orthogonal Planes)的方法极具代表性,这种具有三个正交平面的局部二值模型是对传统的LBP算法的时空扩展。早期的人脸微表情识别方法是提取单帧人脸图像的LBP 特征去识别微表情,LBP-TOP算法创新性地提出了对连续人脸图像视频的微表情识别,试图从运动的角度描述人脸微表情。在LBP-TOP 算法中,引入时间轴T 轴,从而得到水平时域平面XT 和垂直时域平面YT,分别对XY 平面(单帧人脸图像)、XT 平面和YT 平面提取LBP 特征,再拼接起来得到LBP-TOP 特征。由于LBP-TOP 特征记录了微表情的动态纹理,从而可以更好地捕捉微表情的变化,比传统的LBP 特征有更强的描述能力。

基于深度学习的最新方法

最新的微表情识别方法是将深度学习技术应用到微表情的识别任务中,主要有两种方式:①传统方法与深度学习相结合,提取人工特征,利用深度学习技术学习分类模型;②纯深度学习的方法,学习深度特征,训练分类网络。STSTNet(Shallow Triple Stream Three-dimensional CNN) for Microexpression Recognition是将传统方法与深度学习结合的较优秀的工作。该算法先用光流法对人脸视频序列提取特征,然后用添加了时间维度的3DCNN 训练特征学习分类器。人工特征提取与深度学习技术相结合在理论上可以取长补短,但是受到光流法的影响,STSTNet 不能应用于现实场景。

光流法是计算相邻帧之间物体运动信息的一种方法,该方法有两个前提假设:①相邻帧之间对应像素点的灰度值不变;②相邻帧之间物体的运动微小。

由于这两个要求在真实场景下不能满足,导致STSTNet 模型的可靠性较差。

由于采集高质量的微表情数据集相当困难,应用深度学习技术识别人脸微表情时,为了从一定程度上解决数据量不足的问题,通常将数据集CASMEII、SMIC 和SAMM 整合在一起。并且,为了提高人脸微表情识别率,通常将复杂的人脸微表情识别任务简化为3 分类任务:正面、负面、惊喜或惊讶。

深度人脸表情识别研究进展

表情分类(六类):生气、厌恶、害怕、开心、悲伤和惊讶。由此,学术界普遍通过这6 类基础表情的分类研究开始计算机自动表情识别的探索。

传统方法大多运用手工设计特征或者浅层学习,例如局部二值模式( local binary pattern,LBP) ( Shan等, 2009) 、三正交平面的局部二值模式( local binary pattern from three orthogonal planes,LBP-TOP) ( Zhao和Pietikainen, 2007) 、非负矩阵分解( nonnegative matrix factorization,NMF) ( Zhi 等,2011) 和稀疏学习( Zhong 等, 2012) 来进行人脸表情识别。

2013 年起,表情识别比赛如FER2013( the Facial Expression Recognition 2013) ( Goodfellow 等, 2013) 和EmotiW( Dhall 等, 2015, 2016, 2017) 从具有挑战性的真实世界场景中收集了相对充足的训练样本,促进了人脸表情识别从实验室受控环境到自然环境下的转换。

基于 Apex 帧光流和卷积自编码器的微表情识别

1987 年,Ekman 建立了面部动作编码系统(Facial Action Coding System,FACS),用来编码面部肌肉运动和情感类别的对应关系。该系统可用于识别每个动作单元(Action Unit,AU)开始和结束的确切时间。第一个出现的AU 称为Onset,最后结束的AU 称为Offset,Apex 代表AU 达到峰值或面部运动的最高强度。

微表情自动识别系统通常包括三个阶段:预处理、特征提取和分类。预处理阶段主要包括人脸检测,人脸特征点对齐、感兴趣区域划分、重要帧选取和运动放大等。特征提取就是在保留重要微表情信息的情况下提取到低维的图像或视频特征。分类阶段就是用各种分类器对上一阶段提取的特征进行分类为具体的情绪类别。特征提取被很多研究者认为是微表情识别中最重要的步骤。如何在不损失关键信息的情况下设计低维的特征是特征提取的关键,恰当的特征表示方法可以大大提高识别的准确率。按照特征的不同,传统的微表情识别方法有基于LBP 的方法和基于光流的方法。
但是由于微表情持续时间短,运动强度低的特点,很难找到合适的特征描述子,因此传统手工特征方法的识别率依然不高。本文提出一种结合传统方法和深度学习的微表情识别方法,实验结果表明该方法较传统方法在识别性能上有了很大的提高。

评论

Your browser is out-of-date!

Update your browser to view this website correctly.&npsb;Update my browser now

×