基于某稀疏表示的鲁棒人脸识别.doc
word数字图像处理期末大作业报告基于稀疏表示的鲁棒人脸识别Robust Face Recognition via Sparse Representation摘 要人脸识别是现代生物信息识别中的一项重要技术,对于给定的人脸图像,利用已经存储的人脸数据库确认该图像中的一个或多个人的身份。现有的人脸识别方法大多需要进展图像预处理与复杂的特征提取,选择何种特征对识别率影响非常大,并且对遮挡、噪声等情况缺少鲁棒性,这些问题往往使得现有的识别方法在应用中受到制约。不同于传统的人脸识别算法,稀疏表示通过最小数计算得到的1,文献1提出了一个用于基于图像目标识别的一般分类算法。这个新框架对人脸识别中两个重要问题特征提取和遮挡鲁棒性提出了新思路。稀疏表示是压缩感知中的关键理论,数据的稀疏表示,可以从本质上降低数据处理的本钱,提高压缩效率。稀疏表示用在分类识别上有独特的优势,对于特征提取,如果我们在识别中适当地利用稀疏性,特征的选取不再至关重要,然而,重要的是特征数目是否充分大,稀疏表示是否得到准确计算。只要特征空间维数超过某个阈值用稀疏表示理论估计得到,非传统特征例如下采样图像和随机投影和传统特征例如特征脸和拉普拉斯脸效果一样。利用这些误差相对于标准基是稀疏的事实,这个框架可以处理因遮挡带来的误差。本次课程设计主要通过阅读文献1,理解基于稀疏表示的人脸识别,并对算法实现仿真和比照。由于文献1中的实验繁多,本报告只对正常图像和噪声污染图像的人脸识别实验进展重现。关键词:压缩感知;稀疏表示;人脸识别;特征提取;最小数;1 引言1.1 人脸识别的背景与意义随着社会的网络信息化程度的不断提高,人类身份的数字化和隐性化特征也日趋明显,随之而来的关乎信息安全的身份鉴别问题也就成了一个关键性问题。比拟传统的身份鉴别方法有、个人签名、IC卡、条形编码等方法。随着科技的开展和计算机网络的普与,这些身份鉴别方法变得不再安全。这时候,生物识别技术的出现,为当今社会的身份认证提供了更安全,更准确,更快速的方法。利用人体生物特征进展身份认证的技术叫做生物识别技术。生物识别技术主要利用人体自身的一些生理特征,如脸像、指纹、虹膜等,结合行为特征,如语音、笔迹、姿态等,再通过计算机技术与声学、光学、生物信息学和生物统计学原理等领域的技术手段来进展个人身份的鉴定。生物特征较难模仿或伪造,并且使用时不用担心丢失或忘记携带,因此生物识别技术相比传统的身份鉴定方法更具安全性、性和便捷性2。人脸识别是生物识别技术中一个重要的研究领域。人脸识别是指从静态人脸图像或动态视频图像中检测到人脸,结合计算机技术,将人脸身份识别出来。人脸识别问题一般可描述为:给定一个包含人脸的场景,可以是静态图像或动态视频,与已经存储的人脸数据库中的图像进展比对,识别出该图像中人脸的身份。人脸一向被认为是基于图像的识别中最广泛的研究课题。一局部是因为人类视觉系统的强大的人脸识别能力,另一局部是因为人脸识别技术有许多重要的应用。另外,人脸识别的相关技术问题也是目标识别甚至一般的数据分类问题中具有代表性的问题。一般人脸识别的过程如图1所示。图1人脸识别流程图1.2 人脸识别研究现状人脸识别方法总体上可以分为基于局部特征的方法和基于整体的方法两种。基于局部特征的方法是从人脸上获取一系列的几何特征进展识别,基于整体的方法考虑了人脸模式的全局特性,将人脸作为一个整体来识别。人脸识别常用的方法主要有以下几类3:基于几何特征的人脸识别、基于子空间的人脸识别、基于神经网络的人脸识别。1) 基于几何特征的人脸识别:最早的人脸识别采用最直观的人脸特征几何特征进展人脸识别。根本思想是从人脸几何特征中提取信息作为特征参数,形成特征向量,继而对这些特征向量进展分类处理。基于几何特征的人脸识别特征比拟直观,计算量也不大,但是对光照、遮挡、表情、姿态变化的鲁棒性较差。而且,由于只计算人脸部件的形状与结构,忽略了局部细节,因此也丢失了局部信息,识别率不高,稳定性也不够,实际应用比拟困难。2) 基于子空间的人脸识别:基于子空间的方法是最为常用的人脸识别方法。根本思想是把人脸看成一个矩阵或高维向量,通过一个空间变换,把原始人脸图像变换到一个子空间。子空间中,在不破坏原始人脸结构的前提下,人脸的表示更为紧凑,从而降低了计算的复杂度,也使分类更为准确。空间变换可以是线性的或者非线性的。常用的线性变换有主成分分析(PCA)、独立成分分析(ICA)、线性判别分析(LDA)等;非线性变换有流形学习法、基于核技术的非线性子空间分析方法等。3) 基于神经网络的人脸识别:因为神经网络具有良好的学习能力,因此该方法就利用这种能力对人脸图像进展特征提取并识别。Paul最早提出使用神经网络对人脸几何特征进展提取。S.Ranganatn和K.Arun提出径向基神经网络用于人脸识别利用非监视和监视两种神经网络相结合的方法进展人脸识别,其中,非监视网络用于特征提取,而监视网络如此进展识别。基于神经网络的识别方法即使在困难的情况下也可以完成识别工作,因为它有很强的学习能力,能够比照拟难描述的人脸进展屡次学习,得到规律的隐性表达。同时在信息处理和编码压缩等方面效果也很显著,但是训练时间长,神经元数目多,导致运算速度较慢,这也是它最明显的缺点。虽然人脸识别是一种高效、简单、易于实现和普与的识别方法,但是在实际用中,依然存在很多难以克制的问题4:(1) 对环境影响较为敏感。周围环境如光照强度、光源方向、环境色彩等,这些因素的变化使得人脸图像也随之产生较大的变化,这些变动因素会使得针对人脸的检测和识别遇到很大的困难。(2) 人脸表情、角度等的复杂性和变化性。不同图像中人脸的表情、角度、大小等要素有较大差异,因此人脸所呈现出来的姿态具有极大的不确定性,另外遮挡腐蚀等问题,都给人脸的检测带来了很大的困难。(3) 对微小的差异不敏感。当人脸比拟相似,甚至只在极其细微的局部有差异的时候,漏检测或误检测的比率就会上升。 Candes和Donoho5在相关研究根底上于2006年正式提出了压缩感知(press Sensing,CS)的概念。它的独特之处在于对信号的采样与压缩过程同时进展,而不像传统方式,先采样后压缩,产生大量的无用数据。对信号进展非自适应线性投影值进展采样得到观测值,再通过一定的重构算法恢复原始信号。压缩感知理论依赖于两条原如此:稀疏性和不相干性。文献1利用压缩感知的稀疏性原如此,提出了基于稀疏表示的人脸识别方法,包括稀疏表示分类方法下的特征提取,论证了用稀疏表示进展人脸识别的鲁棒性,以与有遮挡、噪声与未配准等情况人脸图像的识别方法。在假设不考虑姿态变化,只考虑表情变化的情况下并做了大量的仿真与比照,验证了基于稀疏表示的人脸识别方法的优越性。2 基于稀疏表示的人脸识别方法2.1 基于稀疏表示的分类人脸识别的一个根本问题是如何利用标记过类别信息的训练样本将新的测试样本正确归类。将第类的个训练样本作为列向量,排列成矩阵。具体的就是将一副的灰度人脸图像作为列向量(),由这些列向量构成过完备字典。2.1.1 测试样本是训练样本的线性稀疏组合 假定第类有足够多的训练样本,如此来自同类的测试样本近似处于这些训练样本成的子空间中: 1其中是标量,。 由于测试样本所属类别是未知的,我们定义一个新的矩阵,其列由个类别的所有训练样本构成: 2这样,可以重写为所有训练样本的线性表示: 3其中是一个系数向量,其中只有第类的值非零。由于中的元素包含测试样本的信息,故可以考虑求解线性方程组。 用全部训练样本求解与最近邻分类NN和最近邻子空间NSNN每次只用单个样本,NS每次只用一类样本有很大不同。这种用全局表示得到的分类器要好于局部方法NN和NS。它可以更好的对用训练样本表示的对象进展识别,还能够排除不属于训练样本集中任何一类的无关样本。显然,如果,方程组是超定的,可求得唯一解。但在人脸识别中,经过降维后训练样本构成的方程组是欠定的,解不唯一。按照惯例,这个难题可以用最小解决: s.t. 4尽管通过的伪逆,这个最优问题很容易求解,但中没有特别丰富的信息用于识别测试样本,因为通常是稠密的,较大的非零元素分布在很多类的训练样本上。为了解决这个难题,我们可利用一种简单的观测:一个有效的测试样本只用该类中的训练样本充分表示。如果类别数大到一定程度,这个表示自然是稀疏的。例如,如果,中只有5%的元素非零。恢复的越稀疏,就越容易确定测试样本的类别。因此为了找到的最稀疏解,可求解下面的最优问题: s.t. 52.1.2 最小数求稀疏解数优化问题是难问题,需用其它方法替代解决。当解足够稀疏时,最小数和最小数是等价的,故可转化为最小数问题: s.t. 6 到目前为止,我们都是假设3是准确的。但实际数据是有噪声的,用训练样本的稀疏叠加难以准确地表示测试样本。可以通过改写模型3处理含小噪声的问题: 7其中是噪声项,能量围。稀疏解仍可以大致地通过求解下面的稳定最小数得到重构: s.t. 8这个凸最优问题可以通过二阶锥规划有效解决。有人指出是随机矩阵时,通过8可以根本重构稀疏解。对于常数和,如果,如此所求解以极大的概率满足: 92.1.3 基于稀疏表示的分类 对于给定的属于第类的测试样本,通过6可以求出稀疏表示。理想情况是,估计的非零元素只存在于对应着中第类的位置,由此便容易判断出的归属类别。然而,由于噪声与模型误差的存在,其它类别也存在小的非零值。基于全局稀疏表示,我们可以设计许多可行的分类器。一般来说,类别数较多且类别中样本个数较少时,系统会有较大误差,此时可以简单地将中最大元素所属类别视为的类别;但当类别数适中且每类训练样本个数较多时,可用下面的重构误差方法进展判断。 对于每一类,令是选择与第类相关的系数的特征函数,对于,向量中的非零元素为中与第类相关的元素。只用与第类相关的元素,我们可以将测试样本的估计值写为,计算所有与之间的差,并将归于使残差最小的类: 10 稀疏表示分类算法如下:1输入:类的训练样本矩阵,测试样本,可选误差容限。2将中所有列向量归一化到单位长度。3求解最小数问题: s.t. 11 或选 s.t. 4对,计算重构残差。5输出。2.2 结合特征提取的稀疏表示方法特征提取的好处就是降低数据维数与减少计算代价。对于原始的人脸图像,其对应的线性系统十分庞大。例如,假设给定的人脸图像的分辨率为像素,维数将达到数量级。虽然算法是基于可扩展的方法,例如线性规划,但是直接应用于如此高分辨率的图像仍然超出了常规计算机的能力。既然大局部的特征变换都只涉与线性操作(或类似),那么从图像空间到特征空间的投影就可以表述成一个矩阵,其中。将R同时应用到等式3的两边: 12事实上,特征空间的维数是远远小于的。在这种情况下,线性方程组在未知的情况下是欠定的。但是,既然期望的解是稀疏的,就希望通过解如下简化的最小数来重构它: s.t. 13其中是误差容限。因此,算法中的训练图像的矩阵现在变成了维的特征矩阵;测试图像用它的特征取代。2.3 稀疏表示分类器对遮挡和噪声的鲁棒性 在许多实际人脸识别场景中,测试图像含有遮挡,这种情况下,线性模型3可以改写为 14其中是误差向量,由于遮挡和噪声通常只存在于图像的一小局部上,因此可以认为中只有一小局部的元素是非零的,设其比例为,对应着y中被遮挡、或被噪声污染的局部。这些非零元素存在的位置是未知的,幅度具有随机性,而且通常不会小到可以被忽略的程度。这样,即使这局部元素被严重破坏,我们也可以利用其他元素的信息来进展分类。把14重写为 15其中,如此方程是欠定的。稀疏表示向量最多有个非零元素。我们希望重构的的最稀疏解即为。通常来说,如果遮挡占据少于个像素,即可满足。 一般地,我们也可以认为污染噪声在某个正交基下有更稀疏的表示,如傅立叶基或者小波基。我们只需把式15变为 16这样就可以对求出的更稀疏的表示。同样地,通过求解下面扩展的最小数可以重构稀疏解: s.t. 173 实验仿真与讨论基于以上推导,本节为了验证基于稀疏表示人脸识别方法的有效性,首先对提取图像特征,采用的提取特征的方法包括下采样特征、Eigenfaces特征、拉普拉斯特征、Fisher特征和随机特征,然后对根据13式最小数问题求解稀疏表示,从而达到分类的目的。同时还与最近邻分类器NN、最近邻子空间分类器NS、支持向量机分类SVM方法相比拟。除了对正常图像进展识别外,根据式17还对有噪声情况的图像进展分类识别。3.1 实验中涉与的问题3.1.1 特征提取特征提取算法主要参考文献3,Eigenfaces特征就是采用主成分分析PCA提取的特征,拉普拉斯特征是用局部保持投影LPP方法提取的特征,Fisher特征指的是在PCA的根底上采用Fisher线性判别进一步降维。值的注意的是随机特征提取,随机特征提取可以看做是每一幅图在高斯随机变换矩阵上的投影,R的每一个元素都服从标准正态分布,并且每一行都被规到单位长度。与其他特征提取算法相比,随机特征提取是独立于训练数据集的,R的计算简单、有效,即使数据集发生变化时,也不用重新计算随机矩阵。3.1.2 最小数问题求解通过最小数问题求解稀疏表示的方法有很多种,这里主要包括有梯度投影Gradient Projection、同伦算法、迭代阈值收缩、领域梯度Proximal Gradient、增广拉格朗日方法,这几种方法都比正交匹配追踪算法OMP要高效的多。上述几种快速算法中,采用增广拉格朗日的对偶实现相比其它的快速算法要更好。但本人直接采用基于matlab的CVX凸优化工具包来求解。3.1.3比照分类算法最近邻分类器6NN参考网络资料6实现,最近邻子空间分类器7NS借鉴网络资料7中的matlab代码中心的NSC.m文件实现,支持向量机分类8SVM方法基于网络资料8实现,这三种分类算法均为成熟的算法,不再对细节进展阐述。3.1.4 实验需求实验数据库采用拓展Yale B图像库和AR图像库,实验程序采用matlab语言编写,并额外添加了CVX凸优化工具包,最终在2.93GHz、2G存的Inter Core2 CPU上运行。3.2 基于稀疏表示的人脸识别程序框图本人编写基于稀疏表示的人脸识别程序是基于以下流程框图实现,如图2所示。在对有噪图像进展人脸识别时,求解的是如式17的拓展最小数问题,同时对于基于稀疏表示的分类SRC不再提取特征,其特征就是96×84的图像。而其他三种比照算法,分别提取PCA、ICA、LNMF特征。因此,在对有噪图像进展人脸识别时的程序流程图只是在图2上做微小改动。图2 稀疏表示人脸识别程序流程框图3.3 实验结果3.3.1 拓展Yale B图像库拓展Yale B图像库是由38个个体组成2432正脸图像,每个个体对应着64种不同的光照,并且已经经过裁剪,大小为192×168。该库中有18图像在获取过程中损坏,属于无效图像。实验中计算识别率时,采用的特征空间维数分别是30、56、120和504,它们分别对应的采样率为1/32、1/24、1/16和1/8。值得注意的是Fisher特征不同于其他特征,其最优特征维度小于图像类别数38,因此在仿真中只有特征维数为30才是可行的。图3-图6给出了在拓展Yale B图像库上,分别采用下采样特征、随机特征、Eigenfaces特征、Fisher特征和拉普拉斯特征,并运用稀疏表示分类SRC、最近邻分类NN最近子空间分类NS和支持向量机分类SVM进展人脸识别的结果。图3 基于稀疏表示的识别图4 最近邻NN识别图5 最近子空间NS识别图6 支持向量机SVM识别由图可知,稀疏表示分类的识别率在特征维度为120时在0.9030到0.9290之间文献1达到0.921和0.956之间,在特征维数为504时,采用拉普拉斯特征得到最大识别率0.9507,采用随机特征的识别率也达到0.9370文献1中采用随机特征是达到最大识别率0.981。最近邻分类、最近子空间分类和SVM分类的最大识别率分别达到0.9019、0.9622、0.9304文献1中分别是0.907、0.941、0.977。3.3.2 AR图像库AR图像库由126个个体的4000正脸图像组成,每个个体对应26图像,并分为两局部,每局部13。与拓展Yale B图像库比起来,这些图像包含更多的面部变化、光照变化、更多表情和伪装。在实验中,选择50个男人和50个女人的图像集。每一个个体只选光照变化和表情变化的14幅图像:7来自第一局部用于训练,7来自第二局部用于测试。图像被裁减成120×165大小,并被转换成灰度图像。特征空间维数分别是30、54、130和540,它们分别对应的采样率为1/24、1/18、1/12和1/6。Fisher特征最优特征维度小于图像类别数100,因此在仿真中只有特征维数为30和56才是可行的。AR图像库比拓展Yale B图像库更具挑战性,因为它的图像类别数为100,但是每个个体的训练图像降到7:4不同光照和3不同表情图7-图10给出了在AR图像库上,分别采用下采样特征、随机特征、Eigenfaces特征、Fisher特征和拉普拉斯特征,并运用稀疏表示分类SRC、最近邻分类NN最近子空间分类NS和支持向量机分类SVM进展人脸识别的结果。图7 基于稀疏表示的识别图8 最近邻NN识别图9 最近子空间NS识别图10 支持向量机SVM识别由图7-图10可知,在特征维数为540时,稀疏表示分类的识别率在0.8829到0.9029之间,采用随机特征时识别率达到0.8900。最近邻分类、最近子空间分类和SVM分类的最高识别率分别为0.7871、0.7614和0.8586。3.3.3正常图像识别结果讨论根据拓展Yale B和AR图像库上的人脸识别实验,我们能够得出如下分析:1) 在两个图像库上,稀疏表示分类、SVM分类、最近子空间分类的最大识别率都高于最近邻分类的最大识别率。在Yale B上,稀疏表示分类、SVM分类与最近子空间分类的最大识别率分别为和。显然稀疏表示分类识别率变低了,而最近子空间分类的识别率变高了。这可能是因为在本报告中,最小数问题求解稀疏表示采用CVX凸优化包文献1中采用增广拉格朗日的对偶实现;还有最近子空间分类根据文献7实现文献1中最近子空间分类根据文献9实现,在文献7中该分类方法已经被改良。2最近邻分类、最近邻子空间分类和SVM分类比拟依赖于特征的选择,并且随着特征维数增大,识别率都呈增长趋势。最近邻分类和SVM分类随着特征维数增大,不同特征的识别率没有表现出收敛性。3对于稀疏表示分类,在特征维数达到一定值时,采用非传统特征下采样特征和随机特征与采用传统特征Eigenfaces特征、Fisher特征和拉普拉斯特征能达到相似的识别率,且下采样特征和随机特征提取是简单、易操作的,因此有很好的实用性。3.3.4随机噪声图像的人脸识别在实验中,为了验证基于稀疏表示分类SRC对噪声的鲁棒性,要求解拓展最小数问题,如17式所示。实验采用拓展Yale B图像库,该图像库根据光源方向与摄像机坐标之间的夹角可分为5个Subset10,选择Subset1和Subset2722幅图像,光照条件有弱到中等作为训练集,Subset3542幅图像,光照条件更加强烈用于测试集。先把图像大小采样为96×84,如此在17式中,为8064×8786的矩阵。随机噪声图像人为地生成,对每一幅测试图像,根据噪声强度百分数随机地选择像素个数,然后在被选择的像素位置的灰度值用0, 255间均匀分布的随机数取代。噪声强度百分数由0%变化到90%,图11展示了采用SRC对一些图像进展测试的例子。为了凸显基于稀疏表示分类SRC的优势,该方法将与三种常见的人脸识别技术进展比拟。第一种方法是采用主成分分析法PCA提取特征11,采用最近邻分类器NN分类。第二种方法是采用独立成分分析ICA提取特征12,采用最近邻分类器NN分类。第三种方法是采用局部非负矩阵分解LNMF提取特征13,采用最近邻分类器NN分类。为了方便起见,本人在仿真时设这三种方法的特征维数为500。不同方法在不同噪声情况下的正确识别率曲线如图12所示。图11 随机噪声图像的SRC人脸识别:(a) 从上到下分别加噪30%、50%、70%的测试图像;(b) 估计误差;(c) 估计出的稀疏系数;(d) 重建图像。图12 随机噪声图像的人脸正确识别率曲线图12给出了随着噪声强度变化,基于稀疏表示分类SRC和其他三种人脸识别方法识别正确率性能。由图可知,SRC算法性能远好于其他方法。噪声强度在0%到50%之间时,SRC算法几乎能将所有目标正确分类。在噪声强度为50%时,其他方法的正确识别率没有一个能超过50%,而SRC算法的正确识别率达到99%,即使在噪声强度为70%时,SRC算法的正确识别率也达到90.7%。结 论本次课程设计主要通过阅读文献1,理解基于稀疏表示的人脸识别,并对算法实现仿真和比照。由于文献1中的实验繁多,本报告只对正常图像和噪声污染图像的人脸识别实验进展重现。基于稀疏表示分类对正常图像进展人脸识别时,对不同的图像数据库,都能达到很高的识别率,在并且在提取的特征维数一定时,采用简单、易操作的非传统特征下采样特征和随机特征能达到和采用传统特征Eigenfaces特征、Fisher特征和拉普拉斯特征相似的识别率。基于稀疏表示分类对随机噪声图像进展人脸识别时,该算法表现出很强的鲁棒性,在噪声强度小于50%时,人脸正确识别率相当高。参 考 文 献1 J. Wright, A. Y. Yang, A. Ganesh,et al. Robust face recognition via sparse representationJ. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009, 31(2): 210-227.2晓. 基于稀疏表示的人脸识别方法研究D. 工业大学, 2013.3立. 基于稀疏表示的人脸图像识别方法研究D. 理工大学, 2012.4胜涛. 基于稀疏表示的人脸识别算法研究D. 大学, 2013.5 D. L. Donoho. pressed sensingJ. Information Theory, IEEE Transactions on, 2006, 52(4): 1289-1306.6 最近邻分类器DB/OL. (2014,5,14). wenku.baidu./link?url=F7CeacoihK6vllCBcibcK1DRVDFxbIJJml2tGi9bZt3zAjNaUgwXbGUUFIS4rHtOCvowqSa6eh4pRiVGPBHtFR3oqG4QGaaKMKVfTlQnEz_7Classifiers Robust to Dimensionality Reduction via Random ProjectionsEB/OL. (2009,6,7).8 基于MATLAB的 PCA+SVM人脸识别EB/OL. (2014,5,23).9 J. Ho, M. H. Yang, J. Lim, et al. Clustering appearances of objects under varying Illumination conditionsC. puter Vision and Pattern Recognition, 2003. Proceeding.2003 IEEE puter Society Conference on. IEEE, 2003, 1: I-11-I-18 vol.1.10 X. Tan X, B. Triggs. Enhanced local texture feature sets for face recognition under difficult lighting conditionsM. Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg, 2007: 168-182.11 M. Turk, A. Pentland. Eigenfaces for recognitionJ. Journal of cognitive neuroscience, 1991, 3(1): 71-86.12 韩丽. 基于独立成分分析的人脸识别方法研究D. 某某大学, 2009.13 昱昊. 基于非负矩阵分解算法的人脸识别技术的研究D. 大学, 2014.- 21 - / 21