英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
多视角感知器:一种学习人脸身份和视角表征的深层模型
Zhenyao Zhu1,3 Ping Luo3,1 Xiaogang Wang2,3 Xiaoou Tang1,3 1Department of Information Engineering, The Chinese University of Hong Kong
2Department of Electronic Engineering, The Chinese University of Hong Kong
3Shenzhen Key Lab of CVPR, Shenzhen Institutes of Advanced Technology,
Chinese Academy of Sciences, Shenzhen, China
{zz012,lp011}@ie.cuhk.edu.hk xgwang@ee.cuhk.edu.hk xtang@ie.cuhk.edu.hk
摘要
在人脸图像中,各种因素(如身份、视图和照明)是耦合的。在人脸识别中,身份和视图表示的分离是一个主要的挑战。现有的人脸识别系统要么使用手工特征,要么区别地学习特征,以提高识别精度。这与灵长类大脑的行为不同。最近的研究[5,19]发现灵长类大脑有一个面部处理网络,在这个网络中,不同的神经元处理视觉和身份。考虑到这一特点,本文提出了一种新的深度神经网络,称为多视角感知器(MVP),它能将图像的同一性和视角特征分离开来,同时在给定一幅二维人脸图像的情况下,推导出全谱的多视角图像。MVP的身份特征在多节点数据集上取得了优异的性能。MVP还能够在训练数据中未观察到的视点下对图像进行插值和预测。
图1:两个标识的输入(第一列)和多视图输出(其余列)。第一个输入来自一个标识,最后两个输入来自另一个标识。每个重建的多视图图像(左)都有其基本真相(右)进行比较。提取的输入(第二列)的标识特征以及输入和输出的视图特征分别以蓝色和橙色绘制。同一身份的身份特征是相似的,即使输入是在不同的视图中捕获的,而同一视点的视图特征是相似的,尽管它们来自不同的身份。这两个人在正面看起来很相似,但在其他方面可以更好地区分。
我们可以观察到,同一身份的身份特征是相似的,即使输入被捕捉到非常不同的视图中,而同一视图中的图像的视图特征是相似的,尽管它们跨越不同的身份。
与其他从输入产生确定性输出的深层网络不同,MVP使用确定性隐藏神经元来学习身份特征,同时使用随机隐藏神经元来捕获视图表示。通过对随机神经元的不同值进行采样,生成不同视图的输出图像。此外,为了得到不同视点的图像,我们增加了正则化,即在相似视点下的图像在随机神经元上应该具有相似的视点表示。这两种类型的神经元是以概率的方式建模的。在训练阶段,通过反向传播更新MVP的参数,通过最大化完全数据对数似然的变分下界来计算梯度。利用我们提出的学习算法,将概率模型的EM更新转化为正向和反向传播。在测试阶段,给定一个输入图像,MVP可以提取其身份和视图特征。此外,如果还提供了视点的顺序,MVP可以按照此顺序依次重建输入图像的多个视图。
本文有几点重要贡献。(i) 提出了一种多视感知器(MVP)及其学习算法,将不同神经元集合的同一性和视表示分解,使学习到的特征更具区分性和鲁棒性。(ii)MVP可以重建给定单个2D图像的全谱视图。全谱视图可以更好地区分同一性,因为不同的同一性在特定视图中看起来相似,但在其他视图中则不同,如图1所示。(iii)MVP可以在训练数据中未观察到的视点下对图像进行插值和预测,在某种意义上模仿了人类的推理能力。
相关工作。在计算机视觉的文献中,现有的处理视(位)变化的方法可以分为基于二维和三维的方法。例如,2D方法,如[6],可以推断跨姿势的2D图像之间的变形(如薄板样条)。三维方法,如[2,12],以不同的参数形式捕捉三维人脸模型。上述方法都有其固有的缺陷。捕获和处理三维数据需要额外的成本和资源。由于缺乏一个自由度,由二维变换推断三维变形往往是不适定的。更重要的是,现有的方法都没有模拟灵长类大脑如何编码视图表示。在我们的方法中,不使用任何几何模型,而是用少量的神经元对视图信息进行编码,这样就可以与同一神经元一起恢复全谱视图。这种将身份和观点信息编码到不同神经元中的表现更接近于灵长类大脑中的面部处理系统,也是深入学习文献的新发现。我们之前的工作[28]通过使用CNN恢复单个正面图像来学习身份特征,这是去除随机神经元后MVP的一个特例。[28]没有像我们一样学习视图表示。实验结果表明,与文献[28]相比,该方法不仅提供了丰富的多视图表示,而且学习了更好的身份特征。图1示出了不同的人在前视图中看起来相似,但在其他视图中更好地被区分的示例。从而显著提高了人脸识别的性能。最近,里德等人。[20] 用高阶Boltzmann机器解图像变化的各种因素,其中所有的神经元都是随机的,并用gibbs抽样法求解。MVP包含随机神经元和确定性神经元,因此可以通过反向传播有效地求解。
2 多视感知器
训练数据是一组图像对,I = {xij , (yik, vik)}N,M,M,i=1,j=1,k=1,其中xij是在第j个视图下的第i个特征的输入图像,yik是在第k个视图的相同特征的输出图片,并且vik是它的视图标签。Vik是第k个元素为1,其余为0的M维二元向量。MVP从那给一个输入X,能输出不同视图的相同特征的输出图片y和他们的视图标签v中学习。然后输出v和y生成v = F(y, hv ; Theta;), y = F(x, h id , hv, hr ; Theta;) e,其中F是一个非线性函数,而Theta;是一组要被学习的权重和偏见。这里有三种隐藏的神经元hid,hv和hr,分别提取特征特点,视图特点,以及重建输出面部图片的特征,e表示噪声变量。图2显示了MVP的架构,它是一个定向的六层图像模型,其中不填充的节点表示观察到的以及隐藏的变量,绿色和蓝色的节点分别表示确定性和随机性神经元。y和v的生成过程,从x开始,流经提取身份特征的神经元hid,这里为了面部修复与隐藏视图代表hv结合生成特征hr.然后hr生成y,同时,hv和y联合起来生成v.hid和hr是确定性二元隐藏神经元,而hv是从一个分布q(hv)中随机抽取的隐藏二元神经元。不同的样本hv生成不同的y,使得多视角的感知成为可能。hv通常有一个低维,大约10个,作为10个二元神经元可以理想的模拟2的十次方个不同视图。
为了便于推导,我们以MVP为例,它只包含一个隐藏的hid和hv层。可以用类似的方法添加和派生更多的层。我们考虑一个共同分配来把随机的隐藏神经元排除在外。
p(y, v |hid; Theta;) = sum;hv p(y, v, hv|hid; Theta;) = sum;hv p(v |y, hv; Theta;)p(y|hid, hv; Theta;)p(hv),
其中Theta;={U0,U1,V1,U2,V2},其中标识特征从输入图像中提取,hid=f(U0X),f是网络激活组件,f(x)=1/(1 exp(/x))。其他激活组件也可以使用例如整流线性函数和正切函数等函数。对于建模输出的连续值,我们假设y服从条件对角高斯分布
p(y|h id , hv ; Theta;) = N (y|U1h id V1hv,sigma;2y). y属于第j个视图的概率是由softmax函数建模。p(vj = 1|y, hv
; Theta;) = exp(U2jlowast;y V2jlowast;hv)/sum;Kk=1 exp(U2klowast;y V2klowast;hv),其中Uj*标识数组的第j行
MVP的网络结构有六层,其中三层只有
确定性神经元(即用U0、U1、U4的权重
参数化的层),三层同时有确定性和随机
性神经元(即U2、V2、W2、U3、V3、U5
、W5的权重),这种结构在实验中得到了
应用。
2.1学习程序
通过最大化数据的对数可能性来学习MVP的权重和偏差,下限的对数可能性可以被写成
log p(y, v |hid; Theta;) = logsum;hv p(y, v, hv|hid; Theta;) ge; sum;hv q(hv) log p(y, v, hv|hid; Theta;)/q(hv) . (3)
公式3 是通过将对数可能性分解为两项得到的
log p(y, v |hid; Theta;) =-sum;hv q(hv) log p(hv|y,v;Theta;)/q(hv) sum;hv q(hv) log p(y,v,hv|hid;Theta;)/q(hv),这很可以容易被替换产品来证实, p(y, v, hv|hid) = p(y, v |hid)p(hv|y, v),进入分解的右侧。特别是,第一项是在真后方和分布q(hv)之间的KL发散。由于KL发散式非负的,第二项被认为是对数可能的变分下界。使用蒙特卡罗期望最大化可以使上面的下界最大化,算法最近被【27】介绍,它通过使用以条件先验为建议分布的重要性抽样。按照贝叶斯法则,MVP正确的后面是p(hvy, v) = p(y,v |hv)p(hv)/p(y,v),其中p(y,v|hv)代表多视角感知错误,p(hv)是hv上的优先分布,p(y,v)是归一化常数,由于我们不假设关于视图分布的任何先验信息,因此p(hv)被选择为在0和1之间的一致分布。为了估计真正的后方,我们让q(hv)=p(hv|y,v;Theta;old).他是通过从均匀分布中采样hv来近似的,即,hv~U(0,1)由重要权重p(y,v|hv;Theta;old)加权。在EM算法中,对数可能性的下界变成L(Theta;, Theta;old) = sum;hv p(hv|y, v; Theta;old) log p(y, v, hv|hid; Theta;) 1/S sum;Ss=1ws log p(y, v, hvs |hid; Theta;),其中ws=p(hv|y, v; Theta;old是重要的权重,E步采样随机的隐藏神经元,即hvs~U(0,1),而M步计算梯度,
part;Lpart;Theta; 1S XSs=1part;L(Theta;, Theta;old) part;Theta; = 1S XSs=1ws part;part;Theta;{log p(v |y, hvs) log p(y|hid, hvs )}, (5)
其中梯度是通过对所有关于重要性样品的梯度进行平均得来的。这两个步骤必须重复。当需要更多的样本来估计后验时,空间复杂度将显著增加,因为我们需要保存一批数据样本,和他们在深度网络的每一层的相应输出。当实现GPU算法,需要在我们的数据大小和准确性之间进行权衡,在近似情况下,如果GPU内存不足以存储大规模的训练数据。我们的经验(3.1)表明MVP的M阶跃可以只用一个样本计算,因为均匀先验通常导致训练过程中的权值稀疏。因此,EM过程发展成为传统的反向传播。在前向过程中,我们基于当前参数Theta;对一些hvs进行采样,这样仅权重最大的样品需要保存。我们在实验中演示(3.1)少量的次数(例如小于20)就足以找到好的样本。在后进中,我们试图通过梯度来更新参数
part;L(Theta;)part;Theta; part;part;Theta;ws(log p(v |y, hvs) log p(y|hid, hvs ))} , (6)
其中hvs是最大权重ws的样本,我们需要优化下面两项log p(y|hid, hvs) = = log sigma;y ykybb(U1hid V1hvs )k22 2sigma;2y和log p(v |y, hvs) =Pj vbj log( exp(U2jlowast;y V2jlowast;hvs ) PKk=1 exp(U2klowast;y V2klowast;hvs ) ),其中y和v是基本事实。
连续视图:在前面的讨论之中
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[254139],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。