国外人脸识别研究综述论文

4个回答默认排序

默认排序

按时间排序

Lydia胖胖

已采纳

随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文，欢迎阅读!

图像识别技术研究综述

摘要：随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解，由于图像在成像时受到外部环境的影响，使得图像具有特殊性，复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词：图像处理;图像识别;成像

中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像，是人类最重要的信息源，它是通过各种观测系统从客观世界中获得，具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展，图像处理技术的应用也越来越广泛，并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段，比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等，在这些应用中，都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理，着重强调图像与图像之间进行的交换，主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性，使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析，以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理，而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声，将原始图像编程适于计算机进行特征提取的形式，主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集，图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像，也包括一些动态图像，并可以将其转为数字图像，和文字、图形、声音一起存储在计算机内，显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强，图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化，数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分，使图像的主体结构更加明确，必须对图像进行改善，即图像增强。通过图像增强，以减少图像中的图像的噪声，改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量，使图像中的物体的轮廓更加清晰，细节更加明显。图像增强不考虑图像降质的原因，增强后的图像更加赏欣悦目，为后期的图像分析和图像理解奠定基础。

3)图像复原，图像复原也称图像恢复，由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊，为了提取比较清晰的图像需要对图像进行恢复，图像恢复主要采用滤波方法，从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建，该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩，数字图像的显著特点是数据量庞大，需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频，那么必须对图像进行编码和压缩。目前，图像压缩编码已形成国际标准，如比较著名的静态图像压缩标准JPEG，该标准主要针对图像的分辨率、彩色图像和灰度图像，适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列，因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术，图像分割是把图像分成一些互不重叠而又具有各自特征的子区域，每一区域是像素的一个连续集，这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位，然后把目标从背景中分离出来。目前，图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰，使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述，描述是用数字或者符号表示图像或景物中各个目标的相关特征，甚至目标之间的关系，最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时，可以采用模板匹配模型。在某些具体的应用中，图像识别除了要给出被识别对象是什么物体外，还需要给出物体所处的位置和姿态以引导计算初工作。目前，图像识别技术已广泛应用于多个领域，如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有：

2.1 指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段，主要应用于身份验证。指纹识别是生物特征的一个部分，它具有不变性：一个人的指纹是终身不变的;唯一性：几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前，指纹识别技术与我们的现实生活紧密相关，如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

2.2 人脸识别目前大多数人脸识别系统使用可见光或红外图像进行人脸识别，可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下，其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响，但由于红外线不能穿透玻璃，如果待识别的对象戴有眼镜，那么在图像识别时，眼部信息全部丢失，将严重影响人脸识别的性能[4]。

2.3 文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术，可以自动地把文字和其他信息分离出来，通过智能识别后输入计算机，用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档，如银行票据、文稿、各类公式和符号等自动录入，可以提供文字的处理效率，有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样，使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事，但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下，图像识别技术取得了一定的成功，但在复杂的环境下，仍面临着许多问题：如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准，以及算法本身存在一定的局限性，这使得图像识别的最终结果不十分精确等。

参考文献：

[1] 胡爱明，周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用，2003，39(7)：90—91.

[2] 胡学龙.数字图像处理[M].北京：电子工业出版社，2011.

[3] 范立南，韩晓微，张广渊.图像处理与模式识别[M].北京：科学出版社，2007.

[4] 晓慧，刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用，2009，1(29)：8.

[5] 陈良育，曾振柄，张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用，2005，25(7)：1629-1631.

[6] Sanderson C，Paliwal K K.Information Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33，Martigny，Swizerland，2002.

点击下页还有更多>>>图像识别技术论文

179 评论 2小时前发布

糖仔食糖仔

这两天在公司做PM实习，主要是自学一些CV的知识，以了解产品在解决一些在图像识别、图像搜索方面的问题，学习的主要方式是在知网检索了6.7篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系，后面还会继续更新图片相似度计算（以图搜图）等方面的学习成果将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题（主要是卷积神经网络CNNs）的基础过程和原理，但这里不会深入到技术的实现层面。

计算机视觉（Computer vision）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图像处理，用计算机处理成为更适合人眼观察或传送给仪器检测的图像。 ————维基百科通常而言，计算机视觉的研究包括三个层次：（1）底层特征的研究：这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征，具体的研究内容通常包括：物体识别、字符识别等（2）中层语义特征的研究：该层次的研究在于在识别出对象的基础上，对其位置、边缘等信息能够准确区分。现在比较热门的：图像分割；语义分割；场景标注等，都属于该领域的范畴（3）高层语义理解：这一层次建立在前两层的基础上，其核心在于“理解”一词。目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于：场景识别、图像摘要生成及图像语义回答等。而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。

人类的视觉工作模式是这样的：首先，我们大脑中的神经元接收到大量的信息微粒，但我们的大脑还并不能处理它们。于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。接着，无数条线又整合成一个个轮廓。最后多个轮廓累加终于聚合我们现在眼前看到的样子。计算机科学受到神经科学的启发，也采用了类似的工作方式。具体而言，图像识别问题一般都遵循下面几个流程

（1）获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在（2）数据预处理工作，在图像识别领域主要包括四个方面的技术：去噪处理（提升信噪比）、图像增强和图像修复（主要针对不够清晰或有破损缺失的图像）；归一化处理（一方面是为了减少开销、提高算法的性能，另一方面则是为了能成功使用深度学习等算法，这类算法必须使用归一化数据）。（3）特征提取，这一点是该领域的核心，也是本文的核心。图像识别的基础是能够提取出足够高质量，能体现图像独特性和区分度的特征。过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法，如PCA\LCA等来提取一些人工设计的特征，主要的方法有（HOG、LBP以及十分著名的SIFT算法）。但是这些方法普遍存在（a）一般基于图像的一些提层特征信息（如色彩、纹理等）难以表达复杂的图像高层语义，故泛化能力普遍比较弱。（b）这些方法一般都针对特定领域的特定应用设计，泛化能力和迁移的能力大多比较弱。另外一种思路是使用BP方法，但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题（每个元素都要负责底层的所有参数），另外也不能根据样本对训练过程进行优化，实在是费时又费力。因此，一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中，以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线，由于其使用权重共享和特征降采样，充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中，目前使用较多又最为主流的是CNN算法，在第四部分主要也研究CNN方法的机理。

上图是一个简易的神经网络，只有一层隐含层，而且是全连接的（如图，上一层的每个节点都要对下一层的每个节点负责。）具体神经元与神经元的作用过程可见下图。

在诸多传统的神经网络中，BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是：导入训练样本、计算期望值和实际值之间的差值，不断地调整权重，使得误差减少的规定值的范围内。其具体过程如下图：

一般来说，机器学习又分成浅层学习和深度学习。传统的机器学习算法，如SVM、贝叶斯、神经网络等都属于浅层模型，其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。如果是有多个隐含层的多层神经网络（一般定义为大于5层），那么我们将把这个模型称为深度学习，其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够，特别是在复杂问题分类情况上容易出现分类不足的弊端，深度网络的优势则在于其多层的架构可以分层表示逻辑，这样就可以用简单的方法表示出复杂的问题，一个简单的例子是：如果我们想计算sin(cos(log(exp(x))))，那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)

图像识别问题是物体识别的一个子问题，其鲁棒性往往是解决该类问题一个非常重要的指标，该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了：（1）噪音（2）尺度变化（3）旋转（4）光线变化（5）位移

该部分具体的内容，想要快速理解原理的话推荐看[知乎相关文章] ( )，特别是其中有些高赞回答中都有很多动图和动画，非常有助于理解。但核心而言，CNN的核心优势在于共享权重以及感受野，减少了网络的参数，实现了更快的训练速度和同样预测结果下更少的训练样本，而且相对于人工方法，一般使用深度学习实现的CNN算法使用无监督学习，其也不需要手工提取特征。

CNN算法的过程给我的感觉，个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性：局部感知、权重共享和池化。

CNN中的神经元主要分成了两种：（a）用于特征提取的S元，它们一起组成了卷积层，用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数（控制输出对输入的反映敏感度）和感受野参数（决定了从输入层中提取多大的空间进行输入，可以简单理解为擦玻璃的抹布有多大）（b）抗形变的C元，它们一起组成了池化层，也被称为欠采样或下采样。主要用于特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性。（c*）激活函数，及卷积层输出的结果要经过一次激励函数才会映射到池化层中，主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。

也许你会抱有疑问，CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到，一个全连接中，较高一层的每个神经元要对低层的每一个神经元负责，从而导致了过拟合和维度灾难的问题。但是有了区域感受野和，每个神经元只需要记录一个小区域，而高层会把这些信息综合起来，从而解决了全连接的问题。

了解区域感受野后，你也许会想，区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢，这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图，下面给大家一个很直观的理解。

上面的这个过程就被称为一个卷积核。在实际应用中，单特征不足以被系统学习分类，因此我们往往会使用多个滤波器，每个滤波器对应1个卷积核，也对应了一个不同的特征。比如：我们现在有一个人脸识别应用，我们使用一个卷积核提取出眼睛的特征，然后使用另一个卷积核提取出鼻子的特征，再用一个卷积核提取出嘴巴的特征，最后高层把这些信息聚合起来，就形成了分辨一个人与另一个人不同的判断特征。

现在我们已经有了区域感受野，也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题：给一个100 100的参数空间，假设我们的感受野大小是10 10，那么一共有squar（1000-10+1）个，即10的六次方个感受野。每个感受野中就有100个参数特征，及时每个感受野只对应一个卷积核，那么空间内也会有10的八次方个次数，，更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数，这就引出了权重共享的概念。用一句话概括就是，对同一个特征图，每个感受野的卷积核是一样的，如这样操作后上例只需要100个参数。

池化是CNN技术的最后一个特性，其基本思想是：一块区域有用的图像特征，在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据，但往往相邻的边缘具有相似的特性，就好像我们已经得到了一个强边缘，再拥有大量相似的次边缘特征其实是没有太大增量价值的，因为这样会使得系统里充斥大量冗余信息消耗计算资源。具体而言，池化层把语义上相似的特征合并起来，通过池化操作减少卷积层输出的特征向量，减少了参数，缓解了过拟合问题。常见的池化操作主要包括3种：分别是最大值池化（保留了图像的纹理特征）、均值池化（保留了图像的整体特征）和随机值池化。该技术的弊端是容易过快减小数据尺寸，目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法，原因是池化会带来一定程度上表征的位移不变性，传统观点认为这是一个优势，但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息，利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征，有望冲破目前卷积网络构架的瓶颈。

CNN总体来说是一种结构，其包含了多种网络模型结构，数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外，CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。

该部分的核心参考文献：《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36. 深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势，在这里首先对深度学习的基本概念作一简介，其次对深度学习常用的结构模型进行概述说明，主要简述了深度信念网络（DBN）、卷积神经网络（CNN）、循环神经网络（RNN）、生成式对抗网络（GAN）、胶囊网络（CapsNet）以及对各个深度模型的改进模型做一对比分析。

深度学习按照学习架构可分为生成架构、判别架构及混合架构。其生成架构模型主要包括：受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括：深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括：受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。监督学习方法主要包括：深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明，监督学习与非监督学习之间无明确的界限，如：深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。

[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019. [2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. [3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017. [4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017. [5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017. [6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [8]CSDN、知乎、机器之心、维基百科

143 评论 4小时前发布

妞妞宝贝814

我建议你去看看这些网址。可能有。

110 评论 4小时前发布

成都安美

文献如下：

[1] Rothe R, Timofte R, Gool L V. Deep Expectation of Real andApparent Age from a Single Image Without Facial Landmarks[J].International Journal of Computer Vision, 2016:1-14.

[2] Eidinger E, Enbar R, Hassner T. Age and Gender Estimation of Unfiltered Faces[J]. IEEE Transactions on Information Forensics & Security, 2014, 9(12):2170-2179.

[3] Chen B C, Chen C S, Hsu W H. Face Recognition and RetrievalUsing Cross-Age Reference Coding With Cross-Age CelebrityDataset[J]. IEEE Transactions on Multimedia, 2015, 17(6):804-815.

[4]王先梅，梁玲燕，王志良，胡四泉. 人脸图像的年龄估计技术研究[J]．中国图象图形学报，2012, 17( 6) : 603-618。

[5] 郑德鹏, 杜吉祥, 翟传敏. 基于深度学习MPCANet 的年龄估计 [J].南京师大学报(自然科学版), 2017, 40(1):20-26。

知网可以查找文献。年龄估计的现状：

简单地说，基于人脸图像的年龄估计是指机器根据面部图像推测出人的大概年龄或所属的年龄范围( 年龄段)。基于人脸图像的年龄估计系统一般分为人脸检测与定位，年龄特征提取，年龄估计，系统性能评价几个部分。根据提取特征方式的不同又分为传统方法和深度学习方法。

如果基于人脸图像的年龄估计问题得到解决，那么在日常生活中基于年龄信息的各种人机交互系统将在现实生活中有着极大的应用需求。

市场主流年龄估计软件包括商汤科技，face++，百度云AI体验中心，腾讯云AI体验中心，年龄检测仪。我们随机拿了一些名人照片做测试，总体说来face++在测试集上表现最好。

传统方法研究思路，自然就是手动提取特征。

传统方法即手动提取特征，传统方法可粗略划分为手动提取特征和年龄估计两个阶段。

根据特征所反映的人脸信息，可以将常用的人脸年龄特征分为形状特征、纹理特征、代数特征以及混合特征。

由于每种类型的特征均从不同角度描述了人脸图像，为了充分利用各种特征的优点，研究人员通常综合集成多种人脸特征，并采用不同的数学方法对其进行处理，从而形成了各具特色的面部年龄特征提取模型。

常见的特征提取模型包括人体测量学模型( anthropometric models) 、特征子空间模型(AGES) 、柔性模型( flexible models) 、流形学习( age manifold)以及外观模型( appearance model) 等。

246 评论 8小时前发布

国外人脸识别研究综述论文

4个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

4个回答默认排序

默认排序

按时间排序