图像匹配毕业论文
图像匹配毕业论文
以下是近些年将遗传算法应用于图像匹配的一些论文推荐:
最早将遗传算法应用于图像匹配的论文?
遗传算法应用于图像匹配的最早论文是由美国科学家戴维·戈德伯格(David Goldberg)在1988年发表的论文《基于遗传算法的图像匹配》("Genetic Algorithms in Search, Optimization, and Machine Learning")中,提出了一种利用遗传算法进行图像匹配的方法。该方法主要是利用遗传算法对图像特征进行编码,并通过遗传算法的交叉、变异等操作,对不同的图像特征进行优化,从而实现图像匹配的目的。
这篇论文的发表标志着遗传算法在图像处理领域中的首次应用,为后来的相关研究奠定了基础。同时,该论文也表明了遗传算法在解决复杂优化问题中的潜力和优越性,成为了现代遗传算法应用领域的开山之作。
论文阅读——D2-Net: A Trainable CNN for Joint Description and Detection of Local Features
作为近两年detector和descriptor joint learning(也称one-stage)类型论文的又一代表,D2-Net是一种相当特别的结构。其特点是“一图两用”,即网络预测出的dense tensor即是detection score maps,又是description map特征图即代表特征检测结果又代表特征描述结果(注意预测的特征图并不是原图分辨率大小)。换句话说,D2-Net的特征检测模块和描述模块是高度耦合的。
本文主要针对的是appearance变化较大(包括日-夜变化、大的视角变化等)场景下的图像匹配任务。文章作者比较了两种局部特征学习方法:sparse方法和dense方法。其中sparse方法高效,但是在appearance变化大的场景提取不到可重复的关键点,其原因在于特征提取器只使用浅层图像信息,不使用语义信息;dense方法则直接利用深层特征提取密集特征描述,更加鲁棒却以更高的匹配时间和内存开销为代价。
因此作者的目的在于,提出一种足够鲁棒的sparse local feature,让其提取的特征(兴趣点)具有更好的repeatability,进而实现既有sparse方法的高效性,又有dense方法的鲁棒性。其核心idea是将特征提取阶段延后,使得局部特征也可以利用高层语义信息,而不是只考虑低层信息。
问题:关于这里的sparse和dense方法
关键词:A single CNN plays a dual role; joint optimization; different train/test model structure
不同于SuperPoint或者SEKD,本文虽然也是dense prediction类型的结构,但并不同时预测kpt和description两个图,而是只预测了一个形状为HxWxd(d为特征描述的长度)的特征图,然后既作描述结果又作检测结果…从spatial维度来说,该特征图的每个像素位置是一个描述子;从channel维度来说,每一个通道代表一个特征检测器的检测结果,总共得到d个2D响应图,这里可以用SIFT中的高斯差分金字塔响应来类比。
后续的兴趣点提取需要对这个d通道的特征图做进一步的后处理:
按照上面对D2特征图的定义,如果(i,j)位置是一个兴趣点,则从通道维度来说该像素位置最终的检测结果肯定要取检测器响应值最大的通道对应数值,这样就选出了通道;从空间维度来说又要满足该位置在该通道的2D map必须为一个局部最大值。即本文中的"hard feature detection":
首先对输入图像构建图像金字塔,然后在每个scale上进行forward,得到D2特征图,再把多尺度特征图逐scale上采样并与同分辨率融合(见下式),得到融合后的特征图。预测阶段根据融合特征图进行上述后处理,即可提取出特征点。
由于上述特点,网络结构本身发非常简单,直接用VGG16 conv4_3之前的部分,恢复ImageNet上的预训练权重,然后除了最后一层conv4_3之外全部冻结,只对该层做微调。不过关于模型,有两个值得注意的地方:
1.使用VGG16的结果比ReseNet好很多
2.训练时和测试时的模型结构不同
具体来说,在测试阶段为了提高特征的分辨率,将pool3改成一个stride为1的avg pool,随后的三层conv dilation ratio调整为2,以维持相同的感受野。作者解释是说训练时为了减小内存使用比较小的特征分辨率,测试时为了提高特征定位能力,将分辨率提升到原图的1/4,并加上了一个类似SIFT中使用的局部特征提炼,然后将特征插值上采样到原分辨率。
不过训练过程不能用上面的hard feature detection,因为其不可微。故作者提出了一个soft的版本,其设计思想就是模仿hard方法的通道选择和空间位置选择(即通道内的局部最大值):
对于空间位置选择,作者会对特征图的每个像素求一个α(i,j),得到α map(shape为[h,w,d]):
其中N(i,j)代表以(i,j)为中心的9-邻域。因此可见这里的局部最大值其实是在3x3区域内的最大值,而不是式(3)中写的那样,整个通道只输出一个最大值。
对于通道选择,直接计算一个ratio-to-max得到β图(shape为[h,w,d]):
根据kpt的定义,score map s就应该是α map和β map的乘积map在通道维度求最大值的结果。最后再做一个归一化:(问题:这个归一化让score map的像素值之和为1是什么意思?score map不应该用sigmoid之类的转为0-1之间的分布比较合理吗?)
关于这部分还要考虑一个问题,为什么D2-Net需要在训练中提取兴趣点?(比如R2D2等结构,都是直接针对kpt score map做优化,只有实际预测时才需要根据score map提取特征点这个步骤)
答:这个问题的理解是不正确的,训练中并不是提取兴趣点,而是在得到”single score map"。上面的hard feature detection相当于NMS的过程,输出的是稀疏的兴趣点位置坐标;而训练检测模块需要hxw的score map,故先要把hxwxd的特征图经过一个可微的步骤,处理后得到该score map。
①triplet margin ranking loss(只考虑描述子)
训练描述子其实没有太多不一样的地方,就是根据输入pair的correspondences,将每一个匹配对c视为正对,不匹配对为负对,对构成的三元组进行训练。主要问题是如何根据当前匹配对c构建最有意义的负对。作者这里用了一个基于邻域的困难样本挖掘策略,假如当前匹配为下图的点A和点B,那么分别在I1和I2扣去A\B邻域的区域找负对,并分别与B的描述子dB、A的描述子dA进行比较,找到所有这种负对中相似度最小的,与c构建三元组。
以下p(c)和n(c)分别代表正对距离和负对距离。m(c)代表当前匹配c的triplet loss。
②加入描述子优化的triplet margin ranking loss
由于D2特征即代表兴趣点score map也代表描述子,本文的优化需要对检测和描述进行联合优化。作者在triplet margin ranking loss基础上加入了提升检测结果可重复性这一优化目标,具体实现方法是:利用输入两图像中所有correspondences的检测得分来对当前匹配计算出的triplet loss进行加权平均,如果当前匹配triplet loss很低(即该对匹配的距离远小于其各自的最难负对),则为了最小化loss,这一对triplet loss小(即区分度高)的correspondence自然要给更大的权值;其他triplet loss大的correspondence就给小点的权值。
感觉文中式(13)的符号有点confusing,m(p(c),n(c))直接写成,m(c)可能更加简洁。
图像识别技术论文
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
2.1 指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
2.2 人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
2.3 文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K ation Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
上一篇:论文文献书是简写
下一篇:药品快速检测论文