图像检测识别方法研究论文

发布时间：2023-12-09 07:21:48

图像检测识别方法研究论文

摘要针对基于PC实现的图像边缘检测普遍存在的执行速度慢、不能满足实时应用需求等缺点，本文借助于TI公司的TMS320DM642图像处理芯片作为数字图像处理硬件平台，DSP/BIOS为实时操作系统，利用CCS开发环境来构建应用程序；并通过摄像头提取视频序列，实现对边缘检测Sobel算子改进[1]。关键词 DM642；Sobel算子；程序优化；图像边缘检测 1 引言边缘是图像中重要的特征之一，是计算机视觉、模式识别等研究领域的重要基础。图像的大部分主要信息都存在于图像的边缘中，主要表现为图像局部特征的不连续性，是图像中灰度变化比较强烈的地方，也即通常所说的信号发生奇异变化的地方。经典的边缘检测算法是利用边缘处的一阶导数取极值、二阶导数在阶梯状边缘处呈零交叉或在屋顶状边缘处取极值的微分算法。图像边缘检测一直是图像处理中的热点和难点。近年来，随着数学和人工智能技术的发展，各种类型的边缘检测算法不断涌现，如神经网络、遗传算法、数学形态学等理论运用到图像的边缘检测中。但由于边缘检测存在着检测精度、边缘定位精度和抗噪声等方面的矛盾及对于不同的算法边缘检测结果的精度却没有统一的衡量标准，所以至今都还不能取得令人满意的效果。另外随着网络和多媒体技术的发展，图像库逐渐变得非常庞大；而又由于实时图像的目标和背景间的变化都不尽相同，如何实现实时图像边缘的精确定位和提取成为人们必须面对的问题。随着DSP芯片处理技术的发展，尤其是在图像处理方面的提高如TMS320C6000系列，为实现高效的、实时的边缘检测提供了可能性[5]。在经典的边缘检测算法中，Sobel边缘检测算法因其计算量小、实现简单、处理速度快，并且所得的边缘光滑、连续等优点而得到广泛的应用。本文针对Sobel算法的性能，并借助于TMS320DM642处理芯片[3]，对该边缘检测算法进行了改进和对程序的优化，满足实时性需求。2 Sobel边缘检测算法的改进经典的Sobel图像边缘检测算法，是在图像空间利用两个方向模板与图像进行邻域卷积来完成的，这两个方向模板一个是检测垂直边缘，一个是检测水平边缘。算法的基本原理：由于图像边缘附近的亮度变化较大，所以可以把那些在邻域内，灰度变化超过某个适当阈值TH的像素点当作边缘点。Sobel算法的优点是计算简单，速度快。但由于只采用了两个方向模板，只能检测水平方向和垂直方向的边缘，因此，这种算法对于纹理较复杂的图像，其边缘检测效果欠佳；同时，经典Sobel算法认为，凡灰度新值大于或等于阈值的像素点都是边缘点。这种判定依据是欠合理的，会造成边缘点的误判，因为多噪声点的灰度新值也很大。2.1 图像加权中值滤波由于图像中的边缘和噪声在频域中均表现为高频成分，所以在边缘检测之前有必要先对图像进行一次滤波处理，减少噪声对边缘检测的影响。中值滤波是一种非线性信号的处理方法[2]，在图像处理中，常用来保护边缘信息；保证滤波的效果。加权中值滤波，首先对每个窗口进行排序，取适当的比例，进行曲线拟合，拟合后的曲线斜率表征了此窗口的图像特征，再根据图像各部分特性适当的选择权重进行加权。2.2 增加方向模板除了水平和垂直两方向外，图像的边缘还有其它的方向，如135o和45o等，为了增加算子在某一像素点检测边缘的精度，可将方向模板由2个增加为8个即再在经典的方向模板的基础上增加6个方向模板，如图1所示。2.3 边缘的定位及噪声的去除通常物体的边缘是连续而光滑的，且边缘具有方向和幅度两个特征，而噪声是随机的。沿任一边缘点走向总能找到另一个边缘点，且这两个边缘点之间的灰度差和方向差相近。而噪声却不同，在一般情况下，沿任一噪声点很难找到与其灰度值和方差相似的噪声点[4]。基于这一思想，可以将噪声点和边缘点区分开来。对于一幅数字图像f(x，y)，利用上述的8个方向模板Sobel算子对图像中的每个像素计算，取得其中的最大值作为该点的新值，而该最大值对应的模板所表示的方向为该像素点的方向。若｜f(x，y)－f(x+i，y+j)｜＞TH2，对于任意i=0，1，-1；j=0，1，-1均成立，则可判断点(x，y)为噪声点。图2给出了图像边缘检测系统改进算法的软件流程图。图1 边缘检测8个方向模板图2 系统结构图3 基于TMS320DM642的图像处理的设计及算法优化3.1 TMS320DM642功能模块及图像处理系统的硬件结构 DSP以高速数字信号处理为目标进行芯片设计，采用改进的哈佛结构(程序总线和数据总线分开)、内部具有硬件乘法器、应用流水线技术、具有良好的并行性和专门用于数字信号处理的指令及超长指令字结构(VLIW)等特点；能完成运算量大的实时数字图像处理工作。 TMS320DM642是TI公式最近推出的功能比较强大的TMS320C6x系列之一，是目前定点DSP领域里性能较高的一款[6]。其主频是600MHz，8个并行运算单元、专用硬件逻辑、片内存储器和片内外设电路等硬件，处理能力可达4800MIPS。DM642基于C64x内核，并在其基础上增加了很多外围设备和接口，因而在实际工程中的应用更为广泛和简便。本系统使用50 MHz晶体震荡器作为DSP的外部时钟输入，经过内部锁相环12倍频后产生600 MHz的工作频率。DM642采用了2级缓存结构(L1和L2)，大幅度提高了程序的运行性能。片内64位的EMIF(External Memory Interface)接口可以与SDRAM、Flash等存储器件无缝连接，极大地方便了大量数据的搬移。更重要的是，作为一款专用视频处理芯片，DM642包括了3个专用的视频端口(VP0～VP2)，用于接收和处理视频，提高了整个系统的性能。此外，DM642自带的EMAC口以及从EMIF 口扩展出来的ATA口，还为处理完成后产生的海量数据提供了存储通道。本系统是采用瑞泰公司开发的基于TI TMS320DM642 DSP芯片的评估开发板——ICETEK DM642 PCI。在ICETEK DM642 PCI评估板中将硬件平台分为五个部分，分别是视频采集、数据存储、图像处理、结果显示和电源管理。视频采集部分采用模拟PAL制摄像头，配合高精度视频A/D转换器得到数字图像。基于DSP的视频采集要求对视频信号具备采集，实时显示、对图像的处理和分析能力。视频A/D采样电路—SAA7115与视频端口0或1相连，实现视频的实时采集功能。视频D/A电路—SAA7105与视频口2相连，视频输出信号支持RGB、HD合成视频、PAL/NTSC复合视频和S端子视频信号。通过I2C总线对SAA7105的内部寄存器编程实现不同输出。整个系统过程由三个部分组成：图像采集—边缘处理—输出显示，如图2所示。摄像头采集的视频信号经视频编码器SAA7115数字化，DM642通过I2C总线对SAA7115进行参数配置。在SAA7115内部进行一系列的处理和变换后形成的数字视频数据流，输入到核心处理单元DM642。经过DSP处理后的数字视频再经过SAA7105视频编码器进行D/A转换后在显示器上显示最终处理结果。3.2 图像处理的软件设计和算法优化的实现由于在改进Sobel边缘检测算子性能的同时，也相对增加了计算量，尤其是方向模板的增加，每个像素点均由原来的2次卷积运算增加为8次卷积运算，其实时性大大减弱。为了改进上述的不足，在深入研究处理系统和算法后，针对TMS320DM642的硬件结构特点，研究适合在TMS320DM642中高效运行的Sobel改进算法，满足实时处理的要求。整个程序的编写和调试按照C6000软件开发流程进行，流程分为：产生C代码、优化C代码和编写线性汇编程序3个阶段。使用的工具是TI的集成开发环境CCS。在CCS下，可对软件进行编辑、编译、调试、代码性能测试等工作。在使用C6000编译器开发和优化C代码时[7-8]，对C代码中低效率和需要反复调用的函数需用线性汇编重新编写，再用汇编优化器优化。整个系统的控制以及数字图像处理是用C程序实现，大部分软件设计采用C程序实现，这无疑提高了程序的可读性和可移植性，而汇编程序主要是实现DM642的各部分初始化。其边缘检测优化算法在DM642中的实现步骤具体如下： S1：根据DM642的硬件结构要求和控制寄存器设置，初始化系统并编写实现边缘检测算法的C程序。 S2：借助CCS开发环境的优化工具如Profiler等产生.OUT文件。 S3：根据产生的附件文件如.MAP文件，分析优化结果及源程序结构，进一步改进源程序和优化方法。 S4：使用CCS中调试、链接、运行等工具，再生成.OUT可执行文件。 S5：运行程序，如果满足要求则停止；否则重复步骤S2～S4直至满足使用要求。4 实验结果本文以Lena图像为例根据上述的硬件环境和算法实现的原理和方法，图4～图6分别给出了在该系统下采集的视频Lena图像及使用边缘检测算子和改进后处理的结果。由实验结果可以看出，在该系统下能实时完成视频图像的处理，并且给出的边缘检测算子能较好的消除噪声的影响，边缘轮廓清晰。该算法不仅能抑制图像中大部分噪声和虚假边缘，还保证了较高的边缘点位精度。图4 Lena原始图像图5 传统Sobel算子图6 改进Sobel算子5 总结本文实现了在TMS320DM642评估板上用改进的Sobel算子对实时图像进行边缘检测，无延迟地得到边缘图像。边缘检测效果较好，既提高了图像检测的精度又满足了实时性的要求。从检测结果看，利用该改进后的算子在边缘精确定位、边缘提取都达到了很好的效果，且抗噪声能力强，并为目标跟踪、无接触式检测、自动驾驶、视频监控等领域的应用提供了坚实的基础。参考文献[1] 王磊等. 基于Sobel理论的边缘提取改善方法[J]．中国图像图形学报，2005.10[2] 陈宏席. 基于保持平滑滤波的Sobel算子边缘检测.兰州交通大学学报，2006，25(1)：86—90[3] 熊伟. 基于TMS320DM642的多路视频采集处理板卡硬件设计与实现[ M]. 国外电子元器件，2006[4] 朱立.一种具有抗噪声干扰的图像边缘提取算法的研究[J]．电子技术应用.2004，25(1)[5] 刘松涛，周晓东.基于TMS320C6201的实时图像处理系统[J].计算机工程，2005(7)：17—23[6] TI TMS320DM642 video/imaging fixed-point digital signal processor data manual，2003[7] TMS320C6x Optimizing C Compiler User’s Guide’ TEXAS INSTRUMENTS”，2002[8] TMS320C32x Optimizing C/C++ Compiler User's Guide，Texas Instruments Incorporated，2001

随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文，欢迎阅读!

图像识别技术研究综述

摘要：随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解，由于图像在成像时受到外部环境的影响，使得图像具有特殊性，复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词：图像处理;图像识别;成像

中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像，是人类最重要的信息源，它是通过各种观测系统从客观世界中获得，具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展，图像处理技术的应用也越来越广泛，并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段，比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等，在这些应用中，都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理，着重强调图像与图像之间进行的交换，主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性，使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析，以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理，而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声，将原始图像编程适于计算机进行特征提取的形式，主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集，图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像，也包括一些动态图像，并可以将其转为数字图像，和文字、图形、声音一起存储在计算机内，显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强，图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化，数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分，使图像的主体结构更加明确，必须对图像进行改善，即图像增强。通过图像增强，以减少图像中的图像的噪声，改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量，使图像中的物体的轮廓更加清晰，细节更加明显。图像增强不考虑图像降质的原因，增强后的图像更加赏欣悦目，为后期的图像分析和图像理解奠定基础。

3)图像复原，图像复原也称图像恢复，由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊，为了提取比较清晰的图像需要对图像进行恢复，图像恢复主要采用滤波方法，从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建，该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩，数字图像的显著特点是数据量庞大，需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频，那么必须对图像进行编码和压缩。目前，图像压缩编码已形成国际标准，如比较著名的静态图像压缩标准JPEG，该标准主要针对图像的分辨率、彩色图像和灰度图像，适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列，因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术，图像分割是把图像分成一些互不重叠而又具有各自特征的子区域，每一区域是像素的一个连续集，这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位，然后把目标从背景中分离出来。目前，图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰，使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述，描述是用数字或者符号表示图像或景物中各个目标的相关特征，甚至目标之间的关系，最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时，可以采用模板匹配模型。在某些具体的应用中，图像识别除了要给出被识别对象是什么物体外，还需要给出物体所处的位置和姿态以引导计算初工作。目前，图像识别技术已广泛应用于多个领域，如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有：

2.1 指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段，主要应用于身份验证。指纹识别是生物特征的一个部分，它具有不变性：一个人的指纹是终身不变的;唯一性：几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前，指纹识别技术与我们的现实生活紧密相关，如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

2.2 人脸识别目前大多数人脸识别系统使用可见光或红外图像进行人脸识别，可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下，其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响，但由于红外线不能穿透玻璃，如果待识别的对象戴有眼镜，那么在图像识别时，眼部信息全部丢失，将严重影响人脸识别的性能[4]。

2.3 文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术，可以自动地把文字和其他信息分离出来，通过智能识别后输入计算机，用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档，如银行票据、文稿、各类公式和符号等自动录入，可以提供文字的处理效率，有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样，使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事，但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下，图像识别技术取得了一定的成功，但在复杂的环境下，仍面临着许多问题：如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准，以及算法本身存在一定的局限性，这使得图像识别的最终结果不十分精确等。

参考文献：

[1] 胡爱明，周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用，2003，39(7)：90—91.

[2] 胡学龙.数字图像处理[M].北京：电子工业出版社，2011.

[3] 范立南，韩晓微，张广渊.图像处理与模式识别[M].北京：科学出版社，2007.

[4] 晓慧，刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用，2009，1(29)：8.

[5] 陈良育，曾振柄，张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用，2005，25(7)：1629-1631.

[6] Sanderson C，Paliwal K K.Information Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33，Martigny，Swizerland，2002.

点击下页还有更多>>>图像识别技术论文

这两天在公司做PM实习，主要是自学一些CV的知识，以了解产品在解决一些在图像识别、图像搜索方面的问题，学习的主要方式是在知网检索了6.7篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系，后面还会继续更新图片相似度计算（以图搜图）等方面的学习成果将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题（主要是卷积神经网络CNNs）的基础过程和原理，但这里不会深入到技术的实现层面。

计算机视觉（Computer vision）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图像处理，用计算机处理成为更适合人眼观察或传送给仪器检测的图像。 ————维基百科通常而言，计算机视觉的研究包括三个层次：（1）底层特征的研究：这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征，具体的研究内容通常包括：物体识别、字符识别等（2）中层语义特征的研究：该层次的研究在于在识别出对象的基础上，对其位置、边缘等信息能够准确区分。现在比较热门的：图像分割；语义分割；场景标注等，都属于该领域的范畴（3）高层语义理解：这一层次建立在前两层的基础上，其核心在于“理解”一词。目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于：场景识别、图像摘要生成及图像语义回答等。而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。

人类的视觉工作模式是这样的：首先，我们大脑中的神经元接收到大量的信息微粒，但我们的大脑还并不能处理它们。于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。接着，无数条线又整合成一个个轮廓。最后多个轮廓累加终于聚合我们现在眼前看到的样子。计算机科学受到神经科学的启发，也采用了类似的工作方式。具体而言，图像识别问题一般都遵循下面几个流程

（1）获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在（2）数据预处理工作，在图像识别领域主要包括四个方面的技术：去噪处理（提升信噪比）、图像增强和图像修复（主要针对不够清晰或有破损缺失的图像）；归一化处理（一方面是为了减少开销、提高算法的性能，另一方面则是为了能成功使用深度学习等算法，这类算法必须使用归一化数据）。（3）特征提取，这一点是该领域的核心，也是本文的核心。图像识别的基础是能够提取出足够高质量，能体现图像独特性和区分度的特征。过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法，如PCA\LCA等来提取一些人工设计的特征，主要的方法有（HOG、LBP以及十分著名的SIFT算法）。但是这些方法普遍存在（a）一般基于图像的一些提层特征信息（如色彩、纹理等）难以表达复杂的图像高层语义，故泛化能力普遍比较弱。（b）这些方法一般都针对特定领域的特定应用设计，泛化能力和迁移的能力大多比较弱。另外一种思路是使用BP方法，但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题（每个元素都要负责底层的所有参数），另外也不能根据样本对训练过程进行优化，实在是费时又费力。因此，一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中，以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线，由于其使用权重共享和特征降采样，充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中，目前使用较多又最为主流的是CNN算法，在第四部分主要也研究CNN方法的机理。

上图是一个简易的神经网络，只有一层隐含层，而且是全连接的（如图，上一层的每个节点都要对下一层的每个节点负责。）具体神经元与神经元的作用过程可见下图。

在诸多传统的神经网络中，BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是：导入训练样本、计算期望值和实际值之间的差值，不断地调整权重，使得误差减少的规定值的范围内。其具体过程如下图：

一般来说，机器学习又分成浅层学习和深度学习。传统的机器学习算法，如SVM、贝叶斯、神经网络等都属于浅层模型，其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。如果是有多个隐含层的多层神经网络（一般定义为大于5层），那么我们将把这个模型称为深度学习，其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够，特别是在复杂问题分类情况上容易出现分类不足的弊端，深度网络的优势则在于其多层的架构可以分层表示逻辑，这样就可以用简单的方法表示出复杂的问题，一个简单的例子是：如果我们想计算sin(cos(log(exp(x))))，那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)

图像识别问题是物体识别的一个子问题，其鲁棒性往往是解决该类问题一个非常重要的指标，该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了：（1）噪音（2）尺度变化（3）旋转（4）光线变化（5）位移

该部分具体的内容，想要快速理解原理的话推荐看[知乎相关文章] ( )，特别是其中有些高赞回答中都有很多动图和动画，非常有助于理解。但核心而言，CNN的核心优势在于共享权重以及感受野，减少了网络的参数，实现了更快的训练速度和同样预测结果下更少的训练样本，而且相对于人工方法，一般使用深度学习实现的CNN算法使用无监督学习，其也不需要手工提取特征。

CNN算法的过程给我的感觉，个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性：局部感知、权重共享和池化。

CNN中的神经元主要分成了两种：（a）用于特征提取的S元，它们一起组成了卷积层，用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数（控制输出对输入的反映敏感度）和感受野参数（决定了从输入层中提取多大的空间进行输入，可以简单理解为擦玻璃的抹布有多大）（b）抗形变的C元，它们一起组成了池化层，也被称为欠采样或下采样。主要用于特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性。（c*）激活函数，及卷积层输出的结果要经过一次激励函数才会映射到池化层中，主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。

也许你会抱有疑问，CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到，一个全连接中，较高一层的每个神经元要对低层的每一个神经元负责，从而导致了过拟合和维度灾难的问题。但是有了区域感受野和，每个神经元只需要记录一个小区域，而高层会把这些信息综合起来，从而解决了全连接的问题。

了解区域感受野后，你也许会想，区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢，这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图，下面给大家一个很直观的理解。

上面的这个过程就被称为一个卷积核。在实际应用中，单特征不足以被系统学习分类，因此我们往往会使用多个滤波器，每个滤波器对应1个卷积核，也对应了一个不同的特征。比如：我们现在有一个人脸识别应用，我们使用一个卷积核提取出眼睛的特征，然后使用另一个卷积核提取出鼻子的特征，再用一个卷积核提取出嘴巴的特征，最后高层把这些信息聚合起来，就形成了分辨一个人与另一个人不同的判断特征。

现在我们已经有了区域感受野，也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题：给一个100 100的参数空间，假设我们的感受野大小是10 10，那么一共有squar（1000-10+1）个，即10的六次方个感受野。每个感受野中就有100个参数特征，及时每个感受野只对应一个卷积核，那么空间内也会有10的八次方个次数，，更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数，这就引出了权重共享的概念。用一句话概括就是，对同一个特征图，每个感受野的卷积核是一样的，如这样操作后上例只需要100个参数。

池化是CNN技术的最后一个特性，其基本思想是：一块区域有用的图像特征，在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据，但往往相邻的边缘具有相似的特性，就好像我们已经得到了一个强边缘，再拥有大量相似的次边缘特征其实是没有太大增量价值的，因为这样会使得系统里充斥大量冗余信息消耗计算资源。具体而言，池化层把语义上相似的特征合并起来，通过池化操作减少卷积层输出的特征向量，减少了参数，缓解了过拟合问题。常见的池化操作主要包括3种：分别是最大值池化（保留了图像的纹理特征）、均值池化（保留了图像的整体特征）和随机值池化。该技术的弊端是容易过快减小数据尺寸，目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法，原因是池化会带来一定程度上表征的位移不变性，传统观点认为这是一个优势，但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息，利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征，有望冲破目前卷积网络构架的瓶颈。

CNN总体来说是一种结构，其包含了多种网络模型结构，数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外，CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。

该部分的核心参考文献：《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36. 深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势，在这里首先对深度学习的基本概念作一简介，其次对深度学习常用的结构模型进行概述说明，主要简述了深度信念网络（DBN）、卷积神经网络（CNN）、循环神经网络（RNN）、生成式对抗网络（GAN）、胶囊网络（CapsNet）以及对各个深度模型的改进模型做一对比分析。

深度学习按照学习架构可分为生成架构、判别架构及混合架构。其生成架构模型主要包括：受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括：深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括：受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。监督学习方法主要包括：深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明，监督学习与非监督学习之间无明确的界限，如：深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。

[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019. [2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. [3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017. [4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017. [5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017. [6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [8]CSDN、知乎、机器之心、维基百科

图像识别算法研究论文

网上搜搜国外有一些demo程序，方便你入门。图像边缘提取常用的边缘检测算子有梯度算子、Roberts算子、Sobel算子、Prewitt算子、Canny算子不过单用效果不好。不知道你是什么语言的车牌识别，建议用梯度算子。江苏视图科技专业图像识别，图片识别率高达98%以上。

如果是单纯的车牌识别算法的话建议matlab中文论坛有3份1、贵州版本2、广西版本3、老衲版本（已经发了，其他的你去论坛下载吧

图像识别的研究生论文

基于具有复杂背景的图片的内容的检索

随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文，欢迎阅读!

图像识别技术研究综述

关键词：图像处理;图像识别;成像

中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2013)10-2446-02

1 图像处理技术

2 图像识别技术

2.1 指纹识别

2.3 文字识别

3 结束语

参考文献：

[1] 胡爱明，周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用，2003，39(7)：90—91.

[2] 胡学龙.数字图像处理[M].北京：电子工业出版社，2011.

[3] 范立南，韩晓微，张广渊.图像处理与模式识别[M].北京：科学出版社，2007.

[4] 晓慧，刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用，2009，1(29)：8.

[5] 陈良育，曾振柄，张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用，2005，25(7)：1629-1631.

[6] Sanderson C，Paliwal K K.Information Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33，Martigny，Swizerland，2002.

点击下页还有更多>>>图像识别技术论文

因为你这个背景较淡，所以彩色物体在OSTU阈值分割中和背景能够分开，色彩就不用考虑了。要是阈值分割不能突出彩色物体，就得先边缘检测，连通。下面是你的程序clear;clc;close allI=imread('1.jpg');I_gray=rgb2gray(I);level=graythresh(I_gray);[height,width]=size(I_gray);I_bw=im2bw(I_gray,level);for i=1:height %%循环中进行反色for j=1:width if I_bw(i,j)==1 I_bw(i,j)=0; else I_bw(i,j)=1; end endend[L,num]=bwlabel(I_bw,8);plot_x=zeros(1,num);%%用于记录质心位置的坐标plot_y=zeros(1,num);for k=1:num %%num个区域依次统计质心位置 sum_x=0;sum_y=0;area=0; for i=1:height for j=1:width if L(i,j)==k sum_x=sum_x+i; sum_y=sum_y+j; area=area+1; end end end plot_x(k)=fix(sum_x/area); plot_y(k)=fix(sum_y/area);endfigure(1);imshow(I_bw);for i=1:numhold onplot(plot_y(i) ,plot_x(i), '*')end

主要应用领域图像识别技术可能是以图像的主要特征为基础的，每个图像都有它的特征。在人类图像识别系统中，对复杂图像的识别往往要通过不同层次的信息加工才能实现。图像识别技术是立体视觉、运动分析、数据融合等实用技术的基础，在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域可广泛应用。遥感图像识别航空遥感和卫星遥感图像通常用图像识别技术进行加工以便提取有用的信息。该技术目前主要用于地形地质探查，森林、水利、海洋、农业等资源调查，灾害预测，环境污染监测，气象卫星云图处理以及地面军事目标识别等。军事刑侦图像识别技术在军事、公安刑侦方面的应用很广泛，例如军事目标的侦察、制导和警戒系统；自动灭火器的控制及反伪装；公安部门的现场照片、指纹、手迹、印章、人像等的处理和辨识；历史文字和图片档案的修复和管理等等。生物医学图像识别在现代医学中的应用非常广泛，它具有直观、无创伤、安全方便等特点。

图像识别技术的研究论文

一、CCD图像传感器CCD（ChargedCoupledDevice）于1969年在贝尔试验室研制成功，之后由日本开始批量生产，经过30多年的发展历程，从初期的10多万像素已经发展至今天主流应用的500万像素。CCD类型又可分为线阵（Linear）与面阵（Area）两种，其中线阵应用于影像扫描器及传真机上，面阵型多应用于数码相机、摄录影机、监视摄影机等多项影像输入产品上。目前CCD像元数已从100万像元提高到2000万像元以上，大面阵、小像元（感光小单元简称）的CCD摄像机层出不穷。随着超大规模微加工技术的发展，CCD传感器的分辨率将越来越高。CCD是固态图像传感器的一类，即电荷耦合式图像传感器，固态图像传感器是指将布设在半导体衬底上许多能实现光-电信号转换的小单元，用所控制的时钟脉冲实现读取的一类功能器件。图像传感器作为一种基础器件，因能实现信息的获取、转换和视觉功能的扩展，并能给出直观、真实、层次多、内容丰富的可视图像信息在现代社会中得到了越来越广泛地应用。二、图像识别系统定位的工作原理在现实生活中，人们可以很容易的“看到”一幅画面，但这一个十分“简单”过程并非如此简单。深入研究大致分为：成像在视网膜上；其次是大脑对图像进行认识、理解和分析；最后根据上述一系列处理的结果做出反应。由于图像识别系统基本上是摸仿了人对事物的认识过程，图像识别系统定位是采用了CCD摄像机（如同人的眼睛）通过透镜收集并聚焦来自目标的反射光线，借助必要的光学系统将此光投射于CCD光敏面上的光的空间分布信息转换为按时序输出的电信号—视频图像信号，可以在监视器上重现图像。

图像识别是立体视觉、运动分析、数据融合等实用技术的基础，可应用于导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域1.遥感图像识别2.通讯领域的应用3.指纹、手迹、印章、人像等的处理和辨识；历史文字和图片档案的修复和管理等等。4.生物医学图像识别例如CT(Computed Tomography)技术等。5.3D图像的识别江苏视图科技，专业图像识别，主要应用方向是手机拍照购物，互动营销，美术馆和博物馆的手机导览增值服务，目录销售，网站商品相似搜索等等。

图像识别技术是信息时代的一门重要的技术，其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展，人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。简单分析了图像识别技术的引入、其技术原理以及模式识别等，之后介绍了神经网络的图像识别技术和非线性降维的图像识别技术及图像识别技术的应用。从中可以总结出图像处理技术的应用广泛，人类的生活将无法离开图像识别技术，研究图像识别技术具有重大意义。一、图像识别技术的引入图像识别是人工智能的一个重要领域。图像识别的发展经历了三个阶段：文字识别、数字图像处理与识别、物体识别。图像识别，顾名思义，就是对图像做出各种处理、分析，最终识别我们所要研究的目标。今天所指的图像识别并不仅仅是用人类的肉眼，而是借助计算机技术进行识别。虽然人类的识别能力很强大，但是对于高速发展的社会，人类自身识别能力已经满足不了我们的需求，于是就产生了基于计算机的图像识别技术。这就像人类研究生物细胞，完全靠肉眼观察细胞是不现实的，这样自然就产生了显微镜等用于精确观测的仪器。通常一个领域有固有技术无法解决的需求时，就会产生相应的新技术。图像识别技术也是如此，此技术的产生就是为了让计算机代替人类去处理大量的物理信息，解决人类无法识别或者识别率特别低的信息。1、图像识别技术原理其实，图像识别技术背后的原理并不是很难，只是其要处理的信息比较繁琐。计算机的任何处理技术都不是凭空产生的，它都是学者们从生活实践中得到启发而利用程序将其模拟实现的。计算机的图像识别技术和人类的图像识别在原理上并没有本质的区别，只是机器缺少人类在感觉与视觉差上的影响罢了。人类的图像识别也不单单是凭借整个图像存储在脑海中的记忆来识别的，我们识别图像都是依靠图像所具有的本身特征而先将这些图像分了类，然后通过各个类别所具有的特征将图像识别出来的，只是很多时候我们没有意识到这一点。当看到一张图片时，我们的大脑会迅速感应到是否见过此图片或与其相似的图片。其实在“看到”与“感应到”的中间经历了一个迅速识别过程，这个识别的过程和搜索有些类似。在这个过程中，我们的大脑会根据存储记忆中已经分好的类别进行识别，查看是否有与该图像具有相同或类似特征的存储记忆，从而识别出是否见过该图像。机器的图像识别技术也是如此，通过分类并提取重要特征而排除多余的信息来识别图像。机器所提取出的这些特征有时会非常明显，有时又是很普通，这在很大的程度上影响了机器识别的速率。总之，在计算机的视觉识别中，图像的内容通常是用图像特征进行描述。2、模式识别模式识别是人工智能和信息科学的重要组成部分。模式识别是指对表示事物或现象的不同形式的信息做分析和处理从而得到一个对事物或现象做出描述、辨认和分类等的过程。计算机的图像识别技术就是模拟人类的图像识别过程。在图像识别的过程中进行模式识别是必不可少的。模式识别原本是人类的一项基本智能。但随着计算机的发展和人工智能的兴起，人类本身的模式识别已经满足不了生活的需要，于是人类就希望用计算机来代替或扩展人类的部分脑力劳动。这样计算机的模式识别就产生了。简单地说，模式识别就是对数据进行分类，它是一门与数学紧密结合的科学，其中所用的思想大部分是概率与统计。模式识别主要分为三种：统计模式识别、句法模式识别、模糊模式识别。二、图像识别技术的过程既然计算机的图像识别技术与人类的图像识别原理相同，那它们的过程也是大同小异的。图像识别技术的过程分以下几步：信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。信息的获取是指通过传感器，将光或声音等信息转化为电信息。也就是获取研究对象的基本信息并通过某种方法将其转变为机器能够认识的信息。预处理主要是指图像处理中的去噪、平滑、变换等的操作，从而加强图像的重要特征。特征抽取和选择是指在模式识别中，需要进行特征的抽取和选择。简单的理解就是我们所研究的图像是各式各样的，如果要利用某种方法将它们区分开，就要通过这些图像所具有的本身特征来识别，而获取这些特征的过程就是特征抽取。在特征抽取中所得到的特征也许对此次识别并不都是有用的，这个时候就要提取有用的特征，这就是特征的选择。特征抽取和选择在图像识别过程中是非常关键的技术之一，所以对这一步的理解是图像识别的重点。分类器设计是指通过训练而得到一种识别规则，通过此识别规则可以得到一种特征分类，使图像识别技术能够得到高识别率。分类决策是指在特征空间中对被识别对象进行分类，从而更好地识别所研究的对象具体属于哪一类。三、图像识别技术的分析随着计算机技术的迅速发展和科技的不断进步，图像识别技术已经在众多领域中得到了应用。2015年2月15日新浪科技发布一条新闻：“微软最近公布了一篇关于图像识别的研究论文，在一项图像识别的基准测试中，电脑系统识别能力已经超越了人类。人类在归类数据库Image Net中的图像识别错误率为5.1%，而微软研究小组的这个深度学习系统可以达到4.94%的错误率。”从这则新闻中我们可以看出图像识别技术在图像识别方面已经有要超越人类的图像识别能力的趋势。这也说明未来图像识别技术有更大的研究意义与潜力。而且，计算机在很多方面确实具有人类所无法超越的优势，也正是因为这样，图像识别技术才能为人类社会带来更多的应用。1、神经网络的图像识别技术神经网络图像识别技术是一种比较新型的图像识别技术，是在传统的图像识别方法和基础上融合神经网络算法的一种图像识别方法。这里的神经网络是指人工神经网络，也就是说这种神经网络并不是动物本身所具有的真正的神经网络，而是人类模仿动物神经网络后人工生成的。在神经网络图像识别技术中，遗传算法与BP网络相融合的神经网络图像识别模型是非常经典的，在很多领域都有它的应用。在图像识别系统中利用神经网络系统，一般会先提取图像的特征，再利用图像所具有的特征映射到神经网络进行图像识别分类。以汽车拍照自动识别技术为例，当汽车通过的时候，汽车自身具有的检测设备会有所感应。此时检测设备就会启用图像采集装置来获取汽车正反面的图像。获取了图像后必须将图像上传到计算机进行保存以便识别。最后车牌定位模块就会提取车牌信息，对车牌上的字符进行识别并显示最终的结果。在对车牌上的字符进行识别的过程中就用到了基于模板匹配算法和基于人工神经网络算法。2、非线性降维的图像识别技术计算机的图像识别技术是一个异常高维的识别技术。不管图像本身的分辨率如何，其产生的数据经常是多维性的，这给计算机的识别带来了非常大的困难。想让计算机具有高效地识别能力，最直接有效的方法就是降维。降维分为线性降维和非线性降维。例如主成分分析（PCA）和线性奇异分析（LDA）等就是常见的线性降维方法，它们的特点是简单、易于理解。但是通过线性降维处理的是整体的数据集合，所求的是整个数据集合的最优低维投影。经过验证，这种线性的降维策略计算复杂度高而且占用相对较多的时间和空间，因此就产生了基于非线性降维的图像识别技术，它是一种极其有效的非线性特征提取方法。此技术可以发现图像的非线性结构而且可以在不破坏其本征结构的基础上对其进行降维，使计算机的图像识别在尽量低的维度上进行，这样就提高了识别速率。例如人脸图像识别系统所需的维数通常很高，其复杂度之高对计算机来说无疑是巨大的“灾难”。由于在高维度空间中人脸图像的不均匀分布，使得人类可以通过非线性降维技术来得到分布紧凑的人脸图像，从而提高人脸识别技术的高效性。 3、图像识别技术的应用及前景计算机的图像识别技术在公共安全、生物、工业、农业、交通、医疗等很多领域都有应用。例如交通方面的车牌识别系统；公共安全方面的人脸识别技术、指纹识别技术；农业方面的种子识别技术、食品品质检测技术；医学方面的心电图识别技术等。随着计算机技术的不断发展，图像识别技术也在不断地优化，其算法也在不断地改进。图像是人类获取和交换信息的主要来源，因此与图像相关的图像识别技术必定也是未来的研究重点。以后计算机的图像识别技术很有可能在更多的领域崭露头角，它的应用前景也是不可限量的，人类的生活也将更加离不开图像识别技术。结束语图像识别技术虽然是刚兴起的技术，但其应用已是相当广泛。并且，图像识别技术也在不断地成长，随着科技的不断进步，人类对图像识别技术的认识也会更加深刻。未来图像识别技术将会更加强大，更加智能地出现在我们的生活中，为人类社会的更多领域带来重大的应用。在21世纪这个信息化的时代，我们无法想象离开了图像识别技术以后我们的生活会变成什么样。图像识别技术是人类现在以及未来生活必不可少的一项技术。

图像分割是图像处理与计算机视觉的基本问题之一，是图像处理图像分析的关键步骤。我整理了图像分割技术论文，欢迎阅读!

图像分割技术研究

摘要：图像分割是图像处理与计算机视觉的基本问题之一，是图像处理图像分析的关键步骤。本文介绍了基于阈值的分割方法和图像分割的图像分割性能的评价、应用现状;最后总结出图像分割的发展趋势。

关键词：图像分割、阈值、边缘检测、区域分割

中图分类号： TN957.52 文献标识码： A

1引言

随着图像分割技术研究的深入，其应用日趋广泛。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。图像分割是图像处理、模式识别和人工智能等多个领域中一个十分重要且又十分困难的问题，是计算机视觉技术中首要的、重要的关键步骤。图像分割结果的好坏直接影响对计算机视觉中的图像理解。现有的方法多是为特定应用设计的，有很大的针对性和局限性，到目前为止还不存在一个通用的方法，也不存在一个判断分割是否成功的客观标准。因此，对图像分割的研究目前还缺乏一个统一的理论体系，使得图像分割的研究仍然是一个极富有挑战性的课题。

2图像分割方法

图像分割(Image Segmentation)，简单地说就是将一幅数字图像分割成不同的区域，在同一区域内具有在一定的准则下可认为是相同的性质，如灰度、颜色、纹理等。而任何相邻区域之间其性质具有明显的区别。

2.1基于灰度特征的阈值分割方法

阈值分割技术是经典的、流行的图象分割方法之一，它是用一个或几个阈值将图像的灰度级分为几个部分，认为属于同一个部分的像素是同一个物体。

这类方法主要包括以下几种：

(1)单阈值法，用一个全局阈值区分背景和目标。当一幅图像的直方图具有明显的双峰时，选择两峰之间的谷底作为阈值。

(2)双阈值法，用两个阈值区分背景和目标。通过设置两个阈值，以防单阈值设置阈值过高或过低，把目标像素误归为背景像素，或把背景像素误归为目标像素。

(3)多阈值法，当存在照明不均，突发噪声等因素或背景灰度变化较大时，整幅图像不存在合适的单一阈值，单一阈值不能兼顾图像不同区域的具体情况，这时可将图像分块处理，对每一块设一个阈值。

2.2 边缘检测分割法

基于边缘检测技术可以按照处理的顺序分为并行边缘检测和串行边缘检测两大类。常见的边缘检测方法有：差分法、模板匹配法及统计方法等。由于边缘灰度变化规律一般体现为阶梯状或者脉冲状。边缘与差分值的关系可以归纳为两种情况，其一是边缘发生在差分最大值或者最小值处;其二是边缘发生在过零处。

2.3基于区域的分割方法

基于区域的分割方法利用的是图像的空间性质。该方法认为分割出来的某一区域具有相似的性质。常用的方法有区域生长法和区域分裂合并法。该类方法对含有复杂场景或自然景物等先验知识不足的图像进行分割，效果较好。

区域生长方法是把一幅图像分成许多小区域开始的，这些初始的小区域可能是小的邻域甚至是单个像素，在每个区域中，通过计算能反映一个物体内像素一致性的特征，作为区域合并的判断标准。区域合并的第一步是赋给每个区域一组参数，即特征。接下来对相邻区域的所有边界进行考查，如果给定边界两侧的特征值差异明显，那么这个边界很强，反之则弱。强边界允许继续存在，而弱边界被消除，相邻区域被合并。没有可以消除的弱边界时，区域合并过程结束，图像分割也就完成。

2.4结合特定工具的图像分割技术

20世纪80年代末以来，随着一些特殊理论的出现及其成熟，如数学形态学、分形理论、模糊数学、小波分析、模式识别、遗传算法等，大量学者致力于将新的概念、新的方法用于图像分割，有效地改善了分割效果。产生了不少新的分割算法。下面对这些算法做一些简单的概括。

2.4.1基于数学形态学的分割算法

分水岭算法是一种经典的借鉴了数学形态理论的分割方法。该方法中，将一幅图像比为一个具有不同高度值的地形，高灰度值处被认为是山脊，底灰度值处被认为是山谷，将一滴水从任一点流下，它会朝地势底的地方流动，最终聚于某一局部最底点，最后所有的水滴会分聚在不同的吸引盆地，由此，相应的图像就被分割成若干部分。分水岭算法具有运算简单、性能优良，能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息，对噪声较敏感。

2.4.2基于模糊数学的分割算法

目前，模糊技术在图像分割中应用的一个显著特点就是它能和现有的许多图像分割方法相结合，形成一系列的集成模糊分割技术，例如模糊聚类、模糊阈值、模糊边缘检测技术等。

这类方法主要有广义模糊算子与模糊阈值法两种分割算法。

(1)广义模糊算子在广义模糊集合的范围内对图像处理，使真正的边缘处于较低灰度级，但还有一些不是边缘的像素点的灰度也在较低灰度级中，虽然算法的计算简明，且边缘细腻，但得到的边缘图会出现断线问题。

(2)模糊阈值法引入灰度图像的模糊数学描述，通过计算图像的模糊熵来选取图像的分割阈值，后用阈值法处理图像得到边界。

2.4.3基于遗传算法的分割方法

此算法是受生物进化论思想提出的一种优化问题的解决方法，它使用参数编码集而不是参数本身，通过模拟进化，以适者生存的策略搜索函数的解空间，它是在点群中而不是在单点进行寻优。遗传算法在求解过程中使用随机转换规则而不是确定性规则来工作，它唯一需要的信息是适应值，通过对群体进行简单的复制、杂交、变异作用完成搜索过程。由于此法能进行能量函数全局最小优化搜索，且可以降低搜索空间维数，降低算法对模板初始位置的敏感，计算时间也大为减少。其缺点是容易收敛于局部最优。

2.4.4基于神经网络分割算法

人工神经网络具有自组织、自学习、自适应的性能和非常强的非线性映射能力，适合解决背景知识不清楚、推理规则不明确和比较复杂的分类问题，因而也适合解决比较复杂的图像分割问题。原则上讲，大部分分割方法都可用 ANN(attificial neural network)实现。ANN 用于分割的研究起步较晚，只有多层前馈NN，多层误差反传(BP)NN，自组织NN，Hopfield NN以及满足约束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了应用。使用一个多层前向神经网络用于图象分割，输入层神经元的数目取决于输入特征数，而输出层神经元的数目等同于分类的数目。

2.5图像分割中的其他方法

前面介绍了4大类图像分割较常用的方法，有关图像分割方法和文献很多，新方法不断产生，这些方法有的只对特定的情形有效，有的综合了几种方法，放在一起统称为第5类。

(1)标号法(labeling)是一种基于统计学的方法，这种方法将图像欲分割成的几个区域各以一个不同的标号来表示，用一定的方式对图像中的每一个像素赋以标号，标号相同的像素就合并成该标号所代表的区域。

(2)基于Snak模型的分割方法，基于Snake模型的分割是通过对能量函数的动态优化来逼近图像目标的真实轮廓的

(3)纹理分割，由于新的数学工具的引入，纹理分割技术取得了一些进展，张蓬等人将小波分析应用于纹理基元提取。

(4)基于知识的图像分割方法，直接建立在先验知识的基础上，使分割更符合实际图像的特点。该方法的难度在于知识的正确合理的表示与利用。

3图像分割性能的评价

图像分割评价主要有两个方面的内容：一是研究各分割算法在不同情况下的表现，掌握如何选择和控制其参数设置，以适应不同需要。二是分析多个分割算法在分割同一图像时的性能，比较优劣，以便在实际应用中选取合适的算法。分割评价方法分为分析法和实验法两大类。分析法是直接分析分割算法本身的原理及性能，而实验法是通过对测试图像的分割结果来评价算法的。两种方法各有优劣，由于缺乏可靠理论依据，并非所有分割算法都能够通过分析法分析其性能。每种评价方法都是出于某种考虑而提出来的，不同的评价方法只能反映分割算法性能的某一性能。另一方面，每一种分割算法的性能是由多种因素决定的，因此，有可能需要多种准则来综合评价。

4图像分割技术的发展趋势

随着神经网络、遗传算法、统计学理论、小波理论以及分形理论等在图像分割中的广泛应用，图像分割技术呈现出以下的发展趋势：(1)多种特征的融合。(2)多种分割方法的结合。(3)新理论与新方法。

参考文献

[1] [美]RC冈萨雷斯.数字图像处理(第二版)[M].阮秋琦，等译.北京：电子工业出版社，2003

[2] 章毓晋.图像分割[M].北京：科学出版社，2001.

[3] 李弼程，彭天强，彭波等.智能图像处理技术[M].北京：电子工业出版社，2004.

[4] 杨晖，曲秀杰.图像分割方法综述[J].电脑开发与应用。2005，18(3)：21-23.

点击下页还有更多>>>图像分割技术论文

基于图像识别的运动目标检测论文

数字图像处理方面了解的了。

图像处理是利用计算机对图像信息进行加工以满足人的视觉心理或者应用需求的行为，应用广泛，多用于测绘学、大气科学、天文学、美图、使图像提高辨识等。学术堂在这里为大家整理了一些图像处理本科毕业论文题目，希望对你有用。1、基于模糊分析的图像处理方法及其在无损检测中的应用研究2、数字图像处理与识别系统的开发3、关于数字图像处理在运动目标检测和医学检验中若干应用的研究4、基于ARM和DSP的嵌入式实时图像处理系统设计与研究5、基于图像处理技术的齿轮参数测量研究6、图像处理技术在玻璃缺陷检测中的应用研究7、图像处理技术在机械零件检测系统中的应用8、基于MATLAB的X光图像处理方法9、基于图像处理技术的自动报靶系统研究10、多小波变换及其在数字图像处理中的应用11、基于图像处理的检测系统的研究与设计12、基于DSP的图像处理系统的设计13、医学超声图像处理研究14、基于DSP的视频图像处理系统设计15、基于FPGA的图像处理算法的研究与硬件设计

运动目标检测与跟踪算法研究视觉是人类感知自身周围复杂环境最直接有效的手段之一，而在现实生活中大量有意义的视觉信息都包含在运动中，人眼对运动的物体和目标也更敏感，能够快速的发现运动目标，并对目标的运动轨迹进行预测和描绘。随着计算机技术、通信技术、图像处理技术的不断发展，计算机视觉己成为目前的热点研究问题之一。而运动目标检测与跟踪是计算机视觉研究的核心课题之一，融合了图像处理、模式识别、人工智能、自动控制、计算机等众多领域的先进技术，在军事制导、视觉导航、视频监控、智能交通、医疗诊断、工业产品检测等方面有着重要的实用价值和广阔的发展前景。 1、国内外研究现状 1.1 运动目标检测运动目标检测是指从序列图像中将运动的前景目标从背景图像中提取出来。根据运动目标与摄像机之间的关系，运动目标检测分为静态背景下的运动目标检测和动态背景下的运动目标检测。静态背景下的运动目标检测是指摄像机在整个监视过程中不发生移动；动态背景下的运动目标检测是指摄像机在监视过程中发生了移动，如平动、旋转或多自由度运动等。静态背景静态背景下的运动目标检测方法主要有以下几种：（1）背景差分法背景差分法是目前最常用的一种目标检测方法，其基本思想就是首先获得一个背景模型，然后将当前帧与背景模型相减，如果像素差值大于某一阈值，则判断此像素属于运动目标，否则属于背景图像。利用当前图像与背景图像的差分来检测运动区域，一般能够提供比较完整的特征数据，但对于动态场景的变化，如光照和外来无关事件的干扰等特别敏感。很多研究人员目前都致力于开发不同的背景模型，以减少动态场景变化对运动目标检测的影响。背景模型的建立与更新、阴影的去除等对跟踪结果的好坏至关重要。背景差分法的实现简单，在固定背景下能够完整地精确、快速地分割出运动对象。不足之处是易受环境光线变化的影响，需要加入背景图像更新机制，且只对背景已知的运动对象检测比较有效，不适用于摄像头运动或者背景灰度变化很大的情况。（2）帧间差分法帧间差分法是在连续的图像序列中两个或三个相邻帧间，采用基于像素的时间差分并阈值化来提取图像中的运动区域。帧间差分法对动态环境具有较强的自适应性，但一般不能完全提取出所有相关的特征像素点，在运动实体内部容易产生空洞现象。因此在相邻帧间差分法的基础上提出了对称差分法，它是对图像序列中每连续三帧图像进行对称差分，检测出目标的运动范围，同时利用上一帧分割出来的模板对检测出来的目标运动范围进行修正，从而能较好地检测出中间帧运动目标的形状轮廓。帧间差分法非常适合于动态变化的环境，因为它只对运动物体敏感。实际上它只检测相对运动的物体，而且因两幅图像的时间间隔较短，差分图像受光线变化影响小，检测有效而稳定。该算法简单、速度快，已得到广泛应用。虽然该方法不能够完整地分割运动对象，只能检测出物体运动变化的区域，但所检测出的物体运动信息仍可用于进一步的目标分割。（3）光流法光流法就充分的利用了图像自身所携带的信息。在空间中,运动可以用运动场描述,而在一个图像平面上,物体的运动往往是通过图像序列中图像灰度分布的不同来体现,从而使空间中的运动场转移到图像上就表示为光流场。所谓光流是指空间中物体被观测面上的像素点运动产生的瞬时速度场，包含了物体表面结构和动态行为等重要信息。基于光流法的运动目标检测采用了运动目标随时间变化的光流特性，由于光流不仅包含了被观测物体的运动信息，还携带了物体运动和景物三位结构的丰富信息。在比较理想的情况下,它能够检测独立运动的对象, 不需要预先知道场景的任何信息,可以很精确地计算出运动物体的速度,并且可用于动态场景的情况。但是大多数光流方法的计算相当复杂,对硬件要求比较高, 不适于实时处理,而且对噪声比较敏感,抗噪性差。并且由于遮挡、多光源、透明性及噪声等原因，使得光流场基本方程——灰度守恒的假设条件无法满足，不能正确求出光流场，计算方也相当复杂，计算量巨大，不能满足实时的要求。动态背景动态背景下的运动目标检测由于存在着目标与摄像机之间复杂的相对运动，检测方法要比静态背景下的运动目标检测方法复杂。常用的检测方法有匹配法、光流法以及全局运动估计法等。 2、运动目标跟踪运动目标跟踪是确定同一物体在图像序列的不同帧中的位置的过程。近年来出现了大批运动目标跟踪方法，许多文献对这些方法进行了分类介绍，可将目标跟踪方法分为四类：基于区域的跟踪、基于特征的跟踪、基于活动轮廓的跟踪、基于模型的跟踪，这种分类方法概括了目前大多数跟踪方法，下面用这种分类方法对目前的跟踪方法进行概括介绍。 (1)基于区域的跟踪基于区域的跟踪方法基本思想是：首先通过图像分割或预先人为确定提取包含目标区域的模板，并设定一个相似性度量，然后在序列图像中搜索目标，把度量取极值时对应的区域作为对应帧中的目标区域。由于提取的目标模板包含了较完整的目标信息，该方法在目标未被遮挡时，跟踪精度非常高，跟踪非常稳定，但通常比较耗时，特别是当目标区域较大时，因此一般应用于跟踪较小的目标或对比度较差的目标。该方法还可以和多种预测算法结合使用，如卡尔曼预测、粒子预测等，以估计每帧图像中目标的位置。近年来，对基于区域的跟踪方法关注较多的是如何处理运动目标姿态变化引起的模板变化时的情况以及目标被严重遮挡时的情况。 (2)基于特征的跟踪基于特征的跟踪方法基本思想是：首先提取目标的某个或某些局部特征，然后利用某种匹配算法在图像序列中进行特征匹配，从而实现对目标的跟踪。该方法的优点是即使目标部分被遮挡，只要还有一部分特征可以被看到，就可以完成跟踪任务，另外，该方法还可与卡尔曼滤波器结合使用，实时性较好，因此常用于复杂场景下对运动目标的实时、鲁棒跟踪。用于跟踪的特征很多，如角点边缘、形状、纹理、颜色等，如何从众多的特征中选取最具区分性、最稳定的特征是基于特征的跟踪方法的关键和难点所在。 (3)基于活动轮廓的跟踪基于活动轮廓的跟踪方法基本思想是：利用封闭的曲线轮廓表达运动目标，结合图像特征、曲线轮廓构造能量函数，通过求解极小化能量实现曲线轮廓的自动连续更新，从而实现对目标的跟踪。自Kass在1987年提出Snake模型以来，基于活动轮廓的方法就开始广泛应用于目标跟踪领域。相对于基于区域的跟踪方法，轮廓表达有减少复杂度的优点，而且在目标被部分遮挡的情况下也能连续的进行跟踪，但是该方法的跟踪结果受初始化影响较大，对噪声也较为敏感。 (4)基于模型的跟踪基于模型的跟踪方法基本思想是：首先通过一定的先验知识对所跟踪目标建立模型，然后通过匹配跟踪目标，并进行模型的实时更新。通常利用测量、CAD 工具和计算机视觉技术建立模型。主要有三种形式的模型，即线图模型、二维轮廓模型和三维立体模型口61，应用较多的是运动目标的三维立体模型，尤其是对刚体目标如汽车的跟踪。该方法的优点是可以精确分析目标的运动轨迹，即使在目标姿态变化和部分遮挡的情况下也能够可靠的跟踪，但跟踪精度取决于模型的精度，而在现实生活中要获得所有运动目标的精确模型是非常困难的。目标检测算法，至今已提出了数千种各种类型的算法，而且每年都有上百篇相关的研究论文或报告发表。尽管人们在目标检测或图像分割等方面做了许多研究，现己提出的分割算法大都是针对具体问题的，并没有一种适合于所有情况的通用算法。目前，比较经典的运动目标检测算法有：双帧差分法、三帧差分法(对称差分法)、背景差法、光流法等方法，这些方法之间并不是完全独立，而是可以相互交融的。目标跟踪的主要目的就是要建立目标运动的时域模型，其算法的优劣直接影响着运动目标跟踪的稳定性和精确度，虽然对运动目标跟踪理论的研究已经进行了很多年，但至今它仍然是计算机视觉等领域的研究热点问题之一。研究一种鲁棒性好、精确、高性能的运动目标跟踪方法依然是该研究领域所面临的一个巨大挑战。基于此目的，系统必须对每个独立的目标进行持续的跟踪。为了实现对复杂环境中运动目标快速、稳定的跟踪，人们提出了众多算法，但先前的许多算法都是针对刚体目标，或是将形变较小的非刚体近似为刚体目标进行跟踪，因而这些算法难以实现对形状变化较大的非刚体目标的正确跟踪。根据跟踪算法所用的预测技术来划分，目前主要的跟踪算法有：基于均值漂移的方法、基于遗传算法的方法、基于Kalman滤波器的方法、基于Monto Carlo的方法以及多假设跟踪的方法等。运动检测与目标跟踪算法模块运动检测与目标跟踪算法模块与目标跟踪一、运动检测算法 1.算法效果算法效果总体来说，对比度高的视频检测效果要优于对比度低的视频。算法可以比较好地去除目标周围的浅影子，浅影的去除率在 80%以上。去影后目标的完整性可以得到较好的保持，在 80%以上。在对比度比较高的环境中可以准确地识别较大的滞留物或盗移物。从对目标的检测率上来说，对小目标较难进行检测。一般目标小于 40 个像素就会被漏掉。对于对比度不高的目标会检测不完整。总体上来说，算法在对比度较高的环境中漏检率都较低，在 0.1%以下，在对比度不高或有小目标的场景下漏检率在 6%以下。精细运动检测的目的是在较理想的环境下尽量精确地提取目标的轮廓和区域，以供高层进行应用。同时在分离距离较近目标和进行其它信息的进一步判断也具有一定的优势。反映算法优缺点的详细效果如下所示：去影子和完整性效果好公司内视频左边的为去影前，右边的为去影后的结果，可以看出在完整性和去影率上都有所突出。这两个视频的共周特点城市交通是，影子都是浅影子，视频噪声不太明显。目标与背景的对比度比较高。效果差这两个视频的特点是影子都是深影子。虽然影子没有去掉，但是物体的完整性是比较高的。主要原因就是场景的对路口，上午十点比度比较高。滞留物检测和稳定性效果好会议室盗移效果好的原因，一是盗移或滞留目标与背景对比度较大，二是目标本身尺寸较大。另外盗移物或滞留物在保持各自的状态期间不能受到光照变化或其它明显运动目标的干扰，要不然有可能会造成判断的不稳定。效果差会议室遗留物大部分时间内，滞留的判断都是较稳定的，但是在后期出现了不稳定。主要原因是目标太小的原故。因此在进行滞留物判断时，大目标，对比度较高的环境有利于判断的稳定性和准确性。漏检率效果好城市交通在对比度高的环境下，目标相对都较大的情况下（大于 40 个像素）可以很，稳定的检测出目标。在这种条件下的漏检率通常都是非常低的，在 0.1%以下。效果差行人－傍晚和“行人”目录下的其它昏暗条件下的视频在对比度较低的情况下，会造成检测结果不稳定。漏检率较高。主要原因是由于去影子造成的。这种对比度下的漏检率一般在 6%以下。除了对比度低是造成漏检的原因外，过小的目标也会造成漏检，一般是 40 个像素以下的目标都会被忽略掉。 1.2 算法效率内存消耗（单位：b） .MD_ISRAM_data .MD_ISRAM_bss .MD_SDRAM_data 0x470 0x24 0x348 .MD_SDRAM_bss .MD_text 0x1a8480 0x6d40 速度 ms 运动区域占 2/3 左右时 CPU 占用率一帧耗时 Max:57% Min:2.8% Avg:37.5% Max:23 Min:1.14 Avg:15 运动区域占 1/3 左右时 Max:45% Min:2.8% Avg:20% Max:18 Min:1.14 Avg:8 1.3 检测参数说明检测参数说明检测到的滞留物或盗走物的消失时间目前分别设定在 200 帧和 100 帧，可以通过参数来自行调整。目前目标与背景的差异是根据局部光照强度所决定的，范围在 4 个像素值以上。目前参数设置要求目标大小要在 20 个像素以上才能被检测到，可以通过参数来自行调整。目标阴影的去除能力是可以调整的，目前的参数设置可以去除大部分的浅影子和较小的光照变化。 1.4 适用环境推荐光照条件较好（具有一定的对比度）的室内环境或室外环境。不易用它去检测过小的目标，比如小于 40 个像素的目标。室外环境不易太复杂。输出目标为精细轮廓目标，可以为后面高层应用提供良好的信息。二、目标跟踪 2.1 稳定运行环境要求此版本跟踪算法与运动检测算法紧密结合，对相机的架设和视频的背景环境和运动目标数量运动方式有一定要求：背景要求：由于运动跟踪是基于运动检测的结果进行的，所以对背景的要求和运动检测一样，背景要求：运动目标相对于背景要有一定反差。运动目标：由于运动检测中，对较小的目标可能过滤掉。所以运动目标的大小要符合运动检运动目标：测的要求。运动目标的速度不能太大，要保证前后帧运动目标的重合面积大于 10 个像素。此阈值可修改(建议不要随意修改，过小，可能把碎片当成原目标分裂出来的小目标，过大，可能失去跟踪。当然可试着调节以适应不同场景)。该算法对由于运动检测在地面上产生的碎片抗干扰性比较差，运动目标和碎片相遇时，容易发生融合又分离的现象，造成轨迹混乱。消失目标和新生目标很容易当成同一目标处理，所以可能出现一个新目标继承新生目标的轨迹。运动方式：运动目标的最大数量由外部设定。但运动跟踪对运动目标比较稀疏的场景效果比运动方式：较好。算法对由于运动检测在运动目标上产生的碎片有一定的抗干扰。算法没对物体的遮挡进行处理。对于两运动目标之间的遮挡按融合来处理。拍摄角度：拍摄角度：拍摄视野比较大，且最好是俯视拍摄。

数字图像处理是利用计算机对图像信息进行加工以满足人的视觉心理或者应用需求的行为，应用广泛，多用于测绘学、大气科学、天文学、美图、使图像提高辨识等。这里学术堂为大家整理了一些数字图像处理毕业论文题目，希望对你有用。1、基于模糊分析的图像处理方法及其在无损检测中的应用研究2、数字图像处理与识别系统的开发3、关于数字图像处理在运动目标检测和医学检验中若干应用的研究4、基于ARM和DSP的嵌入式实时图像处理系统设计与研究5、基于图像处理技术的齿轮参数测量研究6、图像处理技术在玻璃缺陷检测中的应用研究7、图像处理技术在机械零件检测系统中的应用8、基于MATLAB的X光图像处理方法9、基于图像处理技术的自动报靶系统研究10、多小波变换及其在数字图像处理中的应用11、基于图像处理的检测系统的研究与设计12、基于DSP的图像处理系统的设计13、医学超声图像处理研究14、基于DSP的视频图像处理系统设计15、基于FPGA的图像处理算法的研究与硬件设计

索引序列
图像检测识别方法研究论文
图像识别算法研究论文
图像识别的研究生论文
图像识别技术的研究论文
基于图像识别的运动目标检测论文
返回顶部

图像检测识别方法研究论文