首页 > 期刊投稿知识库 > 图像提取算法研究论文

图像提取算法研究论文

发布时间:

图像提取算法研究论文

这个你可以上中国期刊库网站查找一下。

如果是单纯的车牌识别算法的话 建议matlab中文论坛有3份1、贵州版本2、广西版本3、老衲版本 (已经发了,其他的你去论坛下载吧

随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!

图像识别技术研究综述

摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词:图像处理;图像识别;成像

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。

3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:

2.1 指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

2.2 人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。

2.3 文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。

参考文献:

[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.

[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.

[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.

[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.

[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.

[6] Sanderson C,Paliwal K K.Information Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.

点击下页还有更多>>>图像识别技术论文

图像的提取方法研究论文

数字图像处理方面了解的了。

呵呵,你去你们学校图书馆网站上的论文库里下载一篇相关方面的硕士论文吧,多下几篇,凑一凑就能够数了

随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!

图像识别技术研究综述

摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词:图像处理;图像识别;成像

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。

3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:

2.1 指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

2.2 人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。

2.3 文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。

参考文献:

[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.

[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.

[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.

[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.

[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.

[6] Sanderson C,Paliwal K K.Information Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.

点击下页还有更多>>>图像识别技术论文

图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。我整理了图像分割技术论文,欢迎阅读!

图像分割技术研究

摘要:图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。本文介绍了基于阈值的分割方法和图像分割的图像分割性能的评价、应用现状;最后总结出图像分割的发展趋势。

关键词:图像分割、阈值、边缘检测、区域分割

中图分类号: TN957.52 文献标识码: A

1引言

随着图像分割技术研究的深入,其应用日趋广泛。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。图像分割是图像处理、模式识别和人工智能等多个领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的、重要的关键步骤。图像分割结果的好坏直接影响对计算机视觉中的图像理解。现有的方法多是为特定应用设计的,有很大的针对性和局限性,到目前为止还不存在一个通用的方法,也不存在一个判断分割是否成功的客观标准。因此,对图像分割的研究目前还缺乏一个统一的理论体系,使得图像分割的研究仍然是一个极富有挑战性的课题。

2图像分割方法

图像分割(Image Segmentation),简单地说就是将一幅数字图像分割成不同的区域,在同一区域内具有在一定的准则下可认为是相同的性质,如灰度、颜色、纹理等。而任何相邻区域之间其性质具有明显的区别。

2.1基于灰度特征的阈值分割方法

阈值分割技术是经典的、流行的图象分割方法之一,它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的像素是同一个物体。

这类方法主要包括以下几种:

(1)单阈值法,用一个全局阈值区分背景和目标。当一幅图像的直方图具有明显的双峰时,选择两峰之间的谷底作为阈值。

(2)双阈值法,用两个阈值区分背景和目标。通过设置两个阈值,以防单阈值设置阈值过高或过低,把目标像素误归为背景像素,或把背景像素误归为目标像素。

(3)多阈值法,当存在照明不均,突发噪声等因素或背景灰度变化较大时,整幅图像不存在合适的单一阈值,单一阈值不能兼顾图像不同区域的具体情况,这时可将图像分块处理,对每一块设一个阈值。

2.2 边缘检测分割法

基于边缘检测技术可以按照处理的顺序分为并行边缘检测和串行边缘检测两大类。常见的边缘检测方法有:差分法、模板匹配法及统计方法等。由于边缘灰度变化规律一般体现为阶梯状或者脉冲状。边缘与差分值的关系可以归纳为两种情况,其一是边缘发生在差分最大值或者最小值处;其二是边缘发生在过零处。

2.3基于区域的分割方法

基于区域的分割方法利用的是图像的空间性质。该方法认为分割出来的某一区域具有相似的性质。常用的方法有区域生长法和区域分裂合并法。该类方法对含有复杂场景或自然景物等先验知识不足的图像进行分割,效果较好。

区域生长方法是把一幅图像分成许多小区域开始的,这些初始的小区域可能是小的邻域甚至是单个像素,在每个区域中,通过计算能反映一个物体内像素一致性的特征,作为区域合并的判断标准。区域合并的第一步是赋给每个区域一组参数,即特征。接下来对相邻区域的所有边界进行考查,如果给定边界两侧的特征值差异明显,那么这个边界很强,反之则弱。强边界允许继续存在,而弱边界被消除,相邻区域被合并。没有可以消除的弱边界时,区域合并过程结束,图像分割也就完成。

2.4结合特定工具的图像分割技术

20世纪80年代末以来,随着一些特殊理论的出现及其成熟,如数学形态学、分形理论、模糊数学、小波分析、模式识别、遗传算法等,大量学者致力于将新的概念、新的方法用于图像分割,有效地改善了分割效果。产生了不少新的分割算法。下面对这些算法做一些简单的概括。

2.4.1基于数学形态学的分割算法

分水岭算法是一种经典的借鉴了数学形态理论的分割方法。该方法中,将一幅图像比为一个具有不同高度值的地形,高灰度值处被认为是山脊,底灰度值处被认为是山谷,将一滴水从任一点流下,它会朝地势底的地方流动,最终聚于某一局部最底点,最后所有的水滴会分聚在不同的吸引盆地,由此,相应的图像就被分割成若干部分。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感。

2.4.2基于模糊数学的分割算法

目前,模糊技术在图像分割中应用的一个显著特点就是它能和现有的许多图像分割方法相结合,形成一系列的集成模糊分割技术,例如模糊聚类、模糊阈值、模糊边缘检测技术等。

这类方法主要有广义模糊算子与模糊阈值法两种分割算法。

(1)广义模糊算子在广义模糊集合的范围内对图像处理,使真正的边缘处于较低灰度级,但还有一些不是边缘的像素点的灰度也在较低灰度级中,虽然算法的计算简明,且边缘细腻,但得到的边缘图会出现断线问题。

(2)模糊阈值法引入灰度图像的模糊数学描述,通过计算图像的模糊熵来选取图像的分割阈值,后用阈值法处理图像得到边界。

2.4.3基于遗传算法的分割方法

此算法是受生物进化论思想提出的一种优化问题的解决方法,它使用参数编码集而不是参数本身,通过模拟进化,以适者生存的策略搜索函数的解空间,它是在点群中而不是在单点进行寻优。遗传算法在求解过程中使用随机转换规则而不是确定性规则来工作,它唯一需要的信息是适应值,通过对群体进行简单的复制、杂交、变异作用完成搜索过程。由于此法能进行能量函数全局最小优化搜索,且可以降低搜索空间维数,降低算法对模板初始位置的敏感,计算时间也大为减少。其缺点是容易收敛于局部最优。

2.4.4基于神经网络分割算法

人工神经网络具有自组织、自学习、自适应的性能和非常强的非线性映射能力,适合解决背景知识不清楚、推理规则不明确和比较复杂的分类问题,因而也适合解决比较复杂的图像分割问题。原则上讲,大部分分割方法都可用 ANN(attificial neural network)实现。ANN 用于分割的研究起步较晚,只有多层前馈NN,多层误差反传(BP)NN,自组织NN,Hopfield NN以及满足约束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了应用。使用一个多层前向神经网络用于图象分割,输入层神经元的数目取决于输入特征数,而输出层神经元的数目等同于分类的数目。

2.5图像分割中的其他方法

前面介绍了4大类图像分割较常用的方法,有关图像分割方法和文献很多,新方法不断产生,这些方法有的只对特定的情形有效,有的综合了几种方法,放在一起统称为第5类。

(1)标号法(labeling)是一种基于统计学的方法,这种方法将图像欲分割成的几个区域各以一个不同的标号来表示,用一定的方式对图像中的每一个像素赋以标号,标号相同的像素就合并成该标号所代表的区域。

(2)基于Snak模型的分割方法,基于Snake模型的分割是通过对能量函数的动态优化来逼近图像目标的真实轮廓的

(3)纹理分割,由于新的数学工具的引入,纹理分割技术取得了一些进展,张蓬等人将小波分析应用于纹理基元提取。

(4)基于知识的图像分割方法,直接建立在先验知识的基础上,使分割更符合实际图像的特点。该方法的难度在于知识的正确合理的表示与利用。

3图像分割性能的评价

图像分割评价主要有两个方面的内容:一是研究各分割算法在不同情况下的表现,掌握如何选择和控制其参数设置,以适应不同需要。二是分析多个分割算法在分割同一图像时的性能,比较优劣,以便在实际应用中选取合适的算法。分割评价方法分为分析法和实验法两大类。分析法是直接分析分割算法本身的原理及性能,而实验法是通过对测试图像的分割结果来评价算法的。两种方法各有优劣,由于缺乏可靠理论依据,并非所有分割算法都能够通过分析法分析其性能。每种评价方法都是出于某种考虑而提出来的,不同的评价方法只能反映分割算法性能的某一性能。另一方面,每一种分割算法的性能是由多种因素决定的,因此,有可能需要多种准则来综合评价。

4图像分割技术的发展趋势

随着神经网络、遗传算法、统计学理论、小波理论以及分形理论等在图像分割中的广泛应用,图像分割技术呈现出以下的发展趋势:(1)多种特征的融合。(2)多种分割方法的结合。(3)新理论与新方法。

参考文献

[1] [美]RC冈萨雷斯.数字图像处理(第二版)[M].阮秋琦,等译.北京:电子工业出版社,2003

[2] 章毓晋.图像分割[M].北京:科学出版社,2001.

[3] 李弼程,彭天强,彭波等.智能图像处理技术[M].北京:电子工业出版社,2004.

[4] 杨晖,曲秀杰.图像分割方法综述[J].电脑开发与应用。2005,18(3):21-23.

点击下页还有更多>>>图像分割技术论文

遥感图像道路提取研究论文

随心所欲的写咯

杨大志 付洛玲 段嵘峰 曹千红 管相荣

(河南省国土资源厅信息中心,郑州,450003)

摘要:本文采用面向对象分类的方法,使用专业遥感图像分类软件eCognition4.0,以河南省临颍县为研究区,对处理后的临颍县SPOT5影像进行多层次分割及合并,根据分类体系定义相应知识库,进行土地利用信息提取研究,探讨该方法在高空间分辨率遥感影像应用于土地利用/土地覆被自动分类中的应用潜能,为高分辨率影像用于土地利用分类信息提取提供新技术手段。

关键词:eCognition;SPOT5;自动分类;土地利用

土地资源利用状况调查、土地资源动态监测是土地管理工作的一个重要内容。近年来,随着空间遥感技术的发展,高分辨率遥感影像在土地资源调查、土地资源动态监测等领域中的应用日益广泛。高分辨率遥感数据与多光谱和高光谱分辨率数据相比,具有空间信息丰富、地物几何结构和纹理信息更加明显、波段较少的特点。对于高分辨率的遥感影像来说,利用传统的面向像元的图像分类方法来提取土地利用分类信息,易造成分类精度低,空间数据大量冗余以及资源的浪费[1~2]。实际上,靠传统的面向像元的遥感图像分类法来提取土地利用信息已不能满足实际运用的要求。因此,基于高分辨率遥感影像土地利用分类信息提取必须根据其特点采取新的技术方法,建立起图像数据与目标特性之间的物理—机理联系,而不仅仅是统计联系,才能充分挖掘高分辨率遥感影像所包含的信息,这是高分辨率卫星影像信息处理成败的关键[3]。面向对象分类技术作为一种新的遥感影像很好地解决了这个问题,而eCognition软件正是基于面向对象方法的影像分类技术。本文就是基于该软件以河南省临颍县土地利用分类信息提取为例对该方法进行了探讨。

1 研究区概况和资料基础

研究选取河南省临颍县作为研究区。临颍县位于河南省中部,颍河上游,属漯河市,面积821km2,人口65.76 万,辖15个乡镇,362个行政村。临颍县地处颍河冲积平原,西北部较高,东南部稍低。图1是河南省临颍县SPOT5遥感影像图。

本研究主要以下述资料为研究基础。

1.1 影像数据

本次遥感图像分类采用数据为SPOT5 (2.5 m分辨率)影像数据,景带号为279/281和279/282,接收时间为2004年9月。两景数据采用Erdas 8.7软件进行处理,通过配准校正融合,选择克拉索夫斯基椭球体和高斯—克吕格投影,通过裁切,得到临颍县遥感影像数据(见图1)。

图1 河南省临颍县 SPOT5 遥感影像图

1.2 矢量数据

近年的土地利用数据库数据。

1.3 其他资料

与研究区有关的行政区划、农、林等方面的文献资料。

通过近年的土地利用数据库数据和影像数据研究可以发现临颍县土地利用类型较丰富,主要以农用地为主,地物类型比较全面,是研究土地利用/土地覆被的较好选择。

2 面向对象分类方法简介

面向对象的分类方法是一种智能化的自动影像分析方法,它的分析单元不再是单个像素,而是由若干个像素组成的像素群,即目标对象[4]。目标对象比单个像素更具有实际意义,特征的定义和分类均是基于目标对象进行的。通常面向对象的分类方法包括两个步骤:多分辨率分割和模糊逻辑分类[5]。

eCognition软件采用面向对象的遥感影像解译思想。首先根据像元光谱信息、局部区域纹理信息以及形状和尺度参数自动将影像分割为若干相对同质的区域,称为影像对象(Image objects),为下一步分类提供信息载体和构建基础[6],所有后续的分类工作都基于这些影像对象进行,分类结果避免了斑点噪声而具有很好的整体性,改变了以往面向像素进行分类的传统。同时,软件提供最邻近法和模糊隶属度函数两种解译方法。

本研究就是采用面向对象的分类方法,以eCognition 中membership function (隶属度函数)为主,模仿目视解译过程,从遥感信息机理与地学规律的综合分析入手,综合其他辅助信息进行分类。通过对辅助资料、外业调查成果以及软件的学习得到了临颍县各类典型地物分类的知识,并以相应的形式表示这些知识,集成影像亮度值、亮度值关系和几何形状以及纹理、邻近关系等特征,对试验区土地利用/覆被进行分类。

3 分类体系和技术流程

3.1 分类体系

根据临颍县土地利用实际情况,参照历年土地利用分类标准,本次信息提取分类采取的分类体系如图2所示。

3.2 技术流程

使用eCognition软件对研究区SPOT5影像数据进行土地利用信息提取研究分如下几步进行:①把处理好的影像数据输入到软件中,定制分割参数,对其执行分割,生成影像对象;②根据研究区地物类型创建分类层次结构;③确定合适的分类方法(包括最邻近法和模糊隶属度函数两种方法),选取相应地物类型样本或者分类特征,构建知识库,执行分类,并可根据目视解译结果和事先准备的调查区资料对分类结果进行人工干预,进一步提高分类精度;④对分类结果进行分类精度评价;⑤把分类结果输出,输出的格式可以为所需要的相应的矢量格式或栅格格式。本研究的技术流程如图3所示。

图2 研究区地物类型

图3 研究技术流程图

4 主要分类过程

4.1 定制分割参数

分割参数的定制相当重要,它关系到每一个分类对象的大小,直接影响到最后的分类结果。通过多次试验,本次分类决定采用多层次分割的方法进行:水体和非水体信息的提取以分割参数为80进行,其他参数均为默认;分类体系中其他类别信息的提取在首次分割基础上,以分割参数为65,其他参数也为默认对非水体进行多重分割,来进行其他地物类型的分类。

4.2 制定分类策略,创建类层次结构

在进行分类之前,首先要参照研究区地物类型,分析每种地物类型特征及其相互之间的关系,制定合适的分类策略,创建类层次结构。可利用的研究对象属性特征包括色调、形状、面积/大小和纹理等特征,各对象之间关系包括与父对象之间、与子对象之间以及与邻对象之间的关系三种类型。对象属性特征选取正确与否及其在多大程度上被正确表达对分类结果有着重要影响,它决定了最后分类正确与否和其精度。面向对象的分类方法可以模仿人类大脑认知过程,充分利用每种地物类型特征,按照由简单到困难的顺序逐步剥离提取分类体系中每种地物信息。通过研究本次分类所要提取信息自身特征及其相互之间关系,制定本次分类的分类策略,创建了类层次结构,如图4所示。

图4 类层次结构示意图

4.3 分类特征的选取

根据创建的类层次结构,选取合适的对象属性,对对象属性进行定义,提取出相应对象的土地利用信息。本次分类采用以下几步进行:

(1)提取水体信息 分割参数设为80,对影像进行分割,分割后,在整个研究区均匀选取样本,采用标准最邻近方法(Standard Nearest Neighbor)对遥感影像进行分类(类似于监督分类),提取水体信息。在此基础上,依据水体的形状特征,把水体分为河流水面和坑塘水面两类。根据实验,长宽比大于3是河流,小于3的是坑塘。

(2)提取植被信息,并进一步把植被分为耕地和林地 首先把提取出的水体信息保护起来,在首次分割的基础上对非水体进行再分割,分割参数设为65,其他参数为默认值,把非水体分为植被和非植被两类,然后根据耕地和林地的不同特征把其信息提取出来。

(3)对非植被信息进一步细分,从中提取出主要交通道路、城镇居民点工矿和裸地(已收获耕地) 信息 首先从非植被信息中提取出交通道路和非交通道路信息,然后把非交通道路细分为裸地(已收获耕地)和城镇居民点工矿两类。

此时,分类体系中的所有类别信息已经全部提取出来,可根据实际情况对分类结果进行手工编辑,进一步删除一些过小对象和纠正一些错分信息。当分得的各类信息结果都比较满意后,进行基于分类的融合,把小对象合并为大的对象,通过手工编辑和基于分类的融合后,得到最终分类结果如图5所示。

图5 遥感影像分类结果图

4.4 分类精度评价

得到分类结果后,要根据分类得到的结果进行分类精度评价。评价采用如下方法进行:在分割后的影像上均匀随机选取每个地类的目标对象,选取的目标对象数目根据分类结果得到的每个地类的目标对象数目而定,进行自动统计,得到统计结果。统计结果如表1所示。

表1 分类结果精度评价表

通过分类结果精度评价表可以发现,自动分类的最后分类精度超过了80%,这对于研究区来讲,分类结果还是比较令人满意的。同时,根据统计结果可以得到如下结论:耕地、城镇居民点、坑塘、河流信息提取的效果较好;相对而言,裸地和道路信息提取比较困难;林地信息由于同耕地信息相近,提取起来也有相当的难度,还有待于今后进一步研究。

通过研究表明,采用面向对象方法进行图像解译和信息的自动提取与面向像元方法相比具有较强优势。面向对象的分类方法可以灵活运用地物本身的几何信息和结构信息,纹理信息以及上下层关系信息、邻近关系信息等,更主要的是可以加载人的思维,构建知识库,从而提高了分类的精度,为各种不同地物的分类提供了更多的依据,比如通过影像的形状和纹理特征可以有效地识别河流、道路、建筑物的形状。利用eCognition对高分辨率遥感图像进行土地利用自动分类,快速简便,而且能够达到较高精度,节省了大量的人力物力,为大面积土地利用调查和监测提供了新的科学方法。

参考文献

丁晓英.eCognition在土地利用项目中的应用[J].测绘与空间地理信息,2005,28 (6):116~120

刘亚岚,阎守邕,王涛等.遥感图像分区自动分类方法研究[J].遥感学报,2002,6 (5):357~362

孙晓霞,张继贤,刘正军.利用面向对象的分类方法从IKONOS全色影像中提取河流和道路[J].测绘科学,2006,31 (1):62~63

eCognition 3 Made in Germany [Z]

Sun Xiaoxia.An object-oriented classification method on high resolution satellite data [Z].ACRS2004,Istanbul

杜凤兰.面向对象的地物分类方法分析与评价[J].遥感技术与应用,2004,19 (1):20~23

图像识别算法研究论文

网上搜搜国外有一些demo程序,方便你入门。图像边缘提取 常用的边缘检测算子有梯度算子、Roberts算子、Sobel算子、Prewitt算子、Canny算子 不过单用 效果不好 。不知道你是什么语言的车牌识别,建议用梯度算子。江苏视图科技专业图像识别,图片识别率高达98%以上。

如果是单纯的车牌识别算法的话 建议matlab中文论坛有3份1、贵州版本2、广西版本3、老衲版本 (已经发了,其他的你去论坛下载吧

深度图像算法研究论文

单个RGB-D图像的深度补全 主页:

Github:

Paper:

Goal --complete the depth channel of an RGB-D image

Problem --Commodity-grade depth cameras often fail to sense depth for shiny, bright, transparent, and distant surfaces

Method --takes an RGB image as input and predicts dense surface normals and occlusion boundaries. Those predictions are then combined with raw depth observations provided by the RGB-D camera to solve for depths for all pixels, including those missing in the original observation

Goal: to complete the depth channel of an RGB-D image captured with a commodity camera (i.e., fill all the holes) 填充深度图的空缺

以前的depth inpainting (深度修复)方法 使用 hand-tuned(手工调整)来解决,该方法通过 外推边界表面、马尔可夫图像合成;来fill holes

深度网络已经用于depth estimation,但还未用来depth completion,因为有以下几个难点:

对于和 补全的深度图 配对的 捕获的RGB-D图像,这样的大规模训练数据不易获得

这样 depth estimation只能重现 observed depth,不能估计 unobserved 深度信息

本文引入了新数据集,105432张RGB-D 图像,且与在72个真实环境中从大规模表面重建计算出的完整深度图像对应

深度表示

直接用FCN回归depth不work尤其是对图1中缺失那么大的一片区域,因为即使对人类来说,从单眼 color image 估计精确深度也很难啊 所以本文先用网络预测depth的 局部微分属性:表面法线&遮挡边界

以前没有人去训练一个端对端网络去从RGB-D图像补全深度

一个想法是扩展一下前人color to depth 的网络,但是

这里的 不对齐 具体指啥,有空间位置的不对齐吗.有颜色信息的像素不一定有深度信息?

本文是 只将 color image 作为输入,先预测 local surface normals and occlusion boundaries with supervision,因为 从颜色信息预测局部特征是深度网络可以胜任的 。然后通过一个把这些预测和输入depth组合起来的全局优化问题来complete depth

Main Insight

好处:这样做smaller relative error ,网络独立于observed depth,不需要因为新的depth sensors再次训练 ?

depth estimation from a monocular color image 单目彩色图像

Shape-from-defocus

Others

-Old methods

Auto-encoder

GAN

先前的方法没有研究depth images的inpainting,由于depth images缺少鲁棒的特征strong features 和 大规模训练数据,这是比较难的问题

Markov random fields

Shape-from-shading

Segmentation

Dictionary methods

尽管一些方法可以被用来 depth completion,但两者的关注点是不同的。

其他工作已经研究了用稀疏深度测量集增强的彩色图像的深度重建。

但是该研究的motivation是降低一定设置下的传感成本(例如 节省机器人的成本),而不是depth completion

对应于introduction提到的三个难点,本文的研究也聚焦于以下三个问题:

但这方法昂贵耗时,这个类型的public dataset只包含少量的 indoor scenes

for example: Matterport3D [6], ScanNet [10], SceneNN [28], and SUN3D[22,67]

这就得到了包含 RGB-D & D* 图像对的数据集!

疑问:多视点的 RGB-D images 的结合 是需要图像之间的 配准regirstration 吧?难道这个得到mesh的过程是原来的数据集现成的?全局表面重建是数据集现有的 参见

由于表面重建以与深度相机的分辨率相当的3D网格尺寸构造,因此在完成的深度图像中通常不会损失分辨率。 然而,当投影到视平面上时,相同的3D分辨率为远离相机的表面提供了有效的更高像素分辨率 。 因此,完成的深度图像可以在渲染高分辨率网格时利用子像素抗锯齿来获得比原始图像更精细的分辨率(请注意图3中家具中的细节)。 WHY

本文的数据集有 117516 RGB-D images with rendered completions: Training set:105432;Test set:12084

然而difficult to predict absolute depth from monocular images,

本文是预测每个像素的局部属性,表面法线、遮挡边界

why use 表面法线 遮挡边界:

so,的工作在从颜色图像到表面法线的密集预测效果不错 [1,15,34,66,75]

那么,如何从surface normals & occlusion boundary 计算深度:

a) What loss should be used to train the network

two choices: trained only on holes vs all pixels:

trained with rendered normals VS raw normals ? 详见论文附件

对比实验结果:

b) What image channels should be input to the network

实验表明如果用RGB-D作为输入来预测法线,在holes部分像素的预测很差(尽管对于observed pixels work),推测这种网络只是从RGB-D中的depth channel预测normals,所以对于hole就不能work了

图5的结论启发作者仅用color image 预测 surface normals

separating “prediction without depth” from “optimization with depth” is compelling for two reasons:好处

前面的网络预测得到 surface normal image N 和 occlusion boundary image B(==长什么样子?==)

求解一个方程组

目标函数由 四个 平方误差的加权求和

$E_D$ :估计的深度和原始观察到的深度的距离

$E_N$ :预测的深度 和表面法线的一致性 by 切线 点乘 法线

$E_S$ :促使相邻像素有相似的深度值

B: $B ∈ [0, 1] $ down- weights the normal terms based on the predicted probability a pixel is on an occlusion boundary $(B(p))$

==提问:如果在边界, 实际是不满足法线垂直切线,所以减小他的权重 ?极端情况只考虑在遮挡边界的 $E_N$ ??==

==疑问:本来平方误差不就已经是非线性了吗==

目标函数的矩阵形式 是 稀疏 且 对称正定的,所以可使用==a sparse Cholesky factorization [11] 稀疏 Cholesky 分解== 来求解 近似的目标含函数

Evaluation metrics

(以上衡量depth error,下面是衡量surface normals)

table 1展示了不同输入下的结果(表中箭头向上 越大越好;反之,越小越好)

例如 normal 的 median error 17.28 < 23.59;depth的 Rel 0.089<0.09

==补充材料==里还展示了不同loss 设置下(observed only VS unobserved only),这个优势依然存在

作者认为当为observed depth时,网络会学习进行插值而不是在holes合成新的depth。

++这个实验结果促使本文将整个方法 分为两个步骤 two stage system++ !!

表二 注意这里的D是从depth 预测 depth

以Rel为例 N 0.089 < N+DD 0.092 < DD 0.100 < D 0.167。

作者认为由于表面法线只代表了orientation of surfaces ,比较好预测,详见[31];而==且他不随深度的变化而变化,在不同的视图里更一致==

表2 yes 表示有B,No 表示没有down-weights 对比 0.089<0.110,提升约 19%。 occlusion boundaries ==区域的surface normals是 嘈杂,不准确的?== 图6

第2列是网络输出的法线和遮挡边界,第2行第3、4列为 是否有boundary weight 的对比。第1行的3、4列是从输出的深度图计算的surface normal。遮挡(闭塞)边界==提供了深度不连续性信息,有助于保持边界的清晰度/锐度==看从深度计算的法线图

图 7

图像横轴是图像中具有深度的像素的个数(未被masked),左图展示了predicted depth accuracy of observed pixels,右图为predicted depth accuracy of unobserved pixels

显然unobserved 的accuracy 低于 observed;但是只要有一小部分的输入depth(==2000 depths 只占all pixels 的 2.5%==) .这从侧面说明即使是其他depth sensors designs with sparse measurements,也能得到比较客观的预测效果,==也不用重训练网络(网络输入只是颜色啊)== 但是你训练网络时的ground truth normals 来自rendered depth image 啊??如果只做个测试感觉确实不特别依靠raw depth的数目

表3

表中的对比方法分别是 联合双线性滤波、快速双边求解、全局边缘感知能量优化 发现Rel是所有方法中最小的

图8展示了与 联合双线性滤波的比较

图8展示的结果看,本文方法的深度图边界更精确

和color to depth的深度估计方法对比

表 4

本文方法个指标都为最佳,提升23-40%。 Y表示 observed depth N表示 unobserved 这也表明 预测法线 对于深度估计问题也是不错的方法

注意看,不仅预测的深度更准确,而且通过对比计算出的surface normals,说明本文方法学习到了更好的场景几何结构

搭建桥梁沟通了彩色图和深度图信息 桥就是normals!

显而易见,这是一个牺牲时间换取图像质量的游戏

1.速度很慢。

分辨率320x256的图像,使用NVIDIA TITAN X GPU还需要大约0.3秒;Intel Xeon 2.4GHz CPU上大约1.5秒.

2.依赖高性能硬件。难以控制成本

基于深度学习的单目深度估计在近几年是比较热门的研究方向之一,MIT的Diana Wofk等人在ICRA 2019上提出了一种用于嵌入式系统的深度估计算法FastDepth,在保证准确率的情况下,大大提高了模型的计算效率。 论文: FastDepth: Fast Monocular Depth Estimation on Embedded Systems Offical Pytorch: 模型的整体结构比较简单,采用了Encoder-Decoder的架构。Encoder部分采用了MobileNet模型提取到7x7x1024的特征;Decoder部分采用了5次上采样,中间三次上采样结果通过Skip Connections的方法分别与Encoder部分的特征进行了特征融合,为了减小上采样部分的通道特征,还使用了5x5的卷积来降维;最后使用1*1的卷积得到深度图。 使用Keras实现基本的FastDepth模型: Decoder部分的结构如下所示: 为了减小模型体积,提高运算效率,使得模型更适用于嵌入式设备,使用 NetAdapt 算法对FastDepth进行了裁剪。 模型在NYU Depth V2 dataset上进行了训练,基本实验结果如下图所示。可以看出论文提出的FastDepth算法相较当前准确率最高的算法低了4%,但是运算速度有着大幅提升,因此特别适用于嵌入式设备。 下图是深度估计的可视化效果: 下图是不同方法下Encoder和Decoder部分的运算效率和准确率,可以看出论文提出的方法运算速度非常快,而且Depthwise、Skip Connections和网络裁剪这三个技巧可以大幅提高运算效率而且对准确率的影响比较小。

  • 索引序列
  • 图像提取算法研究论文
  • 图像的提取方法研究论文
  • 遥感图像道路提取研究论文
  • 图像识别算法研究论文
  • 深度图像算法研究论文
  • 返回顶部