图像分割检测论文
图像分割检测论文
图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。我整理了图像分割技术论文,欢迎阅读!
图像分割技术研究
摘要:图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。本文介绍了基于阈值的分割方法和图像分割的图像分割性能的评价、应用现状;最后总结出图像分割的发展趋势。
关键词:图像分割、阈值、边缘检测、区域分割
中图分类号: TN957.52 文献标识码: A
1引言
随着图像分割技术研究的深入,其应用日趋广泛。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。图像分割是图像处理、模式识别和人工智能等多个领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的、重要的关键步骤。图像分割结果的好坏直接影响对计算机视觉中的图像理解。现有的方法多是为特定应用设计的,有很大的针对性和局限性,到目前为止还不存在一个通用的方法,也不存在一个判断分割是否成功的客观标准。因此,对图像分割的研究目前还缺乏一个统一的理论体系,使得图像分割的研究仍然是一个极富有挑战性的课题。
2图像分割方法
图像分割(Image Segmentation),简单地说就是将一幅数字图像分割成不同的区域,在同一区域内具有在一定的准则下可认为是相同的性质,如灰度、颜色、纹理等。而任何相邻区域之间其性质具有明显的区别。
2.1基于灰度特征的阈值分割方法
阈值分割技术是经典的、流行的图象分割方法之一,它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的像素是同一个物体。
这类方法主要包括以下几种:
(1)单阈值法,用一个全局阈值区分背景和目标。当一幅图像的直方图具有明显的双峰时,选择两峰之间的谷底作为阈值。
(2)双阈值法,用两个阈值区分背景和目标。通过设置两个阈值,以防单阈值设置阈值过高或过低,把目标像素误归为背景像素,或把背景像素误归为目标像素。
(3)多阈值法,当存在照明不均,突发噪声等因素或背景灰度变化较大时,整幅图像不存在合适的单一阈值,单一阈值不能兼顾图像不同区域的具体情况,这时可将图像分块处理,对每一块设一个阈值。
2.2 边缘检测分割法
基于边缘检测技术可以按照处理的顺序分为并行边缘检测和串行边缘检测两大类。常见的边缘检测方法有:差分法、模板匹配法及统计方法等。由于边缘灰度变化规律一般体现为阶梯状或者脉冲状。边缘与差分值的关系可以归纳为两种情况,其一是边缘发生在差分最大值或者最小值处;其二是边缘发生在过零处。
2.3基于区域的分割方法
基于区域的分割方法利用的是图像的空间性质。该方法认为分割出来的某一区域具有相似的性质。常用的方法有区域生长法和区域分裂合并法。该类方法对含有复杂场景或自然景物等先验知识不足的图像进行分割,效果较好。
区域生长方法是把一幅图像分成许多小区域开始的,这些初始的小区域可能是小的邻域甚至是单个像素,在每个区域中,通过计算能反映一个物体内像素一致性的特征,作为区域合并的判断标准。区域合并的第一步是赋给每个区域一组参数,即特征。接下来对相邻区域的所有边界进行考查,如果给定边界两侧的特征值差异明显,那么这个边界很强,反之则弱。强边界允许继续存在,而弱边界被消除,相邻区域被合并。没有可以消除的弱边界时,区域合并过程结束,图像分割也就完成。
2.4结合特定工具的图像分割技术
20世纪80年代末以来,随着一些特殊理论的出现及其成熟,如数学形态学、分形理论、模糊数学、小波分析、模式识别、遗传算法等,大量学者致力于将新的概念、新的方法用于图像分割,有效地改善了分割效果。产生了不少新的分割算法。下面对这些算法做一些简单的概括。
2.4.1基于数学形态学的分割算法
分水岭算法是一种经典的借鉴了数学形态理论的分割方法。该方法中,将一幅图像比为一个具有不同高度值的地形,高灰度值处被认为是山脊,底灰度值处被认为是山谷,将一滴水从任一点流下,它会朝地势底的地方流动,最终聚于某一局部最底点,最后所有的水滴会分聚在不同的吸引盆地,由此,相应的图像就被分割成若干部分。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感。
2.4.2基于模糊数学的分割算法
目前,模糊技术在图像分割中应用的一个显著特点就是它能和现有的许多图像分割方法相结合,形成一系列的集成模糊分割技术,例如模糊聚类、模糊阈值、模糊边缘检测技术等。
这类方法主要有广义模糊算子与模糊阈值法两种分割算法。
(1)广义模糊算子在广义模糊集合的范围内对图像处理,使真正的边缘处于较低灰度级,但还有一些不是边缘的像素点的灰度也在较低灰度级中,虽然算法的计算简明,且边缘细腻,但得到的边缘图会出现断线问题。
(2)模糊阈值法引入灰度图像的模糊数学描述,通过计算图像的模糊熵来选取图像的分割阈值,后用阈值法处理图像得到边界。
2.4.3基于遗传算法的分割方法
此算法是受生物进化论思想提出的一种优化问题的解决方法,它使用参数编码集而不是参数本身,通过模拟进化,以适者生存的策略搜索函数的解空间,它是在点群中而不是在单点进行寻优。遗传算法在求解过程中使用随机转换规则而不是确定性规则来工作,它唯一需要的信息是适应值,通过对群体进行简单的复制、杂交、变异作用完成搜索过程。由于此法能进行能量函数全局最小优化搜索,且可以降低搜索空间维数,降低算法对模板初始位置的敏感,计算时间也大为减少。其缺点是容易收敛于局部最优。
2.4.4基于神经网络分割算法
人工神经网络具有自组织、自学习、自适应的性能和非常强的非线性映射能力,适合解决背景知识不清楚、推理规则不明确和比较复杂的分类问题,因而也适合解决比较复杂的图像分割问题。原则上讲,大部分分割方法都可用 ANN(attificial neural network)实现。ANN 用于分割的研究起步较晚,只有多层前馈NN,多层误差反传(BP)NN,自组织NN,Hopfield NN以及满足约束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了应用。使用一个多层前向神经网络用于图象分割,输入层神经元的数目取决于输入特征数,而输出层神经元的数目等同于分类的数目。
2.5图像分割中的其他方法
前面介绍了4大类图像分割较常用的方法,有关图像分割方法和文献很多,新方法不断产生,这些方法有的只对特定的情形有效,有的综合了几种方法,放在一起统称为第5类。
(1)标号法(labeling)是一种基于统计学的方法,这种方法将图像欲分割成的几个区域各以一个不同的标号来表示,用一定的方式对图像中的每一个像素赋以标号,标号相同的像素就合并成该标号所代表的区域。
(2)基于Snak模型的分割方法,基于Snake模型的分割是通过对能量函数的动态优化来逼近图像目标的真实轮廓的
(3)纹理分割,由于新的数学工具的引入,纹理分割技术取得了一些进展,张蓬等人将小波分析应用于纹理基元提取。
(4)基于知识的图像分割方法,直接建立在先验知识的基础上,使分割更符合实际图像的特点。该方法的难度在于知识的正确合理的表示与利用。
3图像分割性能的评价
图像分割评价主要有两个方面的内容:一是研究各分割算法在不同情况下的表现,掌握如何选择和控制其参数设置,以适应不同需要。二是分析多个分割算法在分割同一图像时的性能,比较优劣,以便在实际应用中选取合适的算法。分割评价方法分为分析法和实验法两大类。分析法是直接分析分割算法本身的原理及性能,而实验法是通过对测试图像的分割结果来评价算法的。两种方法各有优劣,由于缺乏可靠理论依据,并非所有分割算法都能够通过分析法分析其性能。每种评价方法都是出于某种考虑而提出来的,不同的评价方法只能反映分割算法性能的某一性能。另一方面,每一种分割算法的性能是由多种因素决定的,因此,有可能需要多种准则来综合评价。
4图像分割技术的发展趋势
随着神经网络、遗传算法、统计学理论、小波理论以及分形理论等在图像分割中的广泛应用,图像分割技术呈现出以下的发展趋势:(1)多种特征的融合。(2)多种分割方法的结合。(3)新理论与新方法。
参考文献
[1] [美]RC冈萨雷斯.数字图像处理(第二版)[M].阮秋琦,等译.北京:电子工业出版社,2003
[2] 章毓晋.图像分割[M].北京:科学出版社,2001.
[3] 李弼程,彭天强,彭波等.智能图像处理技术[M].北京:电子工业出版社,2004.
[4] 杨晖,曲秀杰.图像分割方法综述[J].电脑开发与应用。2005,18(3):21-23.
点击下页还有更多>>>图像分割技术论文
R-CNN和Mask R-CNN在图像分割中的应用史
姓名:王咫毅
学号:
【嵌牛导读】机器学习成为现在研究的一大热门,而机器学习所应用到的领域图像处理 目标检测 图像分割都已经日趋成熟,而cnn是如何应用到图像分割里边的呢?而其发展过程又有哪些呢?
【嵌牛鼻子】机器学习 cnn
【嵌牛提问】r-cnn和mask r-cnn有什么区别?两者又是怎么形成的?
【嵌牛正文】
在 Athelas (Athelas 通过深度学习进行血液诊断),我们使用卷积神经网络(CNN)不仅仅是分类!在这篇文章中,我们将看到如何在图像实例分割中使用CNN,效果很好。
自从 Alex Krizhevsky,Geoff Hinton和Ilya Sutskever在2012年赢得ImageNet以来 ,卷积神经网络(CNNs)已经成为图像分类的黄金标准。事实上,从那时起,CNN已经改进到现在他们在ImageNet挑战中胜过人类的程度!
need-to-insert-img
CNN现在在ImageNet挑战中胜过人类。上图中的y轴是ImageNet上的错误率。
虽然这些结果令人印象深刻,但图像分类远比真人类视觉理解的复杂性和多样性简单得多。
need-to-insert-img
分类挑战中使用的图像示例。请注意图像是如何构图良好的,并且只有一个对象。
在分类中,通常有一个图像,其中一个对象作为焦点,任务是说该图像是什么(见上文)。但是,当我们观察周围的世界时,我们会执行更复杂的任务。
need-to-insert-img
现实生活中的景点通常由许多不同的,重叠的物体,背景和动作组成。
我们看到复杂的景点有多个重叠的物体和不同的背景,我们不仅要对这些不同的物体进行分类,还要确定它们之间的界限,差异和关系!
need-to-insert-img
CNN可以帮助我们完成这些复杂的任务吗?也就是说,给定一个更复杂的图像,我们可以使用CNN来识别图像中的不同对象及其边界吗?正如Ross Girshick和他的同龄人在过去几年所表明的那样,答案是肯定的。
这篇文章的目标
通过这篇文章,我们将介绍在对象检测和分割中使用的一些主要技术背后的直觉,并了解它们是如何从一个实现发展到下一个实现的。特别是,我们将介绍R-CNN(地区CNN),这是CNN对此问题的原始应用,以及其后代Fast R-CNN和Faster R-CNN。最后,我们将介绍最近由Facebook Research发布的一篇文章Mask R-CNN,它扩展了这种对象检测技术以提供像素级分割。以下是本文中引用的论文:
R-CNN: https : //abs/1311.2524
Fast R-CNN: https : //abs/1504.08083
Faster R-CNN: https : //abs/1506.01497
Mask R-CNN: https : //abs/1703.06870
2014年:R-CNN - CNN在物体检测中的早期应用
need-to-insert-img
诸如R-CNN的对象检测算法接收图像并识别图像中主要对象的位置和分类。
受多伦多大学Hinton实验室研究的启发,由Jitendra Malik教授领导的加州大学伯克利分校的一个小团队问自己,今天看来是一个不可避免的问题:
在多大程度上[Krizhevsky等。al的结果]推广到物体检测?
对象检测的任务是在图像中查找不同的对象并对其进行分类(如上图所示)。由Ross Girshick(我们将再次看到的名字),Jeff Donahue和Trevor Darrel组成的团队发现,通过测试PASCAL VOC Challenge,这是一种类似于ImageNet的流行物体检测挑战,Krizhevsky的结果可以解决这个问题。他们写,
本文首次表明,与基于简单HOG类功能的系统相比,CNN可以在PASCAL VOC上实现更高的物体检测性能。
现在让我们花一点时间来了解他们的架构,CNNs区域(R-CNN)是如何工作的。
了解R-CNN
R-CNN的目标是接收图像,并正确识别图像中主要对象(通过边界框)的位置。
输入 :图像
输出 :图像中每个对象的边界框+标签。
但是我们如何找出这些边界框的位置?R-CNN做了我们可能直观地做的事情 - 在图像中 提出 一堆框,看看它们中的任何一个是否实际上对应于一个对象 。
need-to-insert-img
选择性搜索查看多个比例的窗口,并查找共享纹理,颜色或强度的相邻像素
R-CNN使用称为选择性搜索的过程创建这些边界框或区域提议,您可以在 此处 阅读。在较高的层次上,选择性搜索(如上图所示)通过不同大小的窗口查看图像,并且对于每个尺寸,尝试通过纹理,颜色或强度将相邻像素组合在一起以识别对象。
need-to-insert-img
在创建一组区域提议后,R-CNN通过AlexNet的修改版本传递图像,以确定它是否是有效区域。
一旦提出建议,R-CNN将该区域变为标准的方形大小,并将其传递给AlexNet的修改版本(ImageNet 2012的获奖提交,启发了R-CNN),如上所示。
在CNN的最后一层,R-CNN增加了一个支持向量机(SVM),它简单地分类这是否是一个对象,如果是的话,是什么对象。这是上图中的第4步。
改进边界框
现在,在盒子里找到了这个物体,我们可以收紧盒子以适应物体的真实尺寸吗?我们可以,这是R-CNN的最后一步。R-CNN对区域提议运行简单的线性回归,以生成更紧密的边界框坐标以获得最终结果。以下是此回归模型的输入和输出:
输入 :与对象对应的图像的子区域。
输出 :子区域中对象的新边界框坐标。
总而言之,R-CNN只是以下步骤:
1.为边界框生成一组提议。
2.通过预先训练的AlexNet运行边界框中的图像,最后运行SVM,以查看框中图像的对象。
3.通过线性回归模型运行该框,一旦对象被分类,就为框输出更紧密的坐标。
2015年:快速R-CNN - 加速并简化R-CNN
need-to-insert-img
Ross Girshick写了R-CNN和Fast R-CNN。他继续在Facebook Research推动计算机视觉的界限。
R-CNN效果很好,但由于一些简单的原因,它确实很慢:
它需要CNN(AlexNet)的正向传递,用于每个单个图像的每个区域建议(每个图像大约2000个前向传递!)。
它必须分别训练三个不同的模型 - 用于生成图像特征的CNN,用于预测类的分类器,以及用于收紧边界框的回归模型。这使得管道极难训练。
2015年,R-CNN的第一作者Ross Girshick解决了这两个问题,导致了我们短暂历史中的第二个算法 - 快速R-CNN。现在让我们回顾一下它的主要见解。
Fast R-CNN洞察力1:RoI(感兴趣区域)池
对于CNN的前向传递,Girshick意识到对于每个图像,图像的许多建议区域总是重叠,导致我们一次又一次地运行相同的CNN计算(~2000次!)。他的洞察力很简单 - 为什么不在每张图像上运行CNN一次,然后找到一种方法来分享〜2000个提案中的计算?
need-to-insert-img
在RoIPool中,创建图像的完整前向传递,并从所得到的前向传递中提取每个感兴趣区域的conv特征。
这正是Fast R-CNN使用称为RoIPool(感兴趣区域池)的技术所做的事情。在其核心,RoIPool分享CNN的前向传递,以在其子区域中形成图像。在上图中,请注意如何通过从CNN的要素图中选择相应的区域来获取每个区域的CNN要素。然后,汇集每个区域中的要素(通常使用最大池)。所以我们所需要的只是原始图像的一次传递而不是~2000!
快速R-CNN洞察力2:将所有模型组合到一个网络中
need-to-insert-img
快速R-CNN将CNN,分类器和边界框回归器组合成一个单一网络
Fast R-CNN的第二个见解是在单个模型中联合训练CNN,分类器和边界框回归器。之前我们有不同的模型来提取图像特征(CNN),分类(SVM)和收紧边界框(回归量),而 快速R-CNN则使用单个网络来计算所有三个。
您可以在上图中看到这是如何完成的。快速R-CNN用在CNN顶部的softmax层替换SVM分类器以输出分类。它还添加了一个与softmax图层平行的线性回归图层,以输出边界框坐标。这样,所需的所有输出都来自一个网络!以下是此整体模型的输入和输出:
输入 :带有区域提案的图像。
输出 :每个区域的对象分类以及更严格的边界框。
2016年:更快的R-CNN - 加速地区提案
即使有了所有这些进步,快速R-CNN过程仍然存在一个瓶颈 - 区域提议者。正如我们所看到的,检测对象位置的第一步是生成一堆潜在的边界框或感兴趣的区域进行测试。在Fast R-CNN中,这些提议是使用 选择性搜索 创建的,这是一个相当缓慢的过程,被发现是整个过程的瓶颈。
need-to-insert-img
微软研究院的首席研究员孙健带领团队领导更快的R-CNN。
在2015年中期,由Shaoqing Ren,Kaiming He,Ross Girshick和Jian Sun组成的微软研究团队找到了一种方法,通过他们(创造性地)命名为快速R-CNN的架构,使该区域提案步骤几乎免费。
更快的R-CNN的见解是区域建议取决于已经通过CNN的前向传递(分类的第一步)计算的图像的特征。 那么为什么不为区域提案重用那些相同的CNN结果而不是运行单独的选择性搜索算法呢?
need-to-insert-img
在Faster R-CNN中,单个CNN用于区域提议和分类。
实际上,这正是R-CNN团队更快取得的成就。在上图中,您可以看到单个CNN如何用于执行区域提议和分类。这样, 只有一个CNN需要接受培训 ,我们几乎可以免费获得地区建议!作者写道:
我们的观察结果是,基于区域的探测器(如Fast R-CNN)使用的卷积特征图也可用于生成区域提议[从而实现几乎无成本的区域提议]。
以下是其模型的输入和输出:
输入 :图像(注意不需要区域提议)。
输出 :图像中对象的分类和边界框坐标。
如何生成区域
让我们花点时间看看R-CNN如何通过CNN功能更快地生成这些区域提案。Faster R-CNN在CNN的功能之上增加了一个完全卷积网络,创建了所谓的 区域提案网络 。
need-to-insert-img
区域提案网络在CNN的功能上滑动窗口。在每个窗口位置,网络输出每个锚点的分数和边界框(因此4k框坐标,其中k是锚的数量)。
区域提议网络通过在CNN特征映射和每个窗口上传递滑动窗口来工作,输出 k个 潜在的边界框以及每个框预期有多好的分数。这些 k 盒代表什么?
need-to-insert-img
我们知道人们的边界框往往是矩形和垂直的。我们可以通过创建这样的维度锚来利用这种直觉来指导我们的区域提案网络。
直觉上,我们知道图像中的对象应该适合某些常见的宽高比和大小。例如,我们知道我们想要一些类似于人类形状的矩形盒子。同样,我们知道我们不会看到很多非常薄的盒子。以这种方式,我们创建 k 这样的常见宽高比,我们称之为 锚盒 。对于每个这样的锚箱,我们输出一个边界框并在图像中的每个位置得分。
考虑到这些锚框,我们来看看这个区域提案网络的输入和输出:
输入 :CNN功能图。
输出 :每个锚点的边界框。表示该边界框中图像成为对象的可能性的分数。
然后,我们将可能是对象的每个这样的边界框传递到Fast R-CNN,以生成分类和收紧的边界框。
2017:Mask R-CNN - 扩展更快的R-CNN以实现像素级分割
need-to-insert-img
图像实例分割的目标是在像素级别识别场景中不同的对象是什么。
到目前为止,我们已经看到我们如何能够以许多有趣的方式使用CNN功能来有效地定位带有边界框的图像中的不同对象。
我们是否可以扩展这些技术以进一步找到每个对象的精确像素而不仅仅是边界框?这个问题被称为图像分割,是Kaiming He和包括Girshick在内的一组研究人员在Facebook AI上使用一种名为 Mask R-CNN 的架构进行探索的。
need-to-insert-img
Facebook AI的研究员Kaiming He是Mask R-CNN的主要作者,也是Faster R-CNN的合着者。
就像Fast R-CNN和Faster R-CNN一样,Mask R-CNN的潜在直觉也是直截了当的。鉴于Faster R-CNN在物体检测方面的效果非常好,我们是否可以扩展它以进行像素级分割?
need-to-insert-img
在掩码R-CNN中,在快速R-CNN的CNN特征之上添加完全卷积网络(FCN)以生成掩码(分段输出)。注意这与Faster R-CNN的分类和边界框回归网络并行。
Mask R-CNN通过向更快的R-CNN添加分支来完成此操作,该分支输出二进制掩码,该Mask 表示给定像素是否是对象的一部分。与以前一样,分支(上图中的白色)只是基于CNN的特征映射之上的完全卷积网络。以下是其输入和输出:
输入 :CNN功能图。
输出 :矩阵在像素属于对象的所有位置上为1,在其他位置为0(这称为 二进制掩码 )。
但Mask R-CNN的作者不得不进行一次小调整,以使这条管道按预期工作。
RoiAlign - 重新调整RoIPool更准确
need-to-insert-img
而不是RoIPool,图像通过RoIAlign传递,以便RoIPool选择的特征图的区域更精确地对应于原始图像的区域。这是必需的,因为像素级分割需要比边界框更细粒度的对齐。
当在原始的快速R-CNN架构上运行而没有修改时,Mask R-CNN作者意识到由RoIPool选择的特征图的区域与原始图像的区域略微不对准。由于图像分割需要像素级特异性,与边界框不同,这自然会导致不准确。
作者能够通过巧妙地调整RoIPool来解决这个问题,使用一种称为RoIAlign的方法进行更精确的对齐。
need-to-insert-img
我们如何准确地将感兴趣的区域从原始图像映射到特征图?
想象一下,我们有一个大小为 128x128 的图像和一个大小为 25x25 的特征图。让我们想象一下,我们想要的特征区域对应于原始图像中左上角的 15x15 像素(见上文)。我们如何从要素图中选择这些像素?
我们知道原始图像中的每个像素对应于特征图中的~25 / 128像素。要从原始图像中选择15个像素,我们只选择15 * 25 / 128~ = 2.93 像素。
在RoIPool中,我们将它向下舍入并选择2个像素,导致轻微的错位。但是,在RoIAlign中, 我们避免了这种舍入。 相反,我们使用 双线性插值 来准确了解像素2.93处的内容。这在很大程度上是允许我们避免RoIPool引起的错位的原因。
生成这些掩模后,Mask R-CNN将它们与Faster R-CNN中的分类和边界框组合在一起,生成如此精确的分割:
need-to-insert-img
Mask R-CNN能够对图像中的对象进行分段和分类。
期待
在短短3年时间里,我们已经看到研究界如何从Krizhevsky等进步。al的原始结果是R-CNN,最后一直到Mask R-CNN这样强大的结果。孤立地看,像面具R-CNN这样的结果看起来像天才的难以置信的飞跃,是无法接近的。然而,通过这篇文章,我希望你已经看到这些进步如何通过多年的努力和合作实现直观,渐进的改进。R-CNN,Fast R-CNN,Faster R-CNN以及最后的Mask R-CNN提出的每个想法都不一定是量子跳跃,但它们的总和产品已经产生了非常显着的结果,使我们更接近人类水平了解视力。
让我特别兴奋的是,R-CNN和Mask R-CNN之间的时间只有三年!通过持续的资金,关注和支持,未来计算机视觉能够进一步提升?
图像识别技术论文
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
2.1 指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
2.2 人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
2.3 文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K ation Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
各位有没有数字图像处理方面的本科毕业论文题目
1 基于形态学运算的星空图像分割
主要内容: 在获取星图像的过程中,由于某些因素的影响,获得的星图像存在噪声,而且星图像的背景经常是不均匀的,为星图像的分割造成了极大的困难。膨胀和腐蚀是形态学的两个基本运算。用形态学运算对星图像进行处理,补偿不均匀的星图像背景,然后进行星图像的阈值分割。 要求: 1>
图像预处理:对原始星空图像进行滤波去噪处理; 2> 对去噪后的图像进行形态学运算处理; 3>
选取自适应阈值对形态学运算处理后的图像进行二值化;
4> 显示每步处理后的图像; 5>
对经过形态学处理后再阈值的图像和未作形态学处理后再阈值的图像进行对比分析。 待分割图像 直接分割图像
处理后的分割图像 2 基于数字图像处理的印刷电路板智能检测方法 主要内容:
通过对由相机实时获取的印刷电路板图像进行焊盘识别,从而提高电子元件的贴片质量,有效提高电路板的印刷效率。 要求: 1>
图像预处理:将原始彩色印刷电路板图像转成灰度图像,对灰度图像进行背景平滑和滤波去噪; 2> 对去噪后的图像进行图像增强处理,增强边缘提取的效果。 3> 对增强后的图像进行边缘提取(至少两种以上的边缘提取算法); 4> 显示每步处理后的图像(原始电路板图像可自行查找); 5>
图像处理后要求能对每个焊盘进行边缘提取,边缘清晰。
医学图像中GAN2019综述
论文: Generative adversarial network in medical imaging: A review
这篇文章发表于顶刊Medical Imaging Analysis 2019上,文章细数了GAN应用于医学图像的七大领域——重建(图像去噪)、合成、分割、分类、检测、配准和其他工作,并介绍了包括医学图像数据集、度量指标等内容,并对未来工作做出展望。由于笔者研究方向之故,本博客暂时只关注重建、合成部分的应用。关于该论文中所有列出的文章,均可在 GitHub链接 中找到。
GAN在医学成像中通常有两种使用方式。第一个重点是生成方面,可以帮助探索和发现训练数据的基础结构以及学习生成新图像。此属性使GAN在应对数据短缺和患者隐私方面非常有前途。第二个重点是判别方面,其中辨别器D可以被视为正常图像的先验知识,因此在呈现异常图像时可以将其用作正则器或检测器。示例(a),(b),(c),(d),(e),(f)侧重于生成方面,而示例 (g) 利用了区分性方面。下面我们看一下应用到分割领域的文章。
(a)左侧显示被噪声污染的低剂量CT,右侧显示降噪的CT,该CT很好地保留了肝脏中的低对比度区域[1]。 (b)左侧显示MR图像,右侧显示合成的相应CT。在生成的CT图像中很好地描绘了骨骼结构[2]。 (c)生成的视网膜眼底图像具有如左血管图所示的确切血管结构[3]。(d)随机噪声(恶性和良性的混合物)随机产生的皮肤病变[4]。 (e)成人胸部X光片的器官(肺和心脏)分割实例。肺和心脏的形状受对抗性损失的调节[5]。 (f)第三列显示了在SWI序列上经过域调整的脑病变分割结果,无需经过相应的手动注释训练[6]。 (g) 视网膜光学相干断层扫描图像的异常检测[7]。
通常,研究人员使用像像素或逐像素损失(例如交叉熵)进行分割。尽管使用了U-net来组合低级和高级功能,但不能保证最终分割图的空间一致性。传统上,通常采用条件随机场(CRF)和图割方法通过结合空间相关性来进行细分。它们的局限性在于,它们仅考虑可能在低对比度区域中导致严重边界泄漏的 pair-wise potentials (二元势函数 -- CRF术语)。另一方面,鉴别器引入的对抗性损失可以考虑到高阶势能。在这种情况下,鉴别器可被视为形状调节器。当感兴趣的对象具有紧凑的形状时,例如物体,这种正则化效果更加显着。用于肺和心脏mask,但对诸如血管和导管等可变形物体的用处较小。这种调节效果还可以应用于分割器(生成器)的内部特征,以实现域(不同的扫描仪,成像协议,模态)的不变性[8、9]。对抗性损失也可以看作是f分割网络(生成器)的输出和 Ground Truth 之间的自适应学习相似性度量。因此,判别网络不是在像素域中测量相似度,而是将输入投影到低维流形并在那里测量相似度。这个想法类似于感知损失。不同之处在于,感知损失是根据自然图像上的预训练分类网络计算而来的,而对抗损失则是根据在生成器演变过程中经过自适应训练的网络计算的。
[10] 在鉴别器中使用了多尺度L1损失,其中比较了来自不同深度的特征。事实证明,这可以有效地对分割图执行多尺度的空间约束,并且系统在BRATS 13和15挑战中达到了最先进的性能。 [11] 建议在分割管道中同时使用带注释的图像和未带注释的图像。带注释的图像的使用方式与 [10] 中的相同。 [10] 和 [12] ,同时应用了基于元素的损失和对抗性损失。另一方面,未注释的图像仅用于计算分割图以混淆鉴别器。 [13] 将pix2pix与ACGAN结合使用以分割不同细胞类型的荧光显微镜图像。他们发现,辅助分类器分支的引入为区分器和细分器提供了调节。
这些前述的分割训练中采用对抗训练来确保最终分割图上更高阶结构的一致性,与之不同的是, [14] -- code 中的对抗训练方案,将网络不变性强加给训练样本的小扰动,以减少小数据集的过度拟合。表中总结了与医学图像分割有关的论文。
参考链接:
[1] X. Yi, P. Babyn. Sharpness-aware low-dose ct denoising using conditional generative adversarial network. J. Digit. Imaging (2018), pp. 1-15
[2] J.M. Wolterink, A.M. Dinkla, M.H. Savenije, P.R. Seevinck, C.A. van den Berg, I. Išgum. Deep MR to CT synthesis using unpaired data International Workshop on Simulation and Synthesis in Medical Imaging, Springer (2017), pp. 14-23
[3] P. Costa, A. Galdran, M.I. Meyer, M. Niemeijer, M. Abràmoff, A.M. Mendonça, A. Campilho. End-to-end adversarial retinal image synthesis IEEE Trans. Med. Imaging(2017)
[4] Yi, X., Walia, E., Babyn, P., 2018. Unsupervised and semi-supervised learning with categorical generative adversarial networks assisted by Wasserstein distance for dermoscopy image classification. arXiv:1804.03700 .
[5] Dai, W., Doyle, J., Liang, X., Zhang, H., Dong, N., Li, Y., Xing, E.P., 2017b. Scan: structure correcting adversarial network for chest x-rays organ segmentation. arXiv: 1703.08770 .
[6] K. Kamnitsas, C. Baumgartner, C. Ledig, V. Newcombe, J. Simpson, A. Kane, D. Menon, A. Nori, A. Criminisi, D. Rueckert, et al. Unsupervised domain adaptation in brain lesion segmentation with adversarial networks International Conference on Information Processing in Medical Imaging, Springer (2017), pp. 597-609
[7] T. Schlegl, P. Seeböck, S.M. Waldstein, U. Schmidt-Erfurth, G. Langs Unsupervised anomaly detection with generative adversarial networks to guide marker discovery International Conference on Information Processing in Medical Imaging, Springer (2017), pp. 146-157
[8] K. Kamnitsas, C. Baumgartner, C. Ledig, V. Newcombe, J. Simpson, A. Kane, D. Menon, A. Nori, A. Criminisi, D. Rueckert, et al. Unsupervised domain adaptation in brain lesion segmentation with adversarial networks International Conference on Information Processing in Medical Imaging, Springer (2017), pp. 597-609
[9] Dou, Q., Ouyang, C., Chen, C., Chen, H., Heng, P.-A., 2018. Unsupervised cross-modality domain adaptation of convnets for biomedical image segmentations with adversarial loss. arXiv: 1804.10916 .
[10] Y. Xue, T. Xu, H. Zhang, L.R. Long, X. Huang Segan: adversarial network with multi-scale l 1 loss for medical image segmentation Neuroinformatics, 16 (3–4) (2018), pp. 383-392
[11] Y. Zhang, L. Yang, J. Chen, M. Fredericksen, D.P. Hughes, D.Z. Chen. Deep adversarial networks for biomedical image segmentation utilizing unannotated images International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer (2017), pp. 408-416
[12] Son, J., Park, S.J., Jung, K.-H., 2017. Retinal vessel segmentation in fundoscopic images with generative adversarial networks. arXiv: 1706.09318 .
[13] Y. Li, L. Shen. CC-GAN: a robust transfer-learning framework for hep-2 specimen image segmentation IEEE Access, 6 (2018), pp. 14048-14058
[14] W. Zhu, X. Xiang, T.D. Tran, G.D. Hager, X. Xie. Adversarial deep structured nets for mass segmentation from mammograms 2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI 2018), IEEE (2018)
[15] D. Yang, D. Xu, S.K. Zhou, B. Georgescu, M. Chen, S. Grbic, D. Metaxas, D. Comaniciu. Automatic liver segmentation using an adversarial image-to-image network International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer (2017), pp. 507-515
[16] Dou, Q., Ouyang, C., Chen, C., Chen, H., Heng, P.-A., 2018. Unsupervised cross-modality domain adaptation of convnets for biomedical image segmentations with adversarial loss. arXiv: 1804.10916 .
[17] Rezaei, M., Yang, H., Meinel, C., 2018a. Conditional generative refinement adversarial networks for unbalanced medical image semantic segmentation. arXiv: 1810.03871 .
[18] A. Sekuboyina, M. Rempfler, J. Kukačka, G. Tetteh, A. Valentinitsch, J.S. Kirschke, B.H. Menze. Btrfly net: Vertebrae labelling with energy-based adversarial learning of local spine prior International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, Cham (2018)
[19] M. Rezaei, K. Harmuth, W. Gierke, T. Kellermeier, M. Fischer, H. Yang, C. Meinel. A conditional adversarial network for semantic segmentation of brain tumor
International MICCAI Brainlesion Workshop, Springer (2017), pp. 241-252
[20] P. Moeskops, M. Veta, M.W. Lafarge, K.A. Eppenhof, J.P. Pluim. Adversarial training and dilated convolutions for brain MRI segmentation Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support, Springer (2017), pp. 56-64
[21] Kohl, S., Bonekamp, D., Schlemmer, H.-P., Yaqubi, K., Hohenfellner, M., Hadaschik, B., Radtke, J.-P., Maier-Hein, K., 2017. Adversarial networks for the detection of aggressive prostate cancer. arXiv: 1702.08014 .
[22]Y. Huo, Z. Xu, S. Bao, C. Bermudez, A.J. Plassard, J. Liu, Y. Yao, A. Assad, R.G. Abramson, B.A. Landman. Splenomegaly segmentation using global convolutional kernels and conditional generative adversarial networks Medical Imaging 2018: Image Processing, 10574, International Society for Optics and Photonics (2018), p. 1057409
[23]K. Kamnitsas, C. Baumgartner, C. Ledig, V. Newcombe, J. Simpson, A. Kane, D. Menon, A. Nori, A. Criminisi, D. Rueckert, et al. Unsupervised domain adaptation in brain lesion segmentation with adversarial networks International Conference on Information Processing in Medical Imaging, Springer (2017), pp. 597-609
[24]Z. Han, B. Wei, A. Mercado, S. Leung, S. Li. Spine-GAN: semantic segmentation of multiple spinal structures Med. Image Anal., 50 (2018), pp. 23-35
[25]M. Zhao, L. Wang, J. Chen, D. Nie, Y. Cong, S. Ahmad, A. Ho, P. Yuan, S.H. Fung, H.H. Deng, et al. Craniomaxillofacial bony structures segmentation from MRI with deep-supervision adversarial learning International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer (2018), pp. 720-727
[26] Son, J., Park, S.J., Jung, K.-H., 2017. Retinal vessel segmentation in fundoscopic images with generative adversarial networks. arXiv: 1706.09318 .
[27]Y. Li, L. Shen. CC-GAN: a robust transfer-learning framework for hep-2 specimen image segmentation IEEE Access, 6 (2018), pp. 14048-14058
[28] S. Izadi, Z. Mirikharaji, J. Kawahara, G. Hamarneh. Generative adversarial networks to segment skin lesions Biomedical Imaging (ISBI 2018), 2018 IEEE 15th International Symposium on, IEEE (2018), pp. 881-884
Close
[29]W. Zhu, X. Xiang, T.D. Tran, G.D. Hager, X. Xie. Adversarial deep structured nets for mass segmentation from mammograms 2018 IEEE 15th International Symposium on Biomedical Imaging (ISBI 2018), IEEE (2018)
上一篇:英语传媒论文题目
下一篇:底线的议论文素材