潇湘涵雪
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
羊咩咩要攒钱
这不是你所问的答案,而是“语言符号是约定俗成的吗”的答案在中国的先秦和欧洲的古希腊时期,这个问题都曾经是哲学家们争论的焦点。东西方在那个时间大致相近的时代都出现了学术上的百家争鸣。那个时代的学术气象宏大,崇尚追求真理的精神,所以人类语言的发生也是哲学家们所关注的。当时东西方就都有本质说和约定说两种主张。到了近代资本主义发展的前期,十七八世纪,欧洲还出现过与语言符号问题实为一体的语言起源问题的争论,它甚至是学界关注的焦点。1769年,柏林普鲁士皇家科学院甚至决定设立专项奖来征求有关语言起源问题的最佳解答,来自欧洲各国的数十名学者参加了竞争……在中国,与此大致相当的时期,清代乾嘉时期及其后的学者们,也从实学的角度再次进入语言符号即音义关系问题。但是,从十九世纪起,欧洲的许多语言学家就拒绝再讨论语言起源问题,因为他们认为这个问题的答案无法得到证实。 奇怪的是,他们一方面认为语言起源问题的答案无法证实,一方面却在学术界承认一种答案:语言发生时语言符号是约定即任意的。而且成为一个原则,没有人反对!现代语言学之父索绪尔说:“曾几何时,人们把名称派分给事物,在概念和音响形象之间订立了一种契约———这种行为是可以设想的,但是从来没有得到证实。我们对符号的任意性有一种非常敏感的感觉,这使我们想到事情可能是这样。”语言符号的任意性,这种从来没有得到证实,只是想当然以为应该是这样的东西,成了语言符号的头等重要的特征和关于语言符号的第一原则。是否可以说,从拒绝讨论语言是怎么发生的,到想当然地认为语言之初语言符号是约定的,以之为语言符号的第一原则,不但是缺乏追求真理的精神,而且是缺乏科学的严谨? 我总不明白,语言发生时语言符号是怎么约定的?因为“约定”就必须使用语言,那么这最早的、用来“约定”的语言是怎么来的?否则难道“约定”是打手势?约定俗成是一种社会行为,因此它还得有一个假设作前提,即语言是在人类社会的某一个时间内才产生的,而不是随着从动物到人的漫长的进化而慢慢不断协调、调整、演变、完满、丰富起来的。单就这一点就很让人疑惑,因为我们会问,语言符号约定之前,人或人之前的猴子是怎么交流思想的?如果一开始不是用语言而是用另一种方式,那么后来是怎么突变,换成另一种交流工具即发声语言的?语言的生理机制难道是突然发达起来的吗?如果人类语言发明之前一直没有语言的交流,语言的生理机制如何进化,大脑的思维能力又如何发展?语言难道是一开始就像人们所理解的人类语言那样完满的吗?如果一开始就有语言,那么它就应当是从猴子最初的叫喊开始的,是与动物和人的心智本能联系的而不是人类社会约定的。从动物到人类,是一个渐变的过程,其语言是演变进化的。 我的这些疑问,有传统语言学与近现代西方语言学不同主张碰撞的背景。汉代以来,中国的传统语言文字学,在词义上有非常深入的研究,形成对词的声音(即“名”)与词的意义(涉及“实”)之间的复杂关系的独特认识。他们不是主要在理论层面上讨论名实之间是本质关系还是约定关系,却在具体词义的研究中进入音义关系领域,触及语言的起源问题。这在清代乾嘉时代形成学术的高峰,其精华培育出了清末民初章太炎黄侃刘师培等国学大师。他们以丰富的文献语言材料为根柢,继承和发扬两千年来学术传统的精华,借鉴了印度古代语言学的理论,提出、论述了声音和意义有密切关系的主张,本可以得到弘扬光大,建设有自己特色的中国现代语义学。然而,在西学东渐中,语言学界主流将语言符号的约定说作为现代先进理论引进,奉为圭臬,然后引荀子的“约定俗成”相呼应(其实荀子的“约定俗成”是指后王之成名,而不是指语言之初)。传统词义研究的学术主张遂被轻视、废置。中国的传统语言学,本来在意义研究上是最有成就的,而其核心正是音义关系即语言符号研究。在吸收了西方语言学理论,把“约定俗成”奉为不可逾越的信条之后,意义的研究落到语音、语法甚至文字研究的后面,成为最不发达的学科,其中是否有取彼之短抑己之长的原因?上大学以来,我读清人词义研究著作,虽然其中很少理论的阐述,却在大量的材料中贯串理论主张,让人只要读进去就得承认名实关系并非偶然。于是,我一方面读着本民族的语言材料和传统语言学专著,感受着名实关系的复杂性,一方面却受着引进的现代语言学理论的指导,被灌输以语言符号的约定说。但是,我读清人和章黄著作“中毒”太深,而且很不理解,以西人追求真理的勇气和思想解放的程度,怎么就让这种不加证明的观点成为第一原则而皆无异议呢?在我的学位论文中,虽然没有直接触及语言起源的禁区,而讨论的所有问题,却结结实实地构成向那个方向讨答案的通道。针对约定俗成说成为“共识”的现状,我写道:“哪一种说法要作为定论都为时尚早。” 揣着上述看法,赫尔德的《论语言的起源》引起我的注意是必然的。书的第一句话说:“当人还是动物的时候,就已经有了语言。”这句话就足以让我看上了它。那是在2001年春季图书订货会上,作为陈列品,它不卖,这让我专程到读者服务部去了一趟。赫尔德认为有这样一条自然规律:“我们面前存在着一个有感觉的动物,它不可能把它的任何生动感受禁闭在自身之中;即使不具任何意志和目的,它从一开始就必须把每一种感受用声音表达出来。”人类的声音是与他的感受直接联系的!他还说:“存在着一种感觉的语言,它是自然规律的直接结果。”即语言是自然规律作用的结果。“当人处在他所独有的悟性状态之中,而这一悟性(思考能力[rflexion])初次自由地发挥了作用,他就发明了语言。”语言是由人类所独有的悟性发挥作用而发明的。而悟性当是心智能力对自然客观事物和规律的本能感受。“……这第一个被意识到的特征就是心灵的词!与词一道,语言就被发明了。”心智所意识到的是特征!就是说,人所感受到的不是事物本质属性而是事物特征。“人类思维的所有这些痕迹都刻在了最早的名称上面!”感受经过了思维而发为声音!……这些意见跟我们传统语言学关于语言符号的认识何其相近!请看西方语言学的另一些理论还没有主导我国词汇研究时,我们本土的理论是怎么说的。在清代戴震、段玉裁、王念孙、郝懿行等大师对大量古代文献语言的音义关系进行研究的基础上,清代黄承吉说:“人之生也,凡一声皆为一情,则即是一义。”陈澧说:“声者,肖乎意而生者也。”章太炎演绎荀子“凡同类同情者,其天官之意物也同”的主张,认为名称的命定,是从五官的感受开始,传于心中形成心像,心中的感觉要用声音表现,作成名称,即名称的产生是经过对客观的感受——心中对事物特征的取像——所取的心像表现为声音等过程。这些都是对语言起源的探讨,而都逼近本能说。 作为对语言起源的论证,赫尔德不是像中国的学者那样以材料的丰富明理,而是以哲理和雄辩取胜,他的才气折服了在观点上不同意见的评委,文章获得科学院奖并成为惟一被指定出版的一篇。赫尔德提出语言的发明是人类的本能,来批驳语言神授说。他的根据是,人感受到事物特征就会自然地发出声音,把每一种感受用声音表达出来,就发明了语言。因为语言起源与语言符号问题的同一性,他在语言起源问题的讨论中,指出语言符号是由感受自然发出的,不是什么约定俗成的!这跟两千年来中国传统语言学从大量语言材料出发进行的语源学研究所得的结论极相近。我不明白,赫尔德这么些清新活泼、思辨性强的思想,为什么会被实证主义闷杀,而大家甘心遵奉约定说。革命的思想哪里去了?追求真理的精神哪里去了?我一向钦敬西方学术中的活泼、敏锐、求真,这一点却让我感到他们的学术中也有不可信的东西。所以,我引赫尔德的话并没有“引经据典”的意思——不能引一个西人的主张以证明另一批西人的主张之非,而是钦敬他的革命性思想和自由活泼的思维,敢于向成说挑战的精神。真理是需要辩论的,学术不能拒绝辩论。赫尔德的出发点是反对神授说,他有一种革命的精神,而十九世纪的拒绝讨论就导致保守,无怪乎会信奉约定说。不要把西方的约定说奉为圣经,这是我读赫尔德最有心得的地方。至于他的具体观点与我们传统的观点可以相发明,则是居其次的。 赫尔德也有矛盾的地方。他为批驳神授说,提出“当人还是动物的时候,就已经有了语言”。同时,他为了批驳约定说,提出人的悟性一开始就处于完备状态,足以发明语言。前者本来可以说明语言是随着从动物到人类的演化而演进的,后者则说明语言是人在有悟性即成为人之后而发明的。那么,人还是动物时的语言,是不是后来突然中断,被代之以人成为人之后的即悟性所发明的语言呢?这种中断和突变是可能的吗?其实,语言(包括它所含有的思想)是随着从动物到人的物种演进而演进、发达、丰富的,同时,悟性(包括理性、思维能力)也是随着动物到人的进化而演进、发达的。总之,在进化中动物与人之间没有一条判然分别的分界线。(《论语言的起源》,[德].赫尔德著,姚小平译,商务印书馆,1999年)
清水颐园
研究课题申报中“目前的研究状况”是指研究课题目前国内外有些什么研究成果,以及对这些成果的观点综述。写国内外研究现状应注意:
1、文中反映最新研究成果。预期成果一般是论文或调查(实验)报告等形式。成果表达方式是通过文字、图片、实物和多媒体等形式来表现。
2、如果没有与毕业论文选题直接相关的文献,选择一些与毕业论文选题比较靠近的内容来写。另外,还应提出该课题目前已做了哪些工作,还存在哪些困难和问题,在哪些方面需要得到学校和老师帮助等。
写研究状况方法
1、 研究背景研究背景即提出问题,阐述研究该课题的原因。研究背景包括理论背景和现实需要。还要综述国内外关于同类课题研究的现状。
2、目的意义目的意义是指通过该课题研究将解决什么问题(或得到什么结论),而这一问题的解决(或结论的得出)有什么意义。有时将研究背景和目的意义合二为一。
3、成员分工成员分工应是指课题组成员在研究过程中所担负的具体职责,要人人有事干、个个担责任。组长负责协调、组织。
4、实施计划实施计划是课题方案的核心部分,它主要包括研究内容、研究方法和时间安排等。研究内容是指可操作的东西,一般包括:研究方向;子课题(数目和标题);与研究方案有关的内容,即要通过什么、达到什么等等;研究方法要写明是文献研究还是实验、调查研究。
5、可行性论证可行性论证是指课题研究所需的条件,即研究所需的信息资料、实验器材、研究经费、学生的知识水平和技能及教师的指导能力。
椰子の童話
姓名:吴兆阳 学号: 转自机器人学习研究会 嵌牛导读:OCR(Optical Character Recognition,光学字符识别)的概念早于1920年代便被提出,一直是模式识别领域中重要的研究方向。近年来,随着移动设备的快速更新迭代,以及移动互联网的快速发展,使得OCR有更为广泛的应用场景,从以往的扫描文件的字符识别,到现在应用到自然场景中图片文字的识别,如识别身份证、银行卡、门牌、票据及各类网络图片中的文字。 嵌牛鼻子:ORC技术 嵌牛提问:什么是ORC,如何使用? 嵌牛正文: 以深度学习兴起的时间为分割点,直至近五年之前,业界最为广泛使用的仍然是传统的OCR识别技术框架,而随着深度学习的崛起,基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈(如文字定位、二值化和文字分割等),并已在工业界得到广泛应用。 笔者针对业务中的身份证照片文字识别需求分别尝试了传统OCR识别框架及基于深度学习的OCR识别框架。下面就以身份证文字识别为例分别简要介绍两种识别框架。 传统OCR技术框架 如上图所示,传统OCR技术框架主要分为五个步骤: 首先文本定位,接着进行倾斜文本矫正,之后分割出单字后,并对单字识别,最后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错。可按处理方式划分为三个阶段:预处理阶段、识别阶段和后处理阶段。其中关键在于预处理阶段,预处理阶段的质量直接决定了最终的识别效果,因此这里详细介绍下预处理阶段。 预处理阶段中包含了三步: 定位图片中的文字区域,而文字检测主要基于连通域分析的方法,主要思想是利用文字颜色、亮度、边缘信息进行聚类的方式来快速分离文字区域与非文字区域,较为流行的两个算法分别是:最大极值稳定区域(MSER)算法及笔画宽度变换(SWT)算法,而在自然场景中因受到光照强度、图片拍摄质量和类文字背景的干扰,使得检测结果中包含非常多的非文字区域,而目前从候选区域区分出真正文字区域主要两种方法,用规则判断或轻量级的神经网络模型进行区分; 文本区域图像矫正,主要基于旋转变换和仿射变换; 行列分割提取出单字,这一步利用文字在行列间存在间隙的特征,通过二值化并在投影后找出行列分割点,当在文字与背景的区分度较好时,效果很好,而拍摄的图片中光照、摄像质量的影响,并且文字背景难以区分时,常造成错误分割的情况。 下面介绍基于传统OCR框架处理身份证文字识别: 身份证识别技术流程与上述框架稍微有所差异。对该问题,已知先验信息:a.证件长宽固定;b.字体及大小一致;c.文本相对于证件位置固定;d.存在固定文字。因此,处理该问题的思路为:先定位目标物体(证件),矫正后提取文字进行识别,最后进行语义纠错,如下图: 目标物体定位并矫正。基于现有的先验信息,定位最后的方法为采用模板关键点特征匹配的方法,并利用模板上特征点及目标图像特征点坐标之间的关系进行透视变换,以定位目标物体,如下图所示。接着,基于四角的坐标,进行旋转、仿射、尺寸的变换,并提取出目标物体的俯视图。 因文字位置相对固定,接着便分割出文字区域,二值化后,行列分割出单个字符。这里的技术难点在于二值化,二值化效果的好坏直接影响字符分割,并最终影响识别结果。受光照和拍摄质量的影响,全局二值化难以设置统一的阈值,而自适应二值化算法易受到阴影及模糊边界的干扰。所以在这边尝试过许多方法,测试下来未发现在任何情形下效果都满足要求的方法。 分割出单字后接着用分类器进行识别,并在这步基于统计上的先验信息定义了一个简单的优化函数,可看做1-gram语言模型。先验信息为:2400(总共660273)汉字的使用频率之和为99%以上。定义的优化函数为: 式中,Pi为该字出现的概率,confi为置信度值。 下图给出了示例: 因上述的优化过程中假定各状态相互独立并与上一状态没有联系,故不可避免存在语义上的错误。而如何基于现有的输出序列,对序列进行语义上的修正,那么最直观的想法就是用隐马尔可夫模型(Hidden Markov Model,HMM)解决这个问题,其基于观察序列,求出最优隐序列。其可以抽象为如下图的过程。在给定O序列情况下,通过维特比算法,找出最优序列S: 传统OCR冗长的处理流程以及大量人工规则的存在,使得每步的错误不断累积,而使得最终识别结果难以满足实际需求。接下来讨论基于深度学习的OCR。 基于深度学习的OCR识别框架 目前,从技术流程上来说,主要分为两步,首先是检测出图像中的文本行,接着进行序列识别。 可见,基于深度学习的OCR识别框架相比于传统OCR识别框架,减少了三个步骤,降低了因误差累积对最终识别结果的影响。 文本行检测,其又可分为水平行文字检测算法与倾斜文字行检测算法。这里主要介绍下Tian提出算法CTPN,其算法框架如下图。主要思路是将文本行识别看做一个序列识别问题,不同于一般的目标检测问题,引入RNN来利用上下文的信息。 具体流程为: 用VGG16的5个卷积层得到特征图(feature map,W*H*C); 在Conv5的feature map的每个位置上取3*3*C的窗口的特征,这些特征将用于预测该位置k个anchor(anchor的定义和Faster RCNN类似)对应的类别信息,位置信息; 将每一行的所有窗口对应的3*3*C的特征(W*3*3*C)输入到RNN(BLSTM)中,得到W*256的输出; 将RNN的W*256输入到512维的fc层; fc层特征输入到三个分类或者回归层中。第二个2k scores 表示的是k个anchor的类别信息(是字符或不是字符)。第一个2k vertical coordinate和第三个k side-refinement是用来回归k个anchor的位置信息。2k vertical coordinate表示的是bounding box的高度和中心的y轴坐标(可以决定上下边界),k个side-refinement表示的bounding box的水平平移量。这边注意,只用了3个参数表示回归的bounding box,因为这里默认了每个anchor的width是16,且不再变化(VGG16的conv5的stride是16)。回归出来的box如中那些红色的细长矩形,它们的宽度是一定的; 用简单的文本线构造算法,把分类得到的文字的proposal(图(b)中的细长的矩形)合并成文本线。 上图为给出基于CTPN的例子,框线部分是算法识别出的文字行,可见在图片光照不均、人工合成及文字背景对比不明显的情形下均有很好的效果。 相比于传统文字定位方法,具有更好的鲁棒性及明显的优势。 文字行识别。近两年比较受关注的主要有两种,一种是CNN+RNN+CTC的方法,另外一种是用attention model+CNN+RNN的方法。这里主要介绍下CNN+RNN+CTC,算法框架由图给出。分为三层,CNN层、RNN层及解码(transcription)层。在CNN层,用于提取图像特征,利用Map-to-Sequence表示成特征向量;在RNN层,用双向LSTM识别特征向量,得到每列特征的概率分布;在解码层,利用CTC和前向后向算法求解最优的label序列。因此,该方法能够识别不定长的文字行。 两个例子: Out:辽宁省长海县广鹿乡沙尖 Out:河南省邓州市九龙乡姚营
由于室内无线光通信所具有的灵活、便捷及高速等特性,在国外,如美国,日本等国家,许多研究所和企业长期进行该领域的研究,并陆续有产品从实验室走向商用。自从1979年
随着我国教育事业的发展,大家对小学低年级学生识字能力培养方面的教学研究逐渐增多。在这样的情况下,有关培养小学低年级学生自主识字能力的教学方法也日渐丰富,不过,在
在知网有一篇这个文章,如果你需要我发给你,改革开放以来,伴随着经济增长、综合国力和人民生活水平的提高,政府信用状况日益受到人们的广泛关注。客观来说,当前我国政府
俗话说的好:写字有书法;弹琴有指法;绘画有画法;家庭有家法;国家有国法.一切有法皆可依,没有规矩怎能成方圆?因为有了各种法,国家才能安定祥和,家庭才能和睦,我们
近年来,国外学者对红楼梦中女权意识的研究取得了很大进展。例如,美国著名学者艾伦·福克斯在其著作《红楼梦:女性主义视角》中,从女性主义视角分析了红楼梦中的女性角色