ocr检测论文综述

4个回答默认排序

默认排序

按时间排序

wangbaoxin888

已采纳

公式和图表没事引用不能太高点我名字看空间有介绍有的同学问：“我明明引用了别人的段落或句子，为什么没有检测出来？”也有的同学问：“我的引用标注了出处，为什么还算抄袭？”首先，引用算不算抄袭，与标注出处没有任何关系，引用能不能检测出来，与系统准不准确也没有关系。所有这些都靠系统的阀值来决定。中国知网对该套检测系统的灵敏度设置了一个阀值，该阀值为3%，以段落（或章节）的字数来计算，单篇文献低于3%的抄袭或引用是检测不出来的，这种情况常见于大段文字中的小句或者小概念。举个例子：假如检测段落1（第一章）有10000字，那么引用A文献300字（10000乘以3%=300）以内，是不会被检测出来的。若引用B文献超过300字，那么B文献分布于第一章中的抄袭都会被红字标注，不管位于第一章何处，即使打断成句子，只要超过20字就会被标注。①实际上这里也告诉同学们一个修改的方法，就是对段落抄袭千万不要选一篇文章来引用，尽可能多的选择多篇文献，一篇截取几句，这样是不会被检测出来的。②关于一些同学问引用的为什么也算抄袭，这里主要是因为知网的阀值问题，高于3%的统一算抄袭，也就是说引用于抄袭的临界就在3%之间。一旦你超标，即使你标注了引用也无济于事。所以请同学们注意。我们举例说明：某篇论文第一章有5000字，那么第一章中，我们就只能引用A文献150字以下，否则会被系统认为是抄袭。第二章4000字，那么我们只能引用A文献120字以下，否则会被系统认为是抄袭。第三章8000字，第四章7000字，分别为240字以下和210字以下，以此类推。综上所述，引用超标的计算方式是按章计算，这与抄袭的计算方式是一样的。

275 评论 2小时前发布

小淘淘0312

姓名:吴兆阳学号: 转自机器人学习研究会嵌牛导读:OCR（Optical Character Recognition，光学字符识别）的概念早于1920年代便被提出，一直是模式识别领域中重要的研究方向。近年来，随着移动设备的快速更新迭代，以及移动互联网的快速发展，使得OCR有更为广泛的应用场景，从以往的扫描文件的字符识别，到现在应用到自然场景中图片文字的识别，如识别身份证、银行卡、门牌、票据及各类网络图片中的文字。嵌牛鼻子:ORC技术嵌牛提问:什么是ORC，如何使用？嵌牛正文: 以深度学习兴起的时间为分割点，直至近五年之前，业界最为广泛使用的仍然是传统的OCR识别技术框架，而随着深度学习的崛起，基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈（如文字定位、二值化和文字分割等），并已在工业界得到广泛应用。笔者针对业务中的身份证照片文字识别需求分别尝试了传统OCR识别框架及基于深度学习的OCR识别框架。下面就以身份证文字识别为例分别简要介绍两种识别框架。传统OCR技术框架如上图所示，传统OCR技术框架主要分为五个步骤：首先文本定位，接着进行倾斜文本矫正，之后分割出单字后，并对单字识别，最后基于统计模型（如隐马尔科夫链，HMM）进行语义纠错。可按处理方式划分为三个阶段：预处理阶段、识别阶段和后处理阶段。其中关键在于预处理阶段，预处理阶段的质量直接决定了最终的识别效果，因此这里详细介绍下预处理阶段。预处理阶段中包含了三步：定位图片中的文字区域，而文字检测主要基于连通域分析的方法，主要思想是利用文字颜色、亮度、边缘信息进行聚类的方式来快速分离文字区域与非文字区域，较为流行的两个算法分别是：最大极值稳定区域(MSER)算法及笔画宽度变换(SWT)算法，而在自然场景中因受到光照强度、图片拍摄质量和类文字背景的干扰，使得检测结果中包含非常多的非文字区域，而目前从候选区域区分出真正文字区域主要两种方法，用规则判断或轻量级的神经网络模型进行区分；文本区域图像矫正，主要基于旋转变换和仿射变换；行列分割提取出单字，这一步利用文字在行列间存在间隙的特征，通过二值化并在投影后找出行列分割点，当在文字与背景的区分度较好时，效果很好，而拍摄的图片中光照、摄像质量的影响，并且文字背景难以区分时，常造成错误分割的情况。下面介绍基于传统OCR框架处理身份证文字识别：身份证识别技术流程与上述框架稍微有所差异。对该问题，已知先验信息：a.证件长宽固定；b.字体及大小一致；c.文本相对于证件位置固定；d.存在固定文字。因此，处理该问题的思路为：先定位目标物体（证件），矫正后提取文字进行识别，最后进行语义纠错，如下图：目标物体定位并矫正。基于现有的先验信息，定位最后的方法为采用模板关键点特征匹配的方法，并利用模板上特征点及目标图像特征点坐标之间的关系进行透视变换，以定位目标物体，如下图所示。接着，基于四角的坐标，进行旋转、仿射、尺寸的变换，并提取出目标物体的俯视图。因文字位置相对固定，接着便分割出文字区域，二值化后，行列分割出单个字符。这里的技术难点在于二值化，二值化效果的好坏直接影响字符分割，并最终影响识别结果。受光照和拍摄质量的影响，全局二值化难以设置统一的阈值，而自适应二值化算法易受到阴影及模糊边界的干扰。所以在这边尝试过许多方法，测试下来未发现在任何情形下效果都满足要求的方法。分割出单字后接着用分类器进行识别，并在这步基于统计上的先验信息定义了一个简单的优化函数，可看做1-gram语言模型。先验信息为：2400（总共660273）汉字的使用频率之和为99%以上。定义的优化函数为：式中，Pi为该字出现的概率，confi为置信度值。下图给出了示例：因上述的优化过程中假定各状态相互独立并与上一状态没有联系，故不可避免存在语义上的错误。而如何基于现有的输出序列，对序列进行语义上的修正，那么最直观的想法就是用隐马尔可夫模型（Hidden Markov Model，HMM）解决这个问题，其基于观察序列，求出最优隐序列。其可以抽象为如下图的过程。在给定O序列情况下，通过维特比算法，找出最优序列S：传统OCR冗长的处理流程以及大量人工规则的存在，使得每步的错误不断累积，而使得最终识别结果难以满足实际需求。接下来讨论基于深度学习的OCR。基于深度学习的OCR识别框架目前，从技术流程上来说，主要分为两步，首先是检测出图像中的文本行，接着进行序列识别。可见，基于深度学习的OCR识别框架相比于传统OCR识别框架，减少了三个步骤，降低了因误差累积对最终识别结果的影响。文本行检测，其又可分为水平行文字检测算法与倾斜文字行检测算法。这里主要介绍下Tian提出算法CTPN，其算法框架如下图。主要思路是将文本行识别看做一个序列识别问题，不同于一般的目标检测问题，引入RNN来利用上下文的信息。具体流程为：用VGG16的5个卷积层得到特征图（feature map，W*H*C）；在Conv5的feature map的每个位置上取3*3*C的窗口的特征，这些特征将用于预测该位置k个anchor（anchor的定义和Faster RCNN类似）对应的类别信息，位置信息；将每一行的所有窗口对应的3*3*C的特征（W*3*3*C）输入到RNN（BLSTM）中，得到W*256的输出；将RNN的W*256输入到512维的fc层； fc层特征输入到三个分类或者回归层中。第二个2k scores 表示的是k个anchor的类别信息（是字符或不是字符）。第一个2k vertical coordinate和第三个k side-refinement是用来回归k个anchor的位置信息。2k vertical coordinate表示的是bounding box的高度和中心的y轴坐标（可以决定上下边界），k个side-refinement表示的bounding box的水平平移量。这边注意，只用了3个参数表示回归的bounding box，因为这里默认了每个anchor的width是16，且不再变化（VGG16的conv5的stride是16）。回归出来的box如中那些红色的细长矩形，它们的宽度是一定的；用简单的文本线构造算法，把分类得到的文字的proposal（图（b）中的细长的矩形）合并成文本线。上图为给出基于CTPN的例子，框线部分是算法识别出的文字行，可见在图片光照不均、人工合成及文字背景对比不明显的情形下均有很好的效果。相比于传统文字定位方法，具有更好的鲁棒性及明显的优势。文字行识别。近两年比较受关注的主要有两种，一种是CNN+RNN+CTC的方法，另外一种是用attention model+CNN+RNN的方法。这里主要介绍下CNN+RNN+CTC，算法框架由图给出。分为三层，CNN层、RNN层及解码（transcription）层。在CNN层，用于提取图像特征，利用Map-to-Sequence表示成特征向量；在RNN层，用双向LSTM识别特征向量，得到每列特征的概率分布；在解码层，利用CTC和前向后向算法求解最优的label序列。因此，该方法能够识别不定长的文字行。两个例子： Out：辽宁省长海县广鹿乡沙尖 Out：河南省邓州市九龙乡姚营

354 评论 5小时前发布

大熊是个小太阳

知网查重时能否检测到公式归结于提交论文格式Word还是PDF。Word就检查不出重复，PDF就有可能检测到重复。个人认为提交Word是最准确、最科学、最合理的检测方法。知网查重可以到一些知网自助查重网站：PaperEasy、学术不端网、蚂蚁查重网等，全程自助检测，安全！

354 评论 12小时前发布

甜品达人范范

论文在中国知网检测，公式，图表，有标注的引用部分算在重复率中吗?当然会算的！一般而言，无论是高校还是杂志社在对论文进行知网查重过程中，主要考虑的是论文的去除引用文献的重复率部分，这也可以在知网检测报告当中体现出来，知网报告当中有一个全文的重复率部分，还有一个部分是去除引用文献的重复率部分，因此，一般而言，即使论文作者对其他论文进行引用，只要引用格式正确，一般都会被知网论文查重软件自动识别为引用部分，以绿色字体标注，在去除引用文献部分的重复率会有所体现。

94 评论 12小时前发布

ocr检测论文综述

4个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

4个回答默认排序

默认排序

按时间排序