基于模板的图像分类方法论文

3个回答默认排序

默认排序

按时间排序

五爷威武

已采纳

图像分类作为计算机视觉领域的基础任务，经过大量的研究与试验，已经取得了傲人的成绩。然而，现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时，又该如何进行分类呢？本篇综述将带领大家了解多标签图像分类这一方向，了解更具难度的图像分类。作者 | 郭冰洋编辑 | 言有三随着科学技术的进步与发展，图像作为信息传播的重要媒介，在通信、无人驾驶、医学影像分析、航天、遥感等多个领域得到了广泛的研究，并在国民社会、经济生活中承担着更加重要的角色。人们对图像研究的愈发重视，也促使计算机视觉领域迎来了蓬勃发展的黄金时代。作为计算机视觉领域的基础性任务，图像分类是目标检测、语义分割的重要支撑，其目标是将不同的图像划分到不同的类别，并实现最小的分类误差。经过近30年的研究，图像分类已经成功应用至社会生活的方方面面。如今，在我们的生活中随处可见——智能手机的相册自动分类、产品缺陷识别、无人驾驶等等。根据分类任务的目标不同，可以将图像分类任务划分成两部分:（1）单标签图像分类；（2）多标签图像分类。单标签图像分类是指每张图片对应一个类别标签，根据物体类别的数量，又可以将单标签图像分类划分成二分类、多类别分类。如下图所示，可以将该图的标签记为海洋，通过单标签图像分类我们可以判定该图像中是否含有海洋。然而，现实生活中的图片中往往包含多个类别的物体，这也更加符合人的认知习惯。我们再来观察下图，可以发现图中不仅包含海洋，还包括了海豚。多标签图像分类可以告知我们图像中是否同时包含这些内容，这也能够更好地解决实际生活中的问题。机器学习算法主要包括两个解决思路： (1) 问题迁移，即将多标签分类问题转化为单标签分类问题，如将标签转化为向量、训练多个分类器等； (2) 根据多标签特点，提出新的适应性算法，包括ML-KNN、Ranking SVM、Multi-label Decision Tree等。现对其中具有代表性的算法进行总结。问题迁移问题迁移方法的主要思想是先将多标签数据集用某种方式转换成单标签数据集，然后运用单标签分类方法进行分类。该方法有可以包括基于标签转换和基于样本实例转换。基于标签转换针对每个标签，将属于这个标签的所有实例分为一类，不属于的分为另一类，将所有数据转换为多个单标签分类问题(如下图)。典型算法主要有Binary Relevance和Classifier Chain两种。基于样本实例转换这种方法是将多标签实例分解成多个单标签实例。如下图所示。实例E3对应标签y3和y4，则通过分解多标签方法法将E3分解成单独选中标签y3和y4的实例，然后对每一个标签作单独预测。适应性方法如上文所述，新的适应性算法是根据多标签分类的特殊性，改进现有的单标签分类算法，主要包括以下三种： ML-KNN ML-KNN由传统的KNN算法发展而来。首先通过KNN算法得到样本最接近的K个邻近样本，然后根据K个邻近样本的标签，统计属于某一标签的邻近样本个数，最后利用最大后验概率原则（MAP）决定测试样本含有的标签集合。 Rank SVM Rank SVM是在SVM的基础上，加入Ranking Loss损失函数和相应的边际函数作为约束条件，并扩展目标函数而提出的一种多标签学习算法。该算法的简要思路是：首先定义函数s(x)是样本x的标签集的规模大小，然后定义rk(x)=wkTx+bk，如果求得的rk(x)值在最大的s(x)个元素(r1(x),...rQ(x))之间，则认为该样本x选中该标签k，否则就没被选中。在求解过程中定义新的排序函数rk(x)-rl(x)≥1，其中k表示被样本x选中的标签，l表示没有被选中的标签，并基于这个新的排序函来大间隔分类器，同时最小化Ranking Loss，从而推导出适合多标签分类的目标函数和限制条件。 Multi-label Decision Tree 该算法采用决策树技术处理多标签数据，利用基于多标签熵的信息增益准则递归地构建决策树。树形结构包括非叶结点、分支、叶节点。决策树模型用于分类时，特征属性用非叶节点表示，特征属性在某个值域上的输出用非叶节点之间的分支表示，而类别则用叶节点存放。计算思想如下：首先计算每个特征的信息增益，挑选增益最大的特征来划分样本为左右子集，递归下去，直到满足停止条件，完成决策树的构建。对新的测试样本，沿根节点遍历一条路径到叶子节点，计算叶子节点样本子集中每个标签为0和1的概率，概率超过则表示含有该标签。当遍历所有路径到底不同的叶节点之后，则可判断涵盖的所有标签信息。除了上述三类主要算法外，还包括诸多以单标签分类进行改进的算法，在此不再赘述。深度学习的发展带动了图像分类精度的大幅提升，神经网络强大的非线性表征能力可以在大规模数据中学习到更加有效的特征。近年来，多标签图像分类也开始使用深度学习的思想展开研究。魏云超等在程明明教授提出的BING理论基础上，提出了Hypotheses-CNN-Pooling。首先对每张图片提取含有标签信息的候选区域（如上图中的Hypotheses Extraction过程），然后将每个候选区域送入CNN进行分类训练，最后利用cross-hypothesis max-pooling融合所有候选区域的分类结果，从而得到多个标签信息完整的图片。 CNN具有强大的语义信息提取能力，而RNN则可以建立信息之间的关联。根据这一理论观点，Jiang Wang等提出了CNN-RNN联合的网络结构。首先利用CNN对输入图像进行训练，得到相应的特征，然后将图片对应的特征投影到与标签一致的空间中，在该空间利用RNN进行单词的搜索训练。该算法充分考虑了类别之间的相关性，可以有效对图像中具有一定关系的标签进行识别。在CNN-RNN结构的基础上，后续文章又加入Regional LSTM模块。该模块可以对CNN的特征进行导向处理，从而获取特征的位置信息，并计算位置信息和标签之间的相关性。在上文的结果上进一步考虑了特征、位置和标签之间潜在的依赖关系，可以有效计算图片中多个标签同时存在的可能性，并进行图片的分类。最近，诸多基于image-level进行弱监督分割研究的文章，充分利用了多标签分类网络的信息。其主要思想是将标签统一处理为向量形式，为每幅图片构建一个维度为1xN的矩阵标签（如[0,0,0,1,1,0]形式），并采用专门的损失函数(Hanming loss、Ranking loss等)进行训练。这一方法成功地将多标签的复杂问题，转化为单标签问题，从而可以利用传统的分类网络进行训练。多标签图像分类的相关算法仍然层出不穷，但不论是基于机器学习还是基于深度学习的算法，都有其优势和不足，如何根据实际应用需求选用合适的算法，才是我们应当关注的重点内容。单标签分类中通常采用准确率(Precision)，召回率(Recall)、F值(F-measure)和AUC曲线对分类结果进行评价。然而，在多标签分类中一个图片与多个标签同时关联，其复杂程度远远高于单标签分类。因此，在继承单标签分类评价指标的基础上，许多关于多标签分类的评价指标也被提出。在这里只介绍多标签分类常用的指标，有关单标签分类的指标不再赘述。平均准确率(AP)和平均准确率均值(mAP) 同单标签分类一样，当一张图片中的所有标记均预测正确时，准确率才可以置1，否则置零。每个类别下的标签分别进行计算后，取其平均值即可获得平均准确率，对所有平均准确率取均值即可获得平均准确率均值。平均准确率可以衡量模型在每个类别的好坏程度，而平均准确率均值则衡量的是在所有类别的好坏程度。汉明距离将预测的标签集合与实际的标签集合进行对比，按照汉明距离的相似度来衡量。汉明距离的相似度越高，即汉明损失函数越小，则模型的准确率越高。 1-错误率 1-错误率用来计算预测结果中排序第一的标签不属于实际标签集中的概率。其思想相当于单标签分类问题中的错误率评价指标。1-错误率越小，说明预测结果越接近实际标签，模型的预测结果也就越好。覆盖率覆盖率用来度量“排序好的标签列表”平均需要移动多少步数，才能覆盖真实的相关标签集合。对预测集合Y中的所有标签{y1，y2，… yi … yn}进行排序，并返回标签yi在排序表中的排名，排名越高，则相关性越差，反之，相关性越高。排序损失排序损失计算的是不相关标签比相关标签的相关性还要大的概率。高质量的数据集是图像分类的基础，更是关键所在。随着人们对数据质量的重视程度越来越高，如今已有诸多完备的多标签图像分类数据集。 Pascal VOC Pascal VOC数据集的主要任务是在真实场景中识别来自多个类别的目标。该数据集共有近两万张图片，共有20个类别组成。Pascal VOC官方对每张图片都进行了详细的信息标注，包括类别信息、边界框信息和语义信息，均保存在相应的xml格式文件中。通过读取xml文件中的项，我们可以获取到单张图片中包含的多个物体类别信息，从而构建多标签信息集合并进行分类训练。 COCO COCO(Common Objects in Context)数据集由微软公司赞助搭建。该数据集包含了91个类别，三十余万张图片以及近二百五十万个标签。与Pascal VOC相类似，COCO数据的标注信息均保存在图片对应的json格式文件中。通过读取json文件中的annotation字段，可以获取其中的category_id项，从而获取图片中的类别信息。同一json文件中包含多个category_id项，可以帮助我们构建多标签信息。COCO数据集的类别虽然远远大于Pascal VOC，而且每一类包含的图像更多，这也更有利于特定场景下的特征学习。除了上述两个个主流数据集之外，比较常用的还包括ImageNet数据集、NUS-WIDE数据集。近年来，诸多公司、科研机构也提出了诸多全新的数据集，如ML-Images等。这些标注完善的数据，为多标签图像分类的研究提供了有力的支持，同样也为图像处理领域的发展做出了巨大贡献。 (1)多标签图像分类的可能性随着图片中标签类别的增加呈指数级增长，在现有的硬件基础上会加剧训练的负担和时间成本，如何有效的降低信息维度是面临的最大挑战。 (2) 多标签分类往往没有考虑类别之间的相关性，如房子大概率不会出现老虎、海洋上不太可能出现汽车。对于人类来说，这些均是常识性的问题，但对于计算机却是非常复杂的过程，如何找到类别之间的相关性也能够更好的降低多标签图像分类的难度。古语有云：“纸上得来终觉浅，绝知此事要躬行”，理论知识的学习必须通过实践才能进一步强化，完成了综述内容的书写，后续将基于Pytorch框架以Pascal VOC2012增强数据集进行多标签图像分类实战，敬请期待哦！如果想加入我们，后台留言吧技术交流请移步知识星球更多请关注知乎专栏《有三AI学院》和公众号《有三AI》

260 评论 2小时前发布

vivian0415

Abstract

我们训练了一个大型的深度卷积神经网络，将ImageNet lsvprc -2010竞赛中的120万幅高分辨率图像分类为1000个不同的类。在测试数据上，我们实现了top-1和top-5的错误率，分别为和，这与前的最高水平相比有了很大的提高。该神经网络有6000万个参数和65万个神经元，由5个卷积层(其中一些后面接了最大池化层)和3个全连接层(最后的1000路softmax)组成。为了使训练更快，我们使用了非饱和神经元和一个非常高效的GPU实现卷积运算。为了减少全连通层的过拟合，我们采用了一种最近发展起来的正则化方法——dropout，结果显示它非常有效。我们还在ILSVRC-2012比赛中输入了该模型的一个变体，并获得了的top-5测试错误率，而第二名获得了的错误率.

1 Introduction

当前的物体识别方法主要利用机器学习方法。为了提高它们的性能，我们可以收集更大的数据集，学习更强大的模型，并使用更好的技术来防止过度拟合。直到最近，标记图像的数据集在成千上万的图像(例如，NORB [16]， Caltech-101/256 [8,9]， CIFAR-10/100[12])中相对较小。使用这种大小的数据集可以很好地解决简单的识别任务，特别是如果使用保存标签的转换来扩展它们。例如，MNIST数字识别任务的当前最佳错误率(<)接近人类性能[4]。但是现实环境中的物体表现出相当大的可变性，所以为了学会识别它们，有必要使用更大的训练集。的确，小图像数据集的缺点已经被广泛认识(例如，Pinto等人的[21])，但直到最近才有可能收集数百万张图像的标记数据集。新的更大的数据集包括LabelMe[23]，它由成千上万的全分段图像组成，和ImageNet[6]，它由超过22000个类别的超过1500万标记的高分辨率图像组成。

要从数百万张图像中了解数千个物体，我们需要一个具有巨大学习能力的模型。然而，对象识别任务的巨大复杂性意味着即使像ImageNet这样大的数据集也无法指定这个问题，因此我们的模型也应该具有大量的先验知识来补偿我们没有的所有数据。卷积神经网络(Convolutional neural networks, CNNs)就是这样一类模型[16,11,13,18,15,22,26]。它们的能力可以通过改变深度和宽度来控制，而且它们还对图像的性质(即统计的平稳性和像素依赖的局部性)做出了强有力且最正确的假设。因此，与具有相似大小层的标准前馈神经网络相比，CNNs具有更少的连接和参数，因此更容易训练，而其理论上最好的性能可能只会稍微差一些。

尽管CNNs的质量很吸引人，尽管它们的本地架构相对高效，但在高分辨率图像上大规模应用仍然非常昂贵。幸运的是，当前的gpu与高度优化的2D卷积实现相结合，已经足够强大，可以方便地训练有趣的大型CNNs，而最近的数据集(如ImageNet)包含了足够多的标记示例，可以在不严重过拟合的情况下训练此类模型。

本文的具体贡献如下：

最后，网络的大小主要受到当前gpu上可用内存的大小和我们愿意忍受的训练时间的大小的限制。我们的网络需要5到6天的时间来训练两个GTX 580 3GB GPU。我们所有的实验都表明，只要等待更快的gpu和更大的数据集可用，我们的结果就可以得到改善。

2 The Dataset

ImageNet是一个包含超过1500万张高分辨率图像的数据集，属于大约22000个类别。这些图片是从网上收集来的，并由人工贴标签者使用亚马逊的土耳其机械众包工具进行标记。从2010年开始，作为Pascal视觉对象挑战赛的一部分，每年都会举办一场名为ImageNet大型视觉识别挑战赛(ILSVRC)的比赛。ILSVRC使用ImageNet的一个子集，每个类别大约有1000张图片。总共大约有120万张训练图像、5万张验证图像和15万张测试图像。

ILSVRC-2010 是唯一可用测试集标签的 ILSVRC 版本，因此这是我们进行大多数实验的版本。由于我们也在 ILSVRC-2012 竞赛中加入了我们的模型，在第6节中，我们也报告了我们在这个版本的数据集上的结果，对于这个版本的数据集，测试集标签是不可用的。在 ImageNet 上，通常报告两个错误率：top-1 和 top-5，其中 top-5 错误率是测试图像的一部分，其中正确的标签不在模型认为最可能的五个标签中。

ImageNet由可变分辨率的图像组成，而我们的系统需要一个恒定的输入维数。因此，我们将图像降采样到256 * 256的固定分辨率。给定一个矩形图像，我们首先重新调整图像的大小，使其短边长度为256，然后从结果图像中裁剪出中心的256%256块。除了从每个像素中减去训练集上的平均活动外，我们没有以任何其他方式对图像进行预处理。因此，我们将网络训练成像素的原始RGB值(居中)。

3 The Architecture

ReLU Nonlinearity

Training on Multiple GPUs

Local Response Normalization

Overlapping Pooling

Pooling layers in CNNs summarize the outputs of neighboring groups of neurons in the same kernel map. Traditionally, the neighborhoods summarized by adjacent pooling units do not overlap (.,[17, 11, 4]). To be more precise, a pooling layer can be thought of as consisting of a grid of pooling units spaced s pixels apart, each summarizing a neighborhood of size z z centered at the location of the pooling unit. If we set s = z, we obtain traditional local pooling as commonly employed in CNNs. If we set s < z, we obtain overlapping pooling. This is what we use throughout our network, with s = 2 and z = 3. This scheme reduces the top-1 and top-5 error rates by and , respectively, as compared with the non-overlapping scheme s = 2; z = 2, which produces output of equivalent dimensions. We generally observe during training that models with overlapping pooling find it slightly more difficult to overfit.

Overall Architecture

Now we are ready to describe the overall architecture of our CNN. As depicted in Figure 2, the net contains eight layers with weights; the first five are convolutional and the remaining three are fully-connected. The output of the last fully-connected layer is fed to a 1000-way softmax which produces a distribution over the 1000 class labels. Our network maximizes the multinomial logistic regression objective, which is equivalent to maximizing the average across training cases of the log-probability of the correct label under the prediction distribution.

4 Reducing Overfitting

Data Augmentation

Dropout

结合许多不同模型的预测是减少测试错误的一种非常成功的方法[1,3]，但是对于已经需要几天训练的大型神经网络来说，这似乎太昂贵了。然而，有一个非常有效的模型组合版本，它在训练期间只花费大约2倍的成本。最近介绍的技术称为dropout[10]，它将每个隐藏神经元的输出设置为0，概率为。以这种方式丢弃的神经元不参与正向传递，也不参与反向传播。所以每次输入时，神经网络都会对不同的结构进行采样，但是所有这些结构都共享权重。这种技术减少了神经元之间复杂的相互适应，因为神经元不能依赖于特定的其他神经元的存在。因此，它被迫学习与其他神经元的许多不同随机子集结合使用的更健壮的特征。在测试时，我们使用所有的神经元，但将它们的输出乘以，这是一个合理的近似值，近似于取由指数型多退出网络产生的预测分布的几何平均值。

我们在图2的前两个完全连接的层中使用了dropout。没有dropout，我们的网络显示出大量的过拟合。Dropout使收敛所需的迭代次数增加了一倍。

5 Details of learning

7 Discussion

84 评论 2小时前发布

哈皮小暖

随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文，欢迎阅读!

图像识别技术研究综述

摘要：随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解，由于图像在成像时受到外部环境的影响，使得图像具有特殊性，复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词：图像处理;图像识别;成像

中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像，是人类最重要的信息源，它是通过各种观测系统从客观世界中获得，具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展，图像处理技术的应用也越来越广泛，并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段，比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等，在这些应用中，都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理，着重强调图像与图像之间进行的交换，主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性，使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析，以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理，而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声，将原始图像编程适于计算机进行特征提取的形式，主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集，图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像，也包括一些动态图像，并可以将其转为数字图像，和文字、图形、声音一起存储在计算机内，显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强，图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化，数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分，使图像的主体结构更加明确，必须对图像进行改善，即图像增强。通过图像增强，以减少图像中的图像的噪声，改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量，使图像中的物体的轮廓更加清晰，细节更加明显。图像增强不考虑图像降质的原因，增强后的图像更加赏欣悦目，为后期的图像分析和图像理解奠定基础。

3)图像复原，图像复原也称图像恢复，由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊，为了提取比较清晰的图像需要对图像进行恢复，图像恢复主要采用滤波方法，从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建，该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩，数字图像的显著特点是数据量庞大，需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频，那么必须对图像进行编码和压缩。目前，图像压缩编码已形成国际标准，如比较著名的静态图像压缩标准JPEG，该标准主要针对图像的分辨率、彩色图像和灰度图像，适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列，因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术，图像分割是把图像分成一些互不重叠而又具有各自特征的子区域，每一区域是像素的一个连续集，这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位，然后把目标从背景中分离出来。目前，图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰，使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述，描述是用数字或者符号表示图像或景物中各个目标的相关特征，甚至目标之间的关系，最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时，可以采用模板匹配模型。在某些具体的应用中，图像识别除了要给出被识别对象是什么物体外，还需要给出物体所处的位置和姿态以引导计算初工作。目前，图像识别技术已广泛应用于多个领域，如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有：

指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段，主要应用于身份验证。指纹识别是生物特征的一个部分，它具有不变性：一个人的指纹是终身不变的;唯一性：几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前，指纹识别技术与我们的现实生活紧密相关，如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

人脸识别目前大多数人脸识别系统使用可见光或红外图像进行人脸识别，可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下，其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响，但由于红外线不能穿透玻璃，如果待识别的对象戴有眼镜，那么在图像识别时，眼部信息全部丢失，将严重影响人脸识别的性能[4]。

文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术，可以自动地把文字和其他信息分离出来，通过智能识别后输入计算机，用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档，如银行票据、文稿、各类公式和符号等自动录入，可以提供文字的处理效率，有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样，使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事，但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下，图像识别技术取得了一定的成功，但在复杂的环境下，仍面临着许多问题：如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准，以及算法本身存在一定的局限性，这使得图像识别的最终结果不十分精确等。

参考文献：

[1] 胡爱明，周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用，2003，39(7)：90—91.

[2] 胡学龙.数字图像处理[M].北京：电子工业出版社，2011.

[3] 范立南，韩晓微，张广渊.图像处理与模式识别[M].北京：科学出版社，2007.

[4] 晓慧，刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用，2009，1(29)：8.

[5] 陈良育，曾振柄，张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用，2005，25(7)：1629-1631.

[6] Sanderson C，Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33，Martigny，Swizerland，2002.

点击下页还有更多>>>图像识别技术论文

163 评论 3小时前发布

基于模板的图像分类方法论文

3个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序