自然场景文本检测识别论文

发布时间：2023-12-11 18:10:47

自然场景文本检测识别论文

最近，端到端场景文本识别已成为一个流行的研究主题，因为它具有全局优化的优点和在实际应用中的高可维护性。大多数方法试图开发各种感兴趣的区域（RoI）操作，以将检测部分和序列识别部分连接到两阶段的文本识别框架中。然而，在这样的框架中，识别部分对检测到的结果高度敏感（例如，文本轮廓的紧凑性）。为了解决这个问题，在本文中，我们提出了一种新颖的“Mask Attention Guided One-stage”文本识别框架，称为MANGO，在该框架中无需RoI操作就可以直接识别字符序列。具体而言:

值得注意的是，MANGO自有地适应于任意形状的文本识别，并且仅使用粗略的位置信息（例如矩形边界框）和文本注释就可以进行端到端的训练。实验结果表明，该方法在规则和不规则文本识别基准（即ICDAR 2013，ICDAR 2015，Total-Text和SCUT-CTW1500）上均达到了有竞争力甚至最新性能。

场景文本识别由于其各种实际应用而备受关注，例如发票/收据理解中的关键实体识别，电子商务系统中的产品名称识别以及智能运输系统中的车牌识别。传统的场景文字识别系统通常分三步进行：定位文字区域，从原始图像中裁剪文字区域并将其识别为字符序列。然而尽管这种文本识别模型带来了许多可考虑的问题，例如：（1）错误将在多个单独的任务之间累（2）维护多个单独的模型的成本很高（3）该模型难以适应各种应用程序。

因此，提出了许多工作以端到端的方式来最终优化文本识别过程。这些方法通常使用各种兴趣区域（RoI）操作以可微分的方式桥接文本检测和识别部分，从而形成了两阶段框架。粗略地说，早期的端到端方法将轴对齐的矩形RoI用作连接模块。这些方法处理不规则的（例如，透视图或弯曲的）文本实例能力有限，因为这种类型的RoI可能会带来背景或其他文本的干扰。为了解决这个问题，后来的方法（设计了一些形状自适应RoI机制来提取不规则物体。文本实例并将其校正为规则形状。

图1：传统的两阶段文本识别过程和提出的MANGO的图示。图（a）显示了通过RoI操作连接检测和识别部分的两阶段文本识别策略。图（b）是一种提出的单阶段文本识别方法，它可以直接输出最终的字符序列。

在两阶段方法中，识别部分高度依赖于定位结果，这就要求检测部分必须能够捕获准确的文本边界以消除背景干扰。因此，训练鲁棒的文本检测模型依赖于准确的检测注释，例如在不规则文本识别中使用的多边形或蒙版注释。自然地，标记这种注释是费力且昂贵的。另一方面，要确保紧紧封闭的文本区域（由检测注释进行监督）对于以下识别任务而言是最佳形式，这并不容易。例如，在图1（a）中，紧密的文本边界可能会擦除字符的边缘纹理并导致错误的结果。通常，需要手动扩展这些严格的检测结果，以适应实际应用中的识别。此外，在proposals之后执行带有非极大抑制（NMS）的复杂RoI操作也很耗时，尤其是对于任意形状的区域。尽管（Xing et ）提出了一种单阶段采用字符分割策略的字符级别的识别框架，但很难扩展到具有更多字符类别（例如汉字）的情况。它还会丢失角色之间的关键上下文信息。

实际上，当人们阅读时，他们不需要描绘文本实例的准确轮廓。通过视觉注意力关注的粗略文本位置来识别文本实例就足够了。在这里，我们将场景文本识别重新考虑为注意力和阅读的问题，即，一次直接读出粗略注意的文本区域的文本内容。

在本文中，我们提出了一种名为MANGO的“Mask Attention Guided One stage”文本监视程序，称为MANGO，这是一种紧凑而强大的单阶段框架，可直接从图像中同时预测所有文本，而无需进行任何RoI操作。具体来说，我们引入了一个位置感知蒙版注意力（PMA）模块以在文本区域上生成空间注意力，该模块包含实例级蒙版注意力（IMA）部分和字符级蒙版注意力（CMA）部分。 IMA和CMA分别负责感知图像中文本和字符的位置。可以通过位置感知注意力谱直接提取文本实例的特征，而不必进行显式的裁剪操作，这尽可能保留了全局空间信息。在这里，使用动态卷积将不同文本实例的特征映射到不同的特征谱通道（Wang等人，2020c），如图1（b）所示。之后，应用轻量级序列解码器一次批量生成字符序列特征。

请注意，MANGO可以仅使用粗略的位置信息（例如，矩形边界框，甚至是文本实例的中心点）进行端到端优化，还可以使用序列注释。受益于PMA，该框架可以自适应地识别各种不规则文本，而无需任何纠正机制，并且还能够了解任意形状的文本的阅读顺序。

本文的主要贡献如下：（1）我们提出了一种名为MANGO的紧凑而强大的一阶段文本识别框架, 该框架可以以端到端的方式进行训练。（2）我们开发了位置感知蒙版注意力模块，以将文本实例特征生成为一个batch，并与最终字符序列建立一对一的映射。只能使用粗略的文本位置信息和文本注释来训练该模块。（3）广泛的实验表明，我们的方法在规则和不规则文本基准上均获得了有竞争甚至最新的性能。

早期场景文本发现方法（Liao，Shi，and Bai 2018; Liao et ; Wang et ）通常首先使用训练有素的检测器来定位每个文本，例如（Liao et ; Zhou et ; He et ; Ma et ; Xu et ; Baek et ），然后使用序列解码器识别裁剪后的文本区域（Shi et ; Shi，Bai和Yao 2017; Cheng et ; Zhan and Lu 2019; Luo，Jin and Sun 2019）。为了充分利用文本检测和文本识别之间的互补性，已经提出了一些工作以端到端的方式优化场景文本发现框架，其中使用了模块连接器（例如RoI Pooling（Ren等人，2015a））在（Li，Wang，and Shen 2017; Wang，Li，and Shen 2019）中，（He等人2018）中使用的RoI-Align和（Liu等人2018）中使用的RoI-Rotate的开发是为了文本检测和文本识别部分。请注意，这些方法无法发现任意形状的文本。为了解决不规则问题，已经提出了许多最近的工作来设计各种自适应RoI操作以发现任意形状的文本。 Sun等人（2018年）采用了透视图RoI转换模块来纠正透视图文本，但是该策略仍然难以处理弯曲度较大的文本。（Liao et ）提出了受两阶段Mask-RCNN启发的mask textspotter，用于逐个字符地检测任意形状的文本，但是这种方法会丢失字符的上下文信息，并且需要字符级位置注释。 Qin等人（2019）直接采用Mask-RCNN和基于注意力的文本识别器，该模型使用RoI-Masking模块在识别之前消除了背景干扰。（Feng et ）将文本实例视为一组特征块，并采用RoI-Slide操作来重建直线特征图。（Qiao et al。2020）和（Wang et al。2020a）都检测到文本周围的关键点，并应用薄板样条变换（Bookstein 1989）纠正不规则实例。为了获得弯曲文本的平滑特征（Liu et ），使用Bezier曲线表示文本实例的上下边界，并提出了Bezier-Align操作以获取校正后的特征图。上述方法在两阶段框架中实现了端到端场景文本点，其中需要设计基于RoI的连接器（例如RoI-Align，RoI-Slide和Bezier-Align等），以实现以下目的：明确裁剪特征图。在两阶段框架中，性能很大程度上取决于RoI操作获得的文本边界精度。但是，这些复杂的多边形注释通常很昂贵，并且并不总是适合识别部分，如前所述。

在一般的对象定位领域，许多最新进展证明了在对象检测中研究的一阶段框架的效率和有效性（Redmon等人2016; Liu等人2016; Lin等人2017b; Tian等人2019;段等人（2019）或实例分割（Wang等人2019b; Tian，Shen和Chen 2020; Wang等人2020c; Xie等人2020; Chen等人2020）。但是，场景文本发现是一项更具挑战性的任务，因为它涉及序列识别问题而不是单个对象分类。这是因为场景文本具有许多特殊特征：任意形状（例如，曲线，倾斜或透视图等），数百万个字符组合，甚至是不受限制的阅读顺序（例如，从右到左）。最近，（Xing et ）提出了一种通过直接分割单个字符的一种舞台场景文本识别方法。但是，它丢失了各个字符之间的序列上下文信息，并且很难传递给更多的字符类。据我们所知，以前没有工作可以在一个阶段的框架中处理序列级别的场景文本发现任务。

图2：MANGO的工作流程。我们以S ＝ 6为例。将输入特征输入到位置感知蒙版注意力模块中，以将实例/字符的不同特征映射到不同通道。识别器最终一次全部输出字符序列。 Centerline Segmentation分支用于生成所有文本实例的粗略位置。前缀“ R-”和“ C-”分别表示网格的行和列。

我们提出了一个名为MANGO的单阶段场景文本查找器，如图2所示。其深层特征是通过ResNet-50（He等人，2016）和特征金字塔网络（FPN）（Lin等人，2017a）的主干提取的。然后将生成的特征图馈送到三个可学习的模块中：（1）用于学习单个文本实例的位置感知蒙版注意力（PMA）模块，其中包括实例级蒙版注意力（ IMA）子模块和字符级掩码注意力（CMA）子模块。（2）识别器用于将注意力实例特征解码为字符序列。（3）全局文本中心线分割模块，用于在推理阶段提供粗略的文本位置信息。

单阶段的文本识别问题可以视为原始图像中的纯文本识别任务。关键步骤是在文本实例到最终字符序列之间以固定顺序建立直接的一对一映射。在这里，我们开发了位置感知注意力（PMA）模块，以便为接下来的序列解码模块一次捕获所有表示文本的特征。受（Wang等人2019b）中使用的网格映射策略的启发，我们发现可以将不同的实例映射到不同的特定通道中，并实现实例到特征的映射。也就是说，我们首先将输入图像划分为S×S的网格。然后，通过提出的PMA模块将网格周围的信息映射到特征图的特定通道中。

具体来说，我们将特征提取后获得的特征图表示为x∈R C×H×W ，其中C，H和W分别表示为特征图的通道数量，宽度和高度。然后我们将特征图x送入PMA（包括IMA和CMA模块）模块，以生成文本实例的特征表示（如下所述）。

Instance-level Mask Attention MA负责生成实例级注意力蒙版遮罩，并将不同实例的特征分配给不同的特征图通道。它是通过在切片网格上操作一组动态卷积内核（Wang等人2020c）来实现的，表示为G S×S×C 。卷积核大小设置为1×1。

因此可以通过将这些卷积核应用于原始特征图来生成实例级注意力掩码：

Character-level Mask Attention 正如许多工作（Chenget等人2017; Xing等人2019）所表明的那样，字符级位置信息可以帮助提高识别性能。这激励我们设计全局字符级注意力子模块，以为后续的识别任务提供细粒度的特征。

如图2所示，CMA首先将原始特征图x和实例级注意力蒙版x ins 连接在一起，然后是两个卷积层（卷积核大小= 3×3）遵循下式来预测字符级注意力蒙版：

由于将不同文本实例的注意蒙版分配给不同的特征通道，因此我们可以将文本实例打包为一批。一个简单的想法是进行（Wang等人2020b）中使用的注意力融合操作，以生成批处理的连续特征x seq ，即

该模型现在能够分别输出S 2 网格的所有预测序列。但是，如果图像中有两个以上的文本实例，我们仍然需要指出哪个网格对应于那些识别结果。

由于我们的方法不依赖准确的边界信息，因此我们可以应用任何文本检测策略（例如RPN（Ren等人2015b）和YOLO（Redmon等人。 2016）），以获取文本实例的粗略的几何信息。考虑到场景文本可能是任意形状的，我们遵循大多数基于分割的文本检测方法（Long等人2018; Wang等人2019a）来学习单个文本实例的全局文本中心线区域分割（或缩小ground truth）。

IMA和CMA模块都用于使网络聚焦于特定的实例和字符位置，这在理论上只能通过最后的识别部分来学习。但是，在复杂的场景文本场景中，如果没有位置信息的辅助，网络可能难以收敛。但是，我们发现，如果模型已经在合成数据集上进行了预先的字符级监督，则可以轻松转移模型。因此，可以分两步对模型进行优化。

首先，我们可以将IMA和CMA的学习视为纯分割任务。结合中心线区域分割，所有分割任务都使用二进制Dice系数损失进行训练（Milletari，Navab和Ahmadi 2016），而识别任务仅使用交叉熵损失。全局优化可以写成

请注意，预训练步骤实际上是一次性的任务，然后将主要学习CMA和IMA以适应该识别任务。与以前需要平衡检测和识别权重的方法相比，MANGO的端到端结果主要由最终识别任务监督。

在推断阶段，网络输出一批（S×S）概率矩阵（L×M）。根据中心线分割任务的预测，我们可以确定哪些网格应视为有效。我们首先进行“广度优先搜索”（BFS），以找到各个相连的区域。在此过程中，可以过滤许多类似文本的纹理。由于每个连接区域可能与多个网格相交，因此我们采用字符加权投票策略来生成最终的字符串，如图3所示。

具体来说，我们计算连接区域i与网格j之间的连接率o i,j 作为每个字符的权重。对于实例i的第k个字符，其字符加权投票结果通过

我们列出了本文使用的数据集如下：训练数据。我们使用SynthText 800k（Gupta，Vedaldi和Zisserman 2016）作为预训练数据集。利用实例级注释和字符级注释对PMA模块进行预训练。在微调阶段，我们旨在获得一个支持常规和非常规场景文本读取的通用文本点。在这里，我们构建了一个用于微调的通用数据集，其中包括来自Curved SynthText的150k图像（Liu等人2020），从COCO-Text过滤的13k图像（Veitet等人2016），从ICDAR-MLT过滤的7k图像（Nayefet等人2019）以及ICDAR2013（Karatzas等人2013），ICDAR2015（Karatzas等人2015）和Total-Text（Ch'ng and Chan 2017）中的所有训练图像。请注意，这里我们仅使用实例级别的注释来训练网络。测试数据集。我们在两个标准文本点标基准ICDAR2013（Karatzas等人2013）（IC13）和ICDAR2015（Karatzas等人2015）（IC15）中评估了我们的方法，其中主要包含水平和透视文本，以及两个不规则的基准Total-Text（Ch'ng和Chan 2017）和SCUT-CTW1500（Liu等人2019）（CTW1500），其中包含许多弯曲文本。车牌识别数据集CCPD中我们方法的能力（Xuet ）。

所有实验均在Pytorch中使用8×32 GB-Tesla-V100 GPU进行。网络详细信息。特征提取器使用ResNet-50（He等人2016）和FPN（Lin等人2017a）从不同的特征图中获取融合特征水平。这里，C = 256的（4×）特征图用于执行后续的训练和测试任务.Lis设置为25以覆盖大多数场景文本单词。 BiLSTM模块有256个隐藏单元，训练详细信息，所有模型均由SGDoptimizer进行训练，批处理大小= 2，动量= 和重量衰减= 1×10−4。在预训练阶段，以10个周期的初始学习比率1×10-2训练网络。每3个周期将学习率除以10.在微调阶段，初始学习率设置为1×10-3。为了平衡每批中的合成图像和真实图像的数量，我们将Curved SynthText数据集与其他真实数据集的采样比率保持为1：1。微调过程持续250k次迭代，其中学习率在120k迭代和200k迭代时除以10.我们还对所有训练过程进行数据扩充，包括1）将输入图像的较长边随机缩放为长度在[720,1800]范围内，2）将图像随机旋转[-15°，15°]范围内的角度，以及3）对输入图像应用随机的亮度，抖动和对比度。在不同的数据集中，我们将IC15的评估值设置为S = 60，将IC13，Total-Text和CTW1500的评估值设置为S = 40。我们将所有权重参数简单地设置为λ1=λ2=λ3=λ= 1。测试细节。由于输入图像的尺寸是重要的重要影响性能，因此我们将报告不同输入比例下的性能，即保持原始比例和将图像的较长边调整为固定值。所有图像都在单一尺度上进行测试。由于当前的实现方式仅提供了粗略的定位，因此，我们通过考虑IoU> 的所有检测结果，修改（Wang，Babenko和Belongie 2011）的端到端评估指标。在这种情况下，由于某些低等级的建议匹配而导致精度下降，先前方法的性能甚至会下降。

常规文本的评估我们首先根据常规评估指标（Karatzas等，2015）对IC13和IC15的方法进行评估，然后基于三种不同的lexi-cons（强）对两个评估项目（端到端''和单词斑点''）进行评估，弱和通用）。表1显示了评估结果。与使用常规词典评估的先前方法相比，我们的方法在“通用”项目上获得了最佳结果（除了IC15的端到端通用结果之外），并在其余评估项目上获得了竞争结果（强”和“弱”）。与最近使用特定词典的最新MaskMaskTextSpotter（Liao et ）相比，我们的方法在所有评估项目上均明显优于该方法。尽管推理速度很高，但FOTS的FPS最高（帧数第二），它无法处理不正常的情况。与基于不规则的方法相比，我们的方法获得了最高的FPS。不规则文本的评估我们在Total-Text上测试了我们的方法，如表2所示。我们发现我们的方法比最先进的方法高出％和 “无”和“满”指标中的百分比。请注意，即使没有明确的纠正机制，我们的模型也只能在识别监督的驱动下才能很好地处理不规则文本。尽管在1280的测试规模下，推理速度约为ABCNet的1/2，但我们的方法取得了显着的性能提升。我们还在CTW1500上评估了我们的方法。报告端到端结果的作品很少，因为它主要包含行级文本注释。为了适应这种情况，我们在CTW1500的训练集上对检测分支进行了重新训练，以学习线级中心线分割，并确定主干和其他分支的权重。请注意，识别不会受到影响，仍然会输出单词级序列。最终结果将根据推断的连接区域简单地从左到右连接起来。汉字设置为NOT CARE。结果如表3所示。我们发现，在“无”和“满”度量标准下，我们的方法明显比以前的提升了％和％。因此，我们相信，如果只有行级注解的数据足够多，我们的模型就可以很好地适应这种情况。

图4可视化了IC15和Total-Text上的端到端文本发现结果。我们详细显示了字符投票之前每个正网格（oi，j> ）的预测结果。我们看到我们的模型可以正确地专注于相应的位置并学习任意形状（例如弯曲或垂直）文本实例的字符序列的复杂读取顺序。采取字符投票策略后，将生成具有最高置信度的单词。我们还用可视化的CMA演示了CTW1500的一些结果，如图5所示。请注意，我们仅根据数据集的位置微调线级分割部分标签，同时固定其余部分。在这里，我们通过将所有网格的注意图覆盖在相同的字符位置（k）上来可视化CMA的特征图：

网格编号的消除网格编号S2是影响最终结果的关键参数。如果太小，则占据相同网格的文本太多。否则，太大的S会导致更多的计算成本。在这里，我们进行实验以找到不同数据集的S的可行值。从表4中，我们发现IC13和TotalText的bestS均为40。 IC15的值为60。这是因为IC15包含更多密集和较小的实例。总而言之，当S> = 40时，总体性能随沙的增加而稳定。当然，FPS随S的增加而略有下降。信息。为了证明这一点，我们还进行了实验，以矩形边框的形式转移所有本地化注释。我们仅采用RPN头作为检测分支。表5显示了IC15和Total-Text的结果。即使进行严格的位置监控，MANGO的性能也只能降低0％到3％，并且可以与最新技术相比。请注意，粗略位置仅用于网格选择，因此可以根据特定任务的要求尽可能简化它。

为了证明模型的泛化能力，我们进行了实验以评估CCPD公共数据集上的端到端车牌识别结果（Xu et ）。为了公平起见，我们遵循相同的实验设置，并使用带有250k图像的数据集的初始版本。 CCPD-Base数据集分为两个相等的部分：用于训练的100k样本和用于测试的100k样本。有6个复杂的测试集（包括DB，FN，旋转，倾斜，天气和挑战）用于评估算法的鲁棒性，总共有50k张图像。由于CCPD中的每个图像仅包含一个板，因此可以通过删除来进一步简化我们的模型检测分支直接预测最终字符序列。因此，网格数减少为S = 1，最大序列长度设置为L =8。我们直接对模型进行微调（已通过SynthText进行了预训练）在CCPD训练集上仅使用序列级注释，然后评估上述七个测试数据集的最终识别准确性。测试阶段是对尺寸为720×1160的原始图像执行的。表6显示了端到端识别结果。尽管所提出的方法不是为车牌识别任务设计的，但仍然可以轻松地转移到这种情况下。我们看到，提出的模型在7个测试集中的5个中优于以前的方法，并达到了最高的平均精度。图6显示了CCPD测试集的一些可视化结果。故障样本主要来自图像太模糊而无法识别的情况。该实验表明，在许多情况下，只有一个文本实例（例如，工业印刷识别或仪表拨盘识别），可以使用良好的端到端模型无需检测注释即可获得。

在本文中，我们提出了一种名为MANGO的新颖的单阶段场景文本查找器。该模型删除了RoI操作，并设计了位置感知注意模块来粗略定位文本序列。之后，应用轻量级序列解码器以将所有最终字符序列成批获取。实验表明，我们的方法可以在流行基准上获得具有竞争力的，甚至最先进的结果。

场景文本检测器由文本检测和识别模块组成。已经进行了许多研究，以将这些模块统一为端到端的可训练模型，以实现更好的性能。典型的结构将检测和识别模块放置在单独的分支中，并且RoI pooling通常用于让分支共享视觉特征。然而，当采用识别器时，仍然有机会在模块之间建立更互补的连接，该识别器使用基于注意力的解码器和检测器来表示字符区域的空间信息。这是可能的，因为两个模块共享一个共同的子任务，该任务将查找字符区域的位置。基于这些见解，我们构建了紧密耦合的单管道模型。通过使用检测输出作为识别器输入,并在检测阶段传播识别损失来形成此结构。字符得分图的使用有助于识别器更好地关注字符中心点，并且识别损失传播到检测器模块会增强字符区域的定位。此外，增强的共享阶段允许对任意形状的文本区域进行特征校正和边界定位。大量实验证明了公开提供的直线和曲线基准数据集的最新性能。

场景文本定位，包括文本检测和识别，由于在即时翻译，图像检索和场景解析中的各种应用，最近引起了广泛的关注。尽管现有的文本检测器和识别器在水平文本上很有效，但是在场景图像中发现弯曲的文本实例时，仍然是一个挑战。

为了在图像中发现弯曲的文本，一种经典的方法是将现有的检测和识别模型进行级联，以管理每一侧的文本实例。检测器[32、31、2]尝试通过应用复杂的后处理技术来捕获弯曲文本的几何属性，而识别器则应用多向编码[6]或采用修正模块[37、46、11]来增强弯曲文本上识别器的准确性。

随着深度学习的发展，已经进行了将检测器和识别器组合成可共同训练的端到端网络的研究[14，29]。拥有统一的模型不仅可以提高模型的尺寸效率和速度，还可以帮助模型学习共享功能，从而提高整体性能。为了从该属性中受益，还尝试使用端到端模型[32、34、10、44]处理弯曲文本实例。但是，大多数现有的工作仅采用RoI pooling 在检测和识别分支之间共享底层特征。在训练阶段，不是训练整个网络，而是使用检测和识别损失来训练共享特征层。

如图1所示，我们提出了一种新颖的端到端字符区域注意文本定位模型，称为CRAFTS。而不是将检测和识别模块隔离在两个单独的分支中，我们通过在模块之间建立互补连接来建立一个单一的pipline。我们观察到，使用基于注意力的解码器的识别器[1]和封装字符空间信息的检测器[2]共享一个公用的子任务，该子任务用于定位字符区域。通过将两个模块紧密集成，检测级的输出可帮助识别器更好地识别字符中心点，并且从识别器传播到检测器级的损失会增强字符区域的定位。而且，网络能够使在公共子任务中使用的特征表示的质量最大化。据我们所知，这是构建紧密耦合损失的首个端到端工作。我们的贡献总结如下: （1）我们提出了一种可以检测和识别任意形状的文本的端到端网络。（2）通过利用来自修正和识别模块上检测器的空间字符信息，我们在模块之间构造互补关系。（3）通过在整个网络的所有特征中传播识别损失来建立单个pipline。（4）我们在包含大量水平，弯曲和多语言文本的IC13，IC15，IC19-MLT和TotalText [20、19、33、7]数据集中实现了最先进的性能。

文本检测和识别方法检测网络使用基于回归的[16、24、25、48]或基于分割的[9、31、43、45]方法来生成文本边界框。诸如[17，26，47]之类的一些最新方法将Mask-RCNN [13]作为基础网络，并通过采用多任务学习从回归和分割方法中获得了优势。就文本检测的单元而言，所有方法还可以依赖单词级别或字符级别[16，2]预测的使用进行子分类。

文本识别器通常采用基于CNN的特征提取器和基于RNN的序列生成器，并按其序列生成器进行分类。连接主义的时间分类（CTC）[35]和基于注意力的顺序解码器[21、36]。检测模型提供了文本区域的信息，但是对于识别器而言，要提取任意形状的文本中的有用信息仍然是一个挑战。为了帮助识别网络处理不规则文本，一些研究[36、28、37]利用空间变换器网络（STN） [18]。而且，论文[11，46]通过迭代执行修正方法进一步扩展了STN的使用。这些研究表明，递归运行STN有助于识别器提取极端弯曲文本中的有用特征。在[27]中，提出了循环RoIWarp层, 在识别单个字符之前对其进行裁剪。这项工作证明，找到字符区域的任务与基于注意力的解码器中使用的注意力机制密切相关。

构造文本定位模型的一种方法是依次放置检测和识别网络。众所周知的两阶段结构将TextBox ++ [24]检测器和CRNN [35]识别器耦合在一起。简单来说，该方法取得了良好的效果。

端到端的使用基于RNN的识别器 EAA [14]和FOTS [29]是基于EAST检测器[49]的端到端模型。这两个网络之间的区别在于识别器。 FOTS模型使用CTC解码器[35]，而EAA模型使用注意力解码器[36]。两项工作都实现了仿射变换层来合并共享功能。提出的仿射变换在水平文本上效果很好，但在处理任意形状的文本时显示出局限性。 TextNet [42]提出了一种在特征池化层中具有透视RoI变换的空间感知文本识别器, 网络保留RNN层以识别2D特征图中的文本序列，但是由于缺乏表现力的四边形，在检测弯曲文本时，网络仍然显示出局限性。

Qin等[34]提出了一种基于Mask-RCNN [13]的端到端网络。给定box proposals，从共享层合并特征，并使用ROI遮罩层过滤掉背景杂波。提出的方法通过确保注意力仅在文本区域中来提高其性能。Busta等提出了Deep TextSpotter [3]网络，并在E2E-MLT [4]中扩展了他们的工作。该网络由基于FPN的检测器和基于CTC的识别器组成。该模型以端到端的方式预测多种语言。

端到端的使用基于CNN的识别器在处理任意形状的文本时，大多数基于CNN的模型在识别字符级文本都具有优势。 MaskTextSpotter [32]是使用分割方法识别文本的模型。尽管它在检测和识别单个字符方面具有优势，但由于通常不会在公共数据集中提供字符级别的注释，因此很难训练网络。 CharNet [44]是另一种基于分割的方法，可以进行字符级预测。该模型以弱监督的方式进行训练，以克服缺乏字符级注释的问题。在训练期间，该方法执行迭代字符检测以创建伪ground-truths。

尽管基于分割的识别器已经取得了巨大的成功，但是当目标字符的数量增加时，该方法会受到影响。随着字符集数量的增加，基于分割的模型需要更多的输出通道，这增加了内存需求。journal版本的MaskTextSpotter [23]扩展了字符集以处理多种语言，但是作者添加了基于RNN的解码器，而不是使用他们最初提出的基于CNN的识别器。基于分割的识别器的另一个限制是识别分支中缺少上下文信息。由于缺少像RNN这样的顺序建模，在嘈杂的图像下，模型的准确性下降。

TextDragon [10]是另一种基于分割的方法，用于定位和识别文本实例。但是，不能保证预测的字符段会覆盖单个字符区域。为了解决该问题，该模型合并了CTC来删除重叠字符。该网络显示出良好的检测性能，但是由于缺少顺序建模而在识别器中显示出局限性。

由于CRAFT检测器[2]具有表示字符区域语义信息的能力，因此被选作基础网络。 CRAFT网络的输出表示字符区域以及它们之间的连接的中心概率。由于两个模块的目标是定位字符的中心位置，我们设想此字符居中信息可用于支持识别器中的注意模块。在这项工作中，我们对原始的CRAFT模型进行了三处更改；骨干替换，连接表示和方向估计。

骨干置换最近的研究表明，使用ResNet50可以捕获检测器和识别器定义的明确的特征表示[30，1]。因此，我们将骨干网络由VGG-16 [40]换成ResNet50 [15]。

连接表示垂直文本在拉丁文本中并不常见，但是在东亚语言（例如中文，日语和韩语）中经常出现。在这项工作中，使用二进制中心线连接顺序字符区域。进行此改变的原因是，在垂直文本上使用原始的亲和力图经常会产生不适定的透视变换，从而生成无效的框坐标。为了生成 ground truth连接图，在相邻字符之间绘制一条粗细为t的线段。这里，t ＝ max（（d 1 + d 2）/ 2 *α，1），其中d 1和d 2是相邻字符盒的对角线长度，α是缩放系数。使用该方程式可使中心线的宽度与字符的大小成比例。我们在实现中将α设置为。

方向估计重要的是获取文本框的正确方向，因为识别阶段需要定义明确的框坐标才能正确识别文本。为此，我们在检测阶段增加了两个通道的输出,通道用于预测字符沿x轴和y轴的角度。为了生成定向图的 ground truth.

共享阶段包括两个模块：文本纠正模块和字符区域注意力（ character region attention: CRA）模块。为了纠正任意形状的文本区域，使用了薄板样条（thin-plate spline:TPS）[37]转换。受[46]的启发，我们的纠正模块结合了迭代式TPS，以更好地表示文本区域。通过有吸引力地更新控制点，可以改善图像中文本的弯曲几何形状。通过实证研究，我们发现三个TPS迭代足以校正。

典型的TPS模块将单词图像作为输入，但是我们提供了字符区域图和连接图，因为它们封装了文本区域的几何信息。我们使用二十个控制点来紧密覆盖弯曲的文本区域。为了将这些控制点用作检测结果，将它们转换为原始输入图像坐标。我们可以选择执行2D多项式拟合以平滑边界多边形。迭代TPS和最终平滑多边形输出的示例如图4所示。

识别阶段的模块是根据[1]中报告的结果形成的。识别阶段包含三个组件：特征提取，序列建模和预测。由于特征提取模块采用高级语义特征作为输入，因此它比单独的识别器更轻便。

表1中显示了特征提取模块的详细架构。提取特征后，将双向LSTM应用于序列建模，然后基于注意力的解码器进行最终文本预测。

在每个时间步，基于注意力的识别器都会通过屏蔽对特征的注意力输出来解码文本信息。尽管注意力模块在大多数情况下都能很好地工作，但是当注意点未对齐或消失时，它无法预测字符[5，14]。图5显示了使用CRA模块的效果。适当放置的注意点可以进行可靠的文本预测。

用于训练的最终损失L由检测损失和识别损失组成，取L = Ldet + Lreg。识别损失的总体流程如图6所示。损失在识别阶段流经权重，并通过字符区域注意模块传播到检测阶段。另一方面，检测损失被用作中间损失，因此使用检测和识别损失来更新检测阶段之前的权重。

English datasets IC13 [20]数据集由高分辨率图像组成，229张图像用于训练和233张图像用于测试。矩形框用于注释单词级文本实例。 IC15 [20]包含1000个训练图像和500个测试图像。四边形框用于注释单词级文本实例。 TotalText [7] 拥有1255个训练图像和300张测试图像。与IC13和IC15数据集不同，它包含弯曲的文本实例，并使用多边形点进行注释。

Multi-language dataset IC19 [33]数据集包含10,000个训练和10,000个测试图像。数据集包含7种不同语言的文本，并使用四边形点进行注释。

我们联合训练CRAFTS模型中的检测器和识别器。为了训练检测阶段，我们遵循[2]中描述的弱监督训练方法。通过在每个图像中进行批随机采样的裁剪单词特征来计算识别损失。每个图像的最大单词数设置为16，以防止出现内存不足错误。检测器中的数据增强应用了诸如裁剪，旋转和颜色变化之类的技术。对于识别器来说，ground truth框的角点在框的较短长度的0％到10％之间的范围内受到干扰。

该模型首先在SynthText数据集[12]上进行了50k迭代训练，然后我们进一步在目标数据集上训练了网络。使用Adam优化器，并应用在线困难样本挖掘On-line Hard Negative Mining(OHEM) [39]来在检测损失中强制使用正负像素的1：3比例。微调模型时，SynthText数据集以1：5的比例混合。我们采用94个字符来覆盖字母，数字和特殊字符，对于多语言数据集则采用4267个字符。

水平数据集（IC13，IC15）为了达到IC13基准，我们采用在SynthText数据集上训练的模型，并在IC13和IC19数据集进行微调。在;推理过程中，我们将输入的较长边调整为1280。结果表明，与以前的最新技术相比，性能显着提高。

然后在IC15数据集上对在IC13数据集上训练的模型进行微调。在评估过程中，模型的输入大小设置为2560x1440。请注意，我们在没有通用词汇集的情况下执行通用评估。表2中列出了IC13和IC15数据集的定量结果。

使用热图来说明字符区域图和连接图，并且在HSV颜色空间中可视化了加权的像素角度值。如图所示，网络成功定位了多边形区域并识别了弯曲文本区域中的字符。左上角的两个图显示成功识别了完全旋转和高度弯曲的文本实例。

由字符区域注意辅助的注意力在本节中，我们将通过训练没有CRA的单独网络来研究字符区域注意（CRA）如何影响识别器的性能。

表5显示了在基准数据集上使用CRA的效果。没有CRA，我们观察到在所有数据集上性能均下降。特别是在远景数据集（IC15）和弯曲数据集（TotalText）上，我们观察到与水平数据集（IC13）相比，差距更大。这意味着在处理不规则文本时，送入字符注意力信息可以提高识别器的性能。(?表格中的实验数据是对远景文本更有效,不知道这个结论如何得出来的?)

方向估计的重要性方向估计很重要，因为场景文本图像中有许多多方向文本。我们的逐像素平均方案对于识别器接收定义良好的特征非常有用。当不使用方向信息时，我们比较模型的结果。在IC15数据集上，性能从％下降到％（％），在TotalText数据集上，h-mean值从％下降到％（％）。结果表明，使用正确的角度信息可以提高旋转文本的性能。

推理速度由于推理速度随输入图像大小而变化，因此我们在不同的输入分辨率下测量FPS，每个分辨率的较长边分别为960、1280、1600和2560。测试结果得出的FPS分别为、、和。对于所有实验，我们使用Nvidia P40 GPU和Intel®Xeon®CPU。与基于VGG的CRAFT检测器的 FPS [2]相比，基于ResNet的CRAFTS网络在相同大小的输入上可获得更高的FPS。而且，直接使用来自修正模块的控制点可以减轻对多边形生成进行后期处理的需要。

粒度差异问题我们假设 ground-truth与预测框之间的粒度差异导致IC15数据集的检测性能相对较低。字符级分割方法倾向于基于空间和颜色提示来概括字符连接性，而不是捕获单词实例的全部特征。因此，输出不遵循基准测试要求的框的注释样式。图9显示了IC15数据集中的失败案例，这证明了当我们观察到可接受的定性结果时，检测结果被标记为不正确。

在本文中，我们提出了一种将检测和识别模块紧密耦合的端到端可训练单管道模型。共享阶段中的字符区域注意力充分利用了字符区域图，以帮助识别器纠正和更好地参与文本区域。此外，我们设计了识别损失通过在检测阶段传播并增强了检测器的字符定位能力。此外，共享阶段的修正模块可以对弯曲的文本进行精细定位，并且无需开发手工后期处理。实验结果验证了CRAFTS在各种数据集上的最新性能。

场景文本检测论文总结

之前也是为论文苦恼了半天，网上的范文和能搜到的资料，大都不全面，一般能有个正文就不错了，而且抄袭的东西肯定不行的，关键是没有数据和分析部分，我好不容易搞出来一篇，结果还过不了审。还好后来找到文方网，直接让专业人士帮忙，效率很高，核心的部分帮我搞定了，也给了很多参考文献资料。哎，专业的事还是要找专业的人来做啊，建议有问题参考下文方网吧下面是之前文方网王老师发给我的题目，分享给大家：基于深度学习的无人机地面小目标算法研究基于视觉的智能汽车面向前方车辆的运动轨迹预测技术研究模拟射击训练弹着点检测定位技术研究基于深度卷积神经网络的空中目标识别算法的研究基于可见光图像的飞行器多目标识别及位置估计无人驾驶车辆手势指令识别研究与实现车载毫米波雷达目标检测技术研究基于多传感融合的四足机器人建图方法中老年人群跌倒风险评估的数据采集系统基于深度学习的视觉SLAM闭环检测方法研究真实图片比较视觉搜索任务的年龄效应及对策研究室内复杂场景下的视觉SLAM系统构建与研究基于双目内窥镜的软组织图像三维重建学习资源画面色彩表征影响学习注意的研究毫米波雷达与机器视觉双模探测关键技术的研究语义地图及其关键技术研究多重影响因素下的语音识别系统研究基于卷积神经网络的自主空中加油识别测量技术研究基于视觉语义的深度估计、实例分割与重建重复视觉危险刺激——本能恐惧反应的“二态型”调控机制研究低成本视觉下的三维物体识别与位姿估计面向非规则目标的3D视觉引导抓取方法及系统研究基于物体识别地理配准的跨视频行人检测定位技术研究基于结构光的非刚体目标快速三维重建关键技术研究基于机器视觉的动物交互行为与认知状态分析系统关于单目视觉实时定位与建图中的优化算法研究动态场景下无人机SLAM在智慧城市中的关键技术研究面向视觉SLAM的联合特征匹配和跟踪算法研究基于深度学习的显著物体检测基于平面波的三维超声成像方法与灵长类动物脑成像应用研究基于物体检测和地理匹配的室内融合定位技术研究基于多模态信息融合的人体动作识别方法研究基于视觉惯性里程计的SLAM系统研究基于语义信息的图像/点云配准与三维重建基于种子点选取的点云分割算法研究基于深度学习的场景文字检测与识别方法研究基于运动上下文信息学习的室内视频烟雾预警算法研究基于深度学习的垃圾分类系统设计与实现面向手机部件的目标区域检测算法的设计与实现电路板自动光照检测系统的设计与实现基于机器视觉的工件识别与定位系统的设计与实现基于深度学习的物件识别定位系统的设计与实现基于视觉四旋翼无人机编队系统设计及实现基于视觉惯导融合的四旋翼自主导航系统设计与实现面向城市智能汽车的认知地图车道层生成系统基于深度学习的智能化无人机视觉系统的设计与仿真基于知识库的视觉问答技术研究基于深度学习的火灾视频实时智能检测研究结构化道路车道线检测方法研究基于机器视觉的带式输送机动态煤量计量研究基于深度学习的小目标检测算法研究基于三维激光与视觉信息融合的地点检索算法研究动态环境下仿人机器人视觉定位与运动规划方法研究瓷砖铺贴机器人瓷砖空间定位系统研究城市街景影像中行人车辆检测实现基于无线信号的身份识别技术研究基于移动机器人的目标检测方法研究基于深度学习的机器人三维环境对象感知基于特征表示的扩展目标跟踪技术研究基于深度学习的目标检测方法研究基于深度学习的复杂背景下目标检测与跟踪动态扩展目标的高精度特征定位跟踪技术研究掩模缺陷检测仪的图像处理系统设计复杂场景下相关滤波跟踪算法研究基于多层级联网络的多光谱图像显著性检测研究基于深度结构特征表示学习的视觉跟踪研究基于深度网络的显著目标检测方法研究基于深度学习的电气设备检测方法研究复杂交通场景下的视频目标检测基于多图学习的多模态图像显著性检测算法研究基于面部视频的非接触式心率检测研究单幅图像协同显著性检测方法研究轻量级人脸关键点检测算法研究基于决策树和最佳特征选择的神经网络钓鱼网站检测研究基于深度学习的场景文本检测方法研究 RGB-D图像显著及协同显著区域检测算法研究多模态融合的RGB-D图像显著目标检测研究基于协同排序模型的RGBT显著性检测研究基于最小障碍距离的视觉跟踪研究基于协同图学习的RGB-T图像显著性检测研究基于图学习与标签传播优化模型的图像协同显著性目标检测姿态和遮挡鲁棒的人脸关键点检测算法研究基于多模态和多任务学习的显著目标检测方法研究基于深度学习的交通场景视觉显著性区域目标检测基于生物视觉机制的视频显著目标检测算法研究基于场景结构的视觉显著性计算方法研究精神分裂症患者初级视觉网络的磁共振研究基于fMRI与TMS技术研究腹侧视觉通路中结构优势效应的加工脑机接口游戏神经可塑性研究基于YOLOV3算法的FL-YOLO多目标检测系统基于深度与宽度神经网络显著性检测方法研究基于深度学习的零件识别系统设计与研究基于对抗神经网络的图像超分辨算法研究基于深度学习复杂场景下停车管理视觉算法的研究与实现镍电解状态视觉检测与分析方法研究跨界训练对提升舞者静态平衡能力的理论与方法研究施工现场人员类型识别方法的研究与实现基于深度学习的自然场景文字检测方法研究基于嵌入式的交通标志识别器的设计基于视觉感知特性与图像特征的图像质量评价

舰船检测和知识识别论文

船舶质量关系到船舶建造业的发展，如果船舶质量不过关，对于船舶制造业来说，将会是致命的打击。下面是由我整理的船舶质量管理论文，谢谢你的阅读。

浅谈船舶检验质量监督管理

【摘要】船舶检验是保证船舶能够稳定安全运行的重点工作，做好检验工作的监督管理是提高检验水平的有效途径。本文将从以下几个方面来详细论述如何做好船舶检验的质量监督管理工作。

【关键词】船舶;检验质量;监督;管理

中图分类号：文献标识码：A

一、前言

船舶安全问题的出现原因有很多，其中一个重要的原因就是没有做好平时的维护和检验工作，因此，为了降低船舶出现故障的概率，提高船舶运行的安全性，必须要提高船舶的检验质量。

二、加强船舶检验质量监督管理的重要性

据统计，国内因船舶质量问题引发的重大人为事故频发，均是由于质量检测时疏忽而造成的，“吉长春货”四艘投入使用的货船相继出现影响恶劣的质量问题，均是船体发生断裂问题，以“吉长春货5016”为例，在松花江榆树江桥码头起航后掉头时因船体质量不堪承重而断裂沉没，造成了重大的经济损失。而其影响不仅是经济上的牵连，而是损害了人民生命财产安全，造成了民众、承运商对船舶业安全问题的质疑，影响了社会稳定。为了响应和谐社会构建的号召以及维护、保障公民生命财产安全，船舶业的质量安全问题被提上了议事日程，加强质量检验和监督管理能够保证航运业健康稳定地发展。

三、船舶检验的种类

船舶检验按其性质分为三大类：

1、船舶法定检验：船舶法定检验，英文名称：statutory survey，法定检验是按照国家有关法律、法规和主管机关颁布的技术规范(法规)，以及船旗国政府批准接受、承认或加入的有关国际公约(条约)，由主管机关下设的船舶检验机构或主管机关委托、授权、指定的检验机构对船舶、海上设施和船运货物集装箱实施的是否符合国家技术规范强制要求的检验活动。

2、船舶入级检验：船舶入级检验，英文名称：class survey，其他名称：船级检验，船东为保险和市场竞争的需要，为取得某船级社的船级而自愿申请该船级社进行的检验。

(一)入级检验。系指船舶所有人或经营人、管理人在法定检验的基础上为了保险和航运市场竞争的需要，向船级社申请入级，由船级社对船舶、海上设施和船运货物集装箱是否符合船级社发布的船舶入级规范的检验活动。它包括船舶、海上设施、集装箱及相关工业产品的入级检验和发证工作。入级是船东由于保险和船舶登记的需要而自愿申请，接受船级社的检验，使自己的船舶或海上设施在该船级社的监督下并按照该船级社的技术规范建造或由该船级社进行全面的初次入级检验，证明符合或等效于此船级社的规范或规定，即为取得该种船级。入级检验合格后，由船级社发给证书，授予船级符号及附加标志，并登入船级社出版的船舶名录内。

(二)船舶入级检验的性质和特点。按照国际上的通行做法，入级检验是由船级社根据其制定的规范、检验程序对船舶实施的检验。入级检验是一种商业性质的检验服务，从法律意义上讲，属于非强制性检验。但目前我国《中华人民共和国船舶和海上设施检验条例》规定了几类特殊船舶需要进行入级检验。

3、船舶公证检验：船舶公证检验，英文名称：justice survey。公证检验是指船检机构接受委托站在公正的立场上对某种情况进行鉴定，出具证明的一种检验。检验机构进行公证检验后出具的检验报告可作为交接、计费、索赔及海事仲裁行为的有效凭证。另外，船舶的起、退租检验、保修项目检验、船舶买卖核价及核定废钢船钢铁重量等均属公证检验。

四、开展船舶检验质量监督管理的途径

船舶检验是一个系统的工程，涉及到多个部门、多个环节，因而对船舶检验质量的监督管理不能只从某一个方面或某一个环节入手，而应从船舶生产、制造、检验、航运等各个环节入手，对船舶生命周期实施全过程控制，打造“造、检、航”船舶安全管理链，严把“三关”，提高检验质量。

1、加强对船舶建造环节的管理，严把“出生”关

(一)加强船舶制造厂的资质管理。船舶是“造”出来的，船舶制造厂理所当然是船舶质量的第一责任人，应为船舶的制造质量负首要责任。现阶段国内的船舶制造厂参差不齐，既有大型船舶制造厂，也有那些“沙滩造船厂”。大型船舶制造厂的技术力量雄厚、硬件设备先进，持有国家主管机关颁发的生产许可证;而大多数中、小型船舶制造厂还处于资金积累阶段，未取得国家主管机关颁发的生产许可证，质量意识比较淡薄。因此船舶工业行业管理部门要根据船舶工业发展规划，设立和把好造船市场准入门槛，严格把好修造船厂资质关。整合中小型船厂资源，向规范化、规模化和集约化发展，指导企业改造升级设备设施，改进造船工艺技术，提高质量管理水平，把好船舶源头关。

(二)加强对船舶辅助检验机构的管理。船舶辅助检验机构主要是指与船舶制造过程相关的辅助性机构，如船舶设计机构、船舶焊接机构、船舶拍片机构等等，此类机构对船舶的检验质量起到了重要的辅助保障作用，甚至在一定程度上左右着船舶的检验质量。如上所述的“金富星18”等三轮的断裂事故经查均是由于船舶的焊接质量差而导致的。负责对船舶焊接质量进行拍片的机构提供虚假的拍片结果，直接误导了船舶检验机构对船舶焊接质量的判断。

现阶段主管机关除对气胀式救生筏检修站纳入管理范围外，对其它的船舶辅助检验机构尚未纳入管理，有些目前由船舶检验机构对其实施间接的管理，有些则完全处于无人管理的状况，导致了目前国内辅助检验机构准入门槛低、机构泛滥，市场处于无序竞争和恶性竞争状态，威胁着船舶的制造和质量的检验。因此主管机关应制订统一的管理标准，加强对船舶辅助检验机构的监管，防止类似事故的发生。

2、加强对船舶检验环节的管理，严把“检验”关

船舶检验机构是船舶检验质量的控制和保证机构，对船舶的质量起到了至关重要的作用。船舶检验机构除加强自身的软硬件建设外，在检验过程中应遵循“一检、二帮、三把关”的原则，强化审图、现场检验和审核等环节的过程控制，严格有效地依照规范开展船舶检验，把好船舶质量检验关。

(一)加强对船舶检验机构的管理，推进船检管理体制的改革。目前主管机关对船舶检验机构的管理主要是通过对其机构检验资质的管理来实现的。2008年部海事局颁布了新的船舶检验机构资质管理办法，对船舶检验机构依据其检验能力实施分级管理和加强省级船舶检验机构对其下属船舶检验机构的管理力度，此种管理模式在一定程度上强化了省级管理机构的权威，但要彻底改变目前地方船舶检验机构自身的管理问题还存在不足。因此目前主管机关可以采取以下两种方法来加强对船检机构的管理，推进船检管理的改革：誗在继续实施以机构资质管理为主线的前提下，不断提高省级船检机构自身的管理能力外，还应逐步推进地方船舶检验机构的体制改革，推进省级船舶检验机构的垂直管理体系的建立。誗利用市场的手段，尝试逐步打破目前国内船舶检验的相关制度，合理调配船检机构间的人力资源，让现有的验船师力量达到最大化的发挥。

(二)加强对验船师队伍的建设。2005年国家颁发的《注册验船师制度暂行规定》，对验船师实施职业资格考试，只有通过考试方可有资格向主管机关申请注册，并从事船舶检验工作，并规定验船师在每个注册周期内必须参加相应的知识更新培训。做好船舶检验只有检验能力是不够的，验船师还需具有相应的职业道德准则。近几年出现了多起违规验船现象，有的甚至是故意违规检验。因此一支有责任心的、有能力的验船师队伍对稳定验船市场、提高验船质量是必不可少的。主管机关应不断加强验船师队伍的建设，提高验船师队伍的整体素质。

3、加强检验质量的后续监督管理，严把“监督”关

通过对海事局2008年船舶FSC检查滞留缺陷来看(2008年海事局船舶FSC检查，海船滞留率为、河船滞留率为)，真正发现由于船舶检验质量问题而导致船舶被滞留的几乎没有，这在一定程度上反映出安检人员在船检知识方面的不足。因此必须加强在这方面的系统培训，包括理论知识的培训和现场检验知识的培训，进而在海事系统内部储备一批具有验船师资质的现场监督人员，通过考试取得验船师资格证书，以提高海事系统综合技术监督能力。

对违规检验行为的处罚是开展监督管理的一个配套手段。对发现的船舶检验质量问题具体分析后对相关责任人依法实施处罚，尤其是对因主观原因而导致的船舶检验质量问题应加大处罚力度，让其违法成本远远大于违法所得。

五、结束语

本文主要论述了提高船舶检验质量，做好检验监督管理的一些方法和途径，对于船舶检验质量监管重点环节展开了详细论述。本文的研究对提高我国船舶检验工作的水平具有一定的参考价值。

【参考文献】

[1]李典庆.船体结构检测及维修规划的成本-效益评估[J].上海交通大学学报,.

[2]中华人民共和国海事局.船舶与海上设施法定检验规则[S].北京:人民交通出版社,2003.

[3]黄宛清.德国的航运及船舶检验管理[J].中国设备工程，.

点击下页还有更多>>>船舶质量管理论文

论文检测系统能自动识别图片吗

您好，论文查重不进行查重图片。论文查重只会对论文的纯文本内容进行检测，对于图片部分是不进行查重的。学生在引用图片时，虽然图片不会查重，但是建议学生在引用图片时注明好引用来源，不能随意复制别人的图片导致侵权现象。如果学生担心论文纯文本内容会提升论文重复率，可以将纯文本内容采用图片的形式展现出来，并且需要注意替换后看论文总字数是否达到学校的标准。众所周知，图片是由图形、图像等构成的平面媒体，图片的格式多种多样，但从总体上看，可分为两类：一类是点阵图，如 BMP、 JPG等格式都是点阵图，而 SWF、 CDR和 AI等属于矢量图形。图画在文章中可以起到很大的辅助作用尽管现在在网上可以搜索到很多的论文查重系统，但大多数的论文查重系统并不支持对论文中图片内。容的检测，目前只有知网有对论文图片进行检测的技术。因此现在大家要用除知网之外的论文查重系统的话，里面的论文图片就不能查重了，希望回答对您有帮助。

首先一篇完整的论文里面肯定是包含图片的，那么就能让内容更加的清晰起到一定的指导好处，所以大部分文章里面都会加入必要的图片。其实对于图片的检测来说，其他检测系统会显得非常薄弱，甚至连检测图片的作用都很小。因此，在对论文上的图片进行鉴定时，不是检测不到，就是全部加了扰码。

其实，图片能不能被系统识别到，关键还是取决于图片内容是不是能转换成文字内容，尽管目前技术很早就达到了一定的水平，但部分查重系统还是存在一些不足。如今大部分查重系统都无法对图片进行识别查重，但是我们会注意到，实际上检测系统是做不到这一点的，但是论文检测软件已经开始可以对其进行检测了，说明论文检测软件的权威性。

论文查重系统会不断的升级，已经比较完善。其实这方面的技术人员会因为缺乏图像识别而不断改进，论文查重一定要按照学校的要求提交。

图中最主要的看图中的内容。如果图片是全文的话，检测的时候可以转换一下，再检测一下。所以选择论文检测软件在完成定稿时进行论文检测，保证最优的论文检测报告。

写完论文后，最重要的是论文的重复率；很多理科生担心图片会被查重吗？图片属于一种媒体资源，也属于一种文件，图片有文件格式。而且有很多，但总的来说只有两种类型:点阵图和矢量图。学生常见的文件格式如 bmp、 jpg 是位图、 swf、 cdr、 ai 和其他文件格式是矢量图形。随着信息数据进行收集技术和信号分析研究基础教育理论的发展，越来越多的图片以数据的形式存在。现阶段，我国所有论文查重检测系统也包括知网论文检测系统软件，不能识别图片，会绕过图片。如果一定要识别图片，只能用人眼进行论文查重检测。理科论文写作过程中，会需要写很多公式，这些公式都是属于书本的，所以必须和其他发表的论文一样。这个时候如果不把公式当图片用，会影响论文的查重率。因此，如果学生可以编辑这部分公式，然后将其转换成图片，放入word中，可以降低论文的查重率。论文引用内容能否正确识别？一般来说，无论是期刊还是学校，在内部查重系统检测论文时，都会考虑论文的查重率，引用部分会出现在查重报告中，其中包括全面的查重率，它也排除了引用的重复率。对此，一般可以认为我们只要论文作者引用其他相关论文，论文查重检测系统发展就会进行自动识别，而引用部分则会在查重报告中用绿色字体表示。

现阶段，我国所有论文查重检测系统也包括知网论文检测系统软件，不能识别图片，会绕过图片。如果一定要识别图片，只能用人眼进行论文查重检测。理科论文写作过程中，会需要写很多公式，这些公式都是属于书本的，所以必须和其他发表的论文一样。这个时候如果不把公式当图片用，会影响论文的查重率。因此，如果学生可以编辑这部分公式，然后将其转换成图片，放入word中，可以降低论文的查重率。

路标识别与检测论文

生产力在不断进步，推动着科技的进步与革新，以建立更加合理的生产关系。自工业革命以来，人力劳动已经逐渐被机械所取代，而这种变革为人类社会创造出巨大的财富，极大地推动了人类社会的进步。时至今天，机电一体化，机械智能化等技术应运而生并已经成为时代的主旋律。人类充分发挥主观能动性，进一步增强对机械的利用效率，使之为我们创造出愈加巨大的生产力，并在一定程度上维护了社会的和谐。工业机器人的出现是人类在利用机械进行社会生产史上的一个里程碑。在发达国家中，工业机器人自动化生产线成套设备已成为自动化装备的主流及未来的发展方向。国外汽车行业、电子电器行业、工程机械等行业已经大量使用工业机器人自动化生产线，以保证产品质量，提高生产效率，同时避免了大量的工伤事故。全球诸多国家近半个世纪的工业机器人的使用实践表明，工业机器人的普及是实现自动化生产，提高社会生产效率，推动企业和社会生产力发展的有效手段。机器人的历史并不算长，1959年美国英格伯格和德沃尔制造出世界上第一台工业机器人，机器人的历史才真正开始。德沃尔曾于1946年发明了一种系统，可以“重演”所记录的机器的运动。1954年,德沃尔又获得可编程机械手专利，这种机械手臂按程序进行工作，可以根据不同的工作需要编制不同的程序，因此具有通用性和灵活性，英格伯格和德沃尔都在研究机器人，认为汽车工业最适于用机器人干活，因为是用重型机器进行工作，生产过程较为固定。1959年，英格伯格和德沃尔联手制造出第一台工业机器人。我国1993年的机器人装机台数约在1000台,仅占全世界的,显得无足轻重,其中,国产机器人所占比例更低。目前我国的机器人总数虽然较少,但国内机器人市场需求却很大,并呈上升趋势。在国家"七五"和"八五"攻关以及"863"计划等的推动下,我国机器人技术已有较大发展。智能机器人的研究获得进展,在机器人技术型号、机器人应用工程和机器人基础技术研究等方面取得显著成绩,跟踪了国际高级机器人技术,缩短了与国际先进水平的差距。1993年,全国机器人装机台数比1991年翻了一番,相对增长率很大。尽管有人对我国发展机器人技术尚存模糊认识,但是,越来越多的人已经认识到,高级机器人(包括工业机器人和智能机器人)是关键的自动化技术之一,是我国现代化建设必不可少的重要技术。这种高技术涉及柔性加工系统(FMS)、计算机集成制造系统(CIMS)、智能制造系统(IMS)、柔性自动化(FA)和自动工厂(AF)等, 机器人是多学科交叉的产物，集成了运动学与动力学、机械设计与制造、计算机硬件与软件、控制与传感器、模式识别与人工智能等学科领域的先进理论与技术。同时，它又是一类典型的自动化机器，是专用自动机器、数控机器的延伸与发展。当前，社会需求和技术进步都对机器人向智能化发展提出了新的要求。随着社会进步的步伐日益加快，对自动化的需求正在从制造业向工程、社会、生活等广泛领域扩展。原来在工厂结构化环境下工作的自动机器或工业机器人，适合于大规模、较少柔性和变动的生产环境，对智能程度并无过高要求，而在广泛领域内所需要的自动机器，则要满足不同的非结构环境下的不同需求，必须具有综合集成和自主的能力，向以技术集成为特征征的智能机器人发展。信息技术需要载体，用信息化改造传统工业和各行各业，最后都要落实到用自动机器去完成信息的物化，机器人就是其载体之一。而另一方面，信息技术的发展，特别是高性能计算机、通讯网络和电子器件、模式识别和信号处理、软件等技术的进展，又可促进机器人本身“智力”和“体质”的增强，为机器人向智能化、多样化发展创造条件，机器人技术与信息技术的这种互动发展在信息技术飞速发展的今天更为突出，这使机器人的高技术含量不断得到提升，始终处于高技术研究的前沿。机器人由于本身具有无限的想象空间，历来是概念创新、技术创新的源泉，无论是在空间、水下、救灾、服务、医疗、娱乐……领域，都可根据需要设想出具有对应功能的智能机器人，而且这种想象空间由低到高，永无止境。当前，由于自动化的概念正在急速向广泛领域扩展，而信息技术的发展又极大地提高了机器人的智能程度，使这种想象空间的扩展有了需求和实现的可能，从而会更加激励围绕机器人的概念创新和技术创新，并蕴含着产生各种竞争前核心技术的可能性，从而必然是国际科技创新的重要竞争点。机器人是多学科交叉的产物，但随着机器人应用环境和任务的复杂化，在非结构复杂环境下的信息综合与处理、针对复杂任务的规划和协调的难度和影响变得突出，需要采用信息反馈、优化控制、协调集成的理论、方法与技术去解决，控制学科在系统优化和综合集成方面的优势，将越来越在智能机器人中发挥主导作用。而智能机器人作为一种自动化系统，无论在理论与技术的覆盖面与前沿性、与各种先进信息技术的结合以及物理实现的多样性方面都是其它任何一类自动化系统所不能比拟的。因此，机器人在自动化科学技术中的代表性和地位将随着其应用范围的拓宽、所采用信息技术的更新和智能程度的提高，得到进一步的认可。在机器人向智能化的发展中，多机器人协作系统是一类具有覆盖性的技术集成平台。如果说单个机器人的智能化还只是使个体的人变得更聪明，那么多机器人协作系统则不但要有一批聪明的人，还要求他们能有效地合作。所以它不仅反映了个体智能，而且反映了集体智能，是对人类社会生产活动的想象和创新探索。多机器人协作系统有着广泛的应用背景，它与自动化向非制造领域的扩展有着密切的联系，由于应用环境转向非结构化，多移动机器人系统应能适应任务的变化以及环境的不确定性，必须具有高度的决策智能，因而，对多移动机器人协作的研究已不单纯是控制的协调，而是整个系统的协调与合作。在这里，多机器人系统的组织与控制方式在很大程度上决定了系统的有效性。多机器人协作系统还是实现分布式人工智能的典范。分布式人工智能的核心是把整个系统分成若干智能、自治的子系统，它们在物理和地理上分散，可独立地执行任务，同时又可通过通信交换信息，相互协调，从而同完成整体任务，这无疑对完成大规模和复的任务是富有吸引力的，因而很快在军事、信及其他应用领域得到了广泛重视。多机器协作系统正是这种理念的具体实现，其中每机器人都可看作是自主的智能体，这种多智体机器人系统MARS（Multi—AgentRoboticSystems）现已成为机器人学中一个新的研究热点。多移动机器人系统由于具有移动功能，能在非结构环境下完成复杂任务，是多机器人协作系统中最具典型意义和应用前景、也是得到最广泛研究的一类系统。体系结构是系统中机器人之间逻辑上和物理上的信息关系和控制关系，以及问题解能力的分布模式，它是多移动机器人协作行为的基础。一般地，多移动机器人协作系统的体系结构分为集中式（Centralized）和分式（Distributed）两种。集中式体系结构可用一个单一的主控机器人（Leader）来规划，该机器人具有关于系统活动的所有信息。而分布式体系结构则没有这样一个机器人，其中所有机器人相对于控制是平等的。尽管集中式体系结构可实现全局最优求解，但因考虑到不确定性影响，实际上人们更偏好分布式结构。近年采，在分布式体系结构中，为了克服机器人在实际环境中对环境建模的困难，，提高多移动机器人协作系统的鲁棒性和作业能力，一些学者采用了基于行为的反应式控制体力，一些学者采用了基于行为的反应式控制体系结构，将合作行为建立在一种反应模式上，加快了移动机器人对外界的响应，避免了复杂的推理，从而提高了系统的实时性。感知是智能机器人行动的基础，包括“感觉”（传感）和“知道与理解”信息融合与利用）。在移动机器人中最主要的感知问题是定位和环境建模问题[7]o虽然已有里程计推算、基于视觉的路标识别、基于地图匹配的全局定位、陀螺导航、GPS等多种定位方法，但在未知非结构环境中，目前有GPS才能实现可实用的全局定位。但GPS同时受到精度、安全等因素的限制。如何借助机器人之间的配合提高定位和环境建模能力，是研究多移动机器人系统智能的重要内容。近年来，提出了多种环境地图建立与定位的同步处理方法[8]，其中环境建模与定位过程是相互伴随的，两者在彼此迭代的过程中逐步清晰化，但往往要求苛刻的环境条件。此外，在不少协作任务中只需要合作者间的相对位置信息，如编队及局部避碰等，因此基于传感器的局部定位也受到关注，机器人之间通过超声、红外、激光或视觉等传感器相互探测，然后通过统计、滤波等算法进行信息融合，由此得到系统中各机器人的相对位置。我国在该领域的研究工作已经起步，在863计划、自然科学基金等资助下，经过多年的持续研究，国内已经有一批单位，在局部领域达到了较高的研究水平，实验研究情况也有了明显改善，但也遇到了诸多困难，尤其是在复杂系统控制与分布式智能领域的相关基础研究明显不足，缺乏强有力的理论和技术支持，而且大部分技术对环境的要求比较苛刻这诸多原因限制了多移动机器人系统的发展和向实用系统的转化面对真实世界的非结构化和动态特点，高适应性，、高柔性的协作理论、方法与技术将是今后的研究重点。

高速公路开车看路标可以看以下方式：

1、高速公路属于高等级公路，属于全封闭道路，通行速度较国道和省道高出很多。在路牌标识中高速公路与国道相同用字母G开头

2、各国尽管对高速公路的命名不同，但都是专指有4车道（包括）以上、两向分隔行驶、完全控制出入口、全部采用立体交叉的公路。此外，有不少国家对部分控制出入口、非全部采用立体交叉的直达干线也称为高速公路。

3、服务区路标：服务区路标告知高速公路的服务区以及其距离。

4、交汇点路标：交汇点路标告知高速公路与重点国道及其他高速公路的连接。

5、高速终点路标：高速终点路标告知在（一般是1000-500米时）马上要到达终点，标志是两条平行竖线和桥之间有一条红斜杠。

6、高速起点路标：高速起点告知马上要到达起点，标志平行竖线和桥。

索引序列
自然场景文本检测识别论文
场景文本检测论文总结
舰船检测和知识识别论文
论文检测系统能自动识别图片吗
路标识别与检测论文
返回顶部

自然场景文本检测识别论文