最近,端到端场景文本识别已成为一个流行的研究主题,因为它具有全局优化的优点和在实际应用中的高可维护性。大多数方法试图开发各种感兴趣的区域(RoI)操作,以将检测部分和序列识别部分连接到两阶段的文本识别框架中。然而,在这样的框架中, 识别部分对检测到的结果高度敏感(例如,文本轮廓的紧凑性)。 为了解决这个问题,在本文中,我们提出了一种新颖的“Mask Attention Guided One-stage”文本识别框架,称为MANGO,在该框架中无需RoI操作就可以直接识别字符序列。具体而言:
值得注意的是,MANGO自有地适应于任意形状的文本识别,并且仅使用粗略的位置信息(例如矩形边界框)和文本注释就可以进行端到端的训练。实验结果表明,该方法在规则和不规则文本识别基准(即ICDAR 2013,ICDAR 2015,Total-Text和SCUT-CTW1500)上均达到了有竞争力甚至最新性能。
场景文本识别由于其各种实际应用而备受关注,例如发票/收据理解中的关键实体识别,电子商务系统中的产品名称识别以及智能运输系统中的车牌识别。传统的场景文字识别系统通常分三步进行:定位文字区域,从原始图像中裁剪文字区域并将其识别为字符序列。然而尽管这种文本识别模型带来了许多可考虑的问题,例如: (1)错误将在多个单独的任务之间累 (2)维护多个单独的模型的成本很高 (3)该模型难以适应各种应用程序。
因此,提出了许多工作以端到端的方式来最终优化文本识别过程。这些方法通常使用各种兴趣区域(RoI)操作以可微分的方式桥接文本检测和识别部分,从而形成了两阶段框架。粗略地说,早期的端到端方法将轴对齐的矩形RoI用作连接模块。这些方法处理不规则的(例如,透视图或弯曲的)文本实例能力有限,因为这种类型的RoI可能会带来背景或其他文本的干扰。为了解决这个问题,后来的方法(设计了一些形状自适应RoI机制来提取不规则物体。文本实例并将其校正为规则形状。
图1:传统的两阶段文本识别过程和提出的MANGO的图示。 图(a)显示了通过RoI操作连接检测和识别部分的两阶段文本识别策略。 图(b)是一种提出的单阶段文本识别方法,它可以直接输出最终的字符序列。
在两阶段方法中,识别部分高度依赖于定位结果,这就要求检测部分必须能够捕获准确的文本边界以消除背景干扰。因此,训练鲁棒的文本检测模型依赖于准确的检测注释,例如在不规则文本识别中使用的多边形或蒙版注释。自然地,标记这种注释是费力且昂贵的。另一方面,要确保紧紧封闭的文本区域(由检测注释进行监督)对于以下识别任务而言是最佳形式,这并不容易。例如,在图1(a)中,紧密的文本边界可能会擦除字符的边缘纹理并导致错误的结果。 通常,需要手动扩展这些严格的检测结果,以适应实际应用中的识别。 此外,在proposals之后执行带有非极大抑制(NMS)的复杂RoI操作也很耗时,尤其是对于任意形状的区域。尽管(Xing et )提出了一种单阶段采用字符分割策略的字符级别的识别框架, 但很难扩展到具有更多字符类别(例如汉字)的情况。 它还会丢失角色之间的关键上下文信息。
实际上,当人们阅读时,他们不需要描绘文本实例的准确轮廓。通过视觉注意力关注的粗略文本位置来识别文本实例就足够了。在这里,我们将场景文本识别重新考虑为注意力和阅读的问题,即,一次直接读出粗略注意的文本区域的文本内容。
在本文中,我们提出了一种名为MANGO的“Mask Attention Guided One stage”文本监视程序,称为MANGO,这是一种紧凑而强大的单阶段框架,可直接从图像中同时预测所有文本,而无需进行任何RoI操作。具体来说,我们引入了一个位置感知蒙版注意力(PMA)模块以在文本区域上生成空间注意力,该模块包含实例级蒙版注意力(IMA)部分和字符级蒙版注意力(CMA)部分。 IMA和CMA分别负责感知图像中文本和字符的位置。可以通过位置感知注意力谱直接提取文本实例的特征,而不必进行显式的裁剪操作,这尽可能保留了全局空间信息。 在这里,使用动态卷积将不同文本实例的特征映射到不同的特征谱通道(Wang等人,2020c),如图1(b)所示。之后,应用轻量级序列解码器一次批量生成字符序列特征。
请注意,MANGO可以仅使用粗略的位置信息(例如,矩形边界框,甚至是文本实例的中心点)进行端到端优化,还可以使用序列注释。 受益于PMA,该框架可以自适应地识别各种不规则文本,而无需任何纠正机制,并且还能够了解任意形状的文本的阅读顺序。
本文的主要贡献如下: (1)我们提出了一种名为MANGO的紧凑而强大的一阶段文本识别框架, 该框架可以以端到端的方式进行训练。 (2)我们开发了位置感知蒙版注意力模块,以将文本实例特征生成为一个batch,并与最终字符序列建立一对一的映射。 只能使用粗略的文本位置信息和文本注释来训练该模块。 (3)广泛的实验表明,我们的方法在规则和不规则文本基准上均获得了有竞争甚至最新的性能。
早期场景文本发现方法(Liao,Shi,and Bai 2018; Liao et ; Wang et )通常首先使用训练有素的检测器来定位每个文本,例如(Liao et ; Zhou et ; He et ; Ma et ; Xu et ; Baek et ),然后使用序列解码器识别裁剪后的文本区域(Shi et ; Shi,Bai和Yao 2017; Cheng et ; Zhan and Lu 2019; Luo,Jin and Sun 2019)。为了充分利用文本检测和文本识别之间的互补性,已经提出了一些工作以端到端的方式优化场景文本发现框架,其中使用了模块连接器(例如RoI Pooling(Ren等人,2015a))在(Li,Wang,and Shen 2017; Wang,Li,and Shen 2019)中,(He等人2018)中使用的RoI-Align和(Liu等人2018)中使用的RoI-Rotate的开发是为了文本检测和文本识别部分。请注意,这些方法无法发现任意形状的文本。 为了解决不规则问题,已经提出了许多最近的工作来设计各种自适应RoI操作以发现任意形状的文本。 Sun等人(2018年)采用了透视图RoI转换模块来纠正透视图文本,但是该策略仍然难以处理弯曲度较大的文本。 (Liao et )提出了受两阶段Mask-RCNN启发的mask textspotter,用于逐个字符地检测任意形状的文本,但是这种方法会丢失字符的上下文信息,并且需要字符级位置注释。 Qin等人(2019)直接采用Mask-RCNN和基于注意力的文本识别器,该模型使用RoI-Masking模块在识别之前消除了背景干扰。 (Feng et )将文本实例视为一组特征块,并采用RoI-Slide操作来重建直线特征图。 (Qiao et al。2020)和(Wang et al。2020a)都检测到文本周围的关键点,并应用薄板样条变换(Bookstein 1989)纠正不规则实例。为了获得弯曲文本的平滑特征(Liu et ),使用Bezier曲线表示文本实例的上下边界,并提出了Bezier-Align操作以获取校正后的特征图。 上述方法在两阶段框架中实现了端到端场景文本点,其中需要设计基于RoI的连接器(例如RoI-Align,RoI-Slide和Bezier-Align等),以实现以下目的:明确裁剪特征图。 在两阶段框架中,性能很大程度上取决于RoI操作获得的文本边界精度。但是,这些复杂的多边形注释通常很昂贵,并且并不总是适合识别部分,如前所述。
在一般的对象定位领域,许多最新进展证明了在对象检测中研究的一阶段框架的效率和有效性(Redmon等人2016; Liu等人2016; Lin等人2017b; Tian等人2019;段等人(2019)或实例分割(Wang等人2019b; Tian,Shen和Chen 2020; Wang等人2020c; Xie等人2020; Chen等人2020)。但是,场景文本发现是一项更具挑战性的任务,因为它涉及序列识别问题而不是单个对象分类。这是因为场景文本具有许多特殊特征:任意形状(例如,曲线,倾斜或透视图等),数百万个字符组合,甚至是不受限制的阅读顺序(例如,从右到左)。最近,(Xing et )提出了一种通过直接分割单个字符的一种舞台场景文本识别方法。但是,它丢失了各个字符之间的序列上下文信息,并且很难传递给更多的字符类。据我们所知,以前没有工作可以在一个阶段的框架中处理序列级别的场景文本发现任务。
图2:MANGO的工作流程。 我们以S = 6为例。 将输入特征输入到位置感知蒙版注意力模块中,以将实例/字符的不同特征映射到不同通道。 识别器最终一次全部输出字符序列。 Centerline Segmentation分支用于生成所有文本实例的粗略位置。 前缀“ R-”和“ C-”分别表示网格的行和列。
我们提出了一个名为MANGO的单阶段场景文本查找器,如图2所示。其深层特征是通过ResNet-50(He等人,2016)和特征金字塔网络(FPN)(Lin等人,2017a)的主干提取的。 然后将生成的特征图馈送到三个可学习的模块中: (1)用于学习单个文本实例的位置感知蒙版注意力(PMA)模块,其中包括实例级蒙版注意力( IMA)子模块和字符级掩码注意力(CMA)子模块。 (2)识别器用于将注意力实例特征解码为字符序列。 (3)全局文本中心线分割模块,用于在推理阶段提供粗略的文本位置信息。
单阶段的文本识别问题可以视为原始图像中的纯文本识别任务。关键步骤是在文本实例到最终字符序列之间以固定顺序建立直接的一对一映射。在这里,我们开发了位置感知注意力(PMA)模块,以便为接下来的序列解码模块一次捕获所有表示文本的特征。受(Wang等人2019b)中使用的网格映射策略的启发,我们发现可以将不同的实例映射到不同的特定通道中,并实现实例到特征的映射。也就是说,我们首先将输入图像划分为S×S的网格。然后,通过提出的PMA模块将网格周围的信息映射到特征图的特定通道中。
具体来说,我们将特征提取后获得的特征图表示为x∈R C×H×W ,其中C,H和W分别表示为特征图的通道数量,宽度和高度。然后我们将特征图x送入PMA(包括IMA和CMA模块)模块,以生成文本实例的特征表示(如下所述)。
Instance-level Mask Attention MA负责生成实例级注意力蒙版遮罩,并将不同实例的特征分配给不同的特征图通道。 它是通过在切片网格上操作一组动态卷积内核(Wang等人2020c)来实现的,表示为G S×S×C 。卷积核大小设置为1×1。
因此可以通过将这些卷积核应用于原始特征图来生成实例级注意力掩码:
Character-level Mask Attention 正如许多工作 (Chenget等人2017; Xing等人2019)所表明的那样, 字符级位置信息可以帮助提高识别性能。 这激励我们设计全局字符级注意力子模块, 以为后续的识别任务提供细粒度的特征。
如图2所示,CMA首先将原始特征图x和实例级注意力蒙版x ins 连接在一起,然后是两个卷积层(卷积核大小= 3×3)遵循下式来预测字符级注意力蒙版:
由于将不同文本实例的注意蒙版分配给不同的特征通道,因此我们可以将文本实例打包为一批。 一个简单的想法是进行(Wang等人2020b)中使用的注意力融合操作,以生成批处理的连续特征x seq ,即
该模型现在能够分别输出S 2 网格的所有预测序列。 但是,如果图像中有两个以上的文本实例,我们仍然需要指出哪个网格对应于那些识别结果。
由于我们的方法不依赖准确的边界信息,因此我们可以应用任何文本检测策略(例如RPN(Ren等人2015b)和YOLO(Redmon等人。 2016)),以获取文本实例的粗略的几何信息。 考虑到场景文本可能是任意形状的,我们遵循大多数基于分割的文本检测方法(Long等人2018; Wang等人2019a)来学习单个文本实例的全局文本中心线区域分割(或缩小ground truth)。
IMA和CMA模块都用于使网络聚焦于特定的实例和字符位置,这在理论上只能通过最后的识别部分来学习。 但是,在复杂的场景文本场景中,如果没有位置信息的辅助,网络可能难以收敛。 但是,我们发现,如果模型已经在合成数据集上进行了预先的字符级监督,则可以轻松转移模型。 因此,可以分两步对模型进行优化。
首先,我们可以将IMA和CMA的学习视为纯分割任务。 结合中心线区域分割,所有分割任务都使用二进制Dice系数损失进行训练(Milletari,Navab和Ahmadi 2016),而识别任务仅使用交叉熵损失。 全局优化可以写成
请注意,预训练步骤实际上是一次性的任务,然后将主要学习CMA和IMA以适应该识别任务。 与以前需要平衡检测和识别权重的方法相比,MANGO的端到端结果主要由最终识别任务监督。
在推断阶段,网络输出一批(S×S)概率矩阵(L×M)。 根据中心线分割任务的预测,我们可以确定哪些网格应视为有效。 我们首先进行“广度优先搜索”(BFS),以找到各个相连的区域。 在此过程中,可以过滤许多类似文本的纹理。 由于每个连接区域可能与多个网格相交,因此我们采用字符加权投票策略来生成最终的字符串,如图3所示。
具体来说,我们计算连接区域i与网格j之间的连接率o i,j 作为每个字符的权重。 对于实例i的第k个字符,其字符加权投票结果通过
我们列出了本文使用的数据集如下:训练数据。我们使用SynthText 800k(Gupta,Vedaldi和Zisserman 2016)作为预训练数据集。利用实例级注释和字符级注释对PMA模块进行预训练。在微调阶段,我们旨在获得一个支持常规和非常规场景文本读取的通用文本点。在这里,我们构建了一个用于微调的通用数据集,其中包括来自Curved SynthText的150k图像(Liu等人2020),从COCO-Text过滤的13k图像(Veitet等人2016),从ICDAR-MLT过滤的7k图像(Nayefet等人2019)以及ICDAR2013(Karatzas等人2013),ICDAR2015(Karatzas等人2015)和Total-Text(Ch'ng and Chan 2017)中的所有训练图像。请注意,这里我们仅使用实例级别的注释来训练网络。测试数据集。我们在两个标准文本点标基准ICDAR2013(Karatzas等人2013)(IC13)和ICDAR2015(Karatzas等人2015)(IC15)中评估了我们的方法,其中主要包含水平和透视文本,以及两个不规则的基准Total-Text(Ch'ng和Chan 2017)和SCUT-CTW1500(Liu等人2019)(CTW1500),其中包含许多弯曲文本。车牌识别数据集CCPD中我们方法的能力(Xuet )。
所有实验均在Pytorch中使用8×32 GB-Tesla-V100 GPU进行。网络详细信息。特征提取器使用ResNet-50(He等人2016)和FPN(Lin等人2017a)从不同的特征图中获取融合特征水平。这里,C = 256的(4×)特征图用于执行后续的训练和测试任务.Lis设置为25以覆盖大多数场景文本单词。 BiLSTM模块有256个隐藏单元,训练详细信息,所有模型均由SGDoptimizer进行训练,批处理大小= 2,动量= 和重量衰减= 1×10−4。在预训练阶段,以10个周期的初始学习比率1×10-2训练网络。每3个周期将学习率除以10.在微调阶段,初始学习率设置为1×10-3。为了平衡每批中的合成图像和真实图像的数量,我们将Curved SynthText数据集与其他真实数据集的采样比率保持为1:1。微调过程持续250k次迭代,其中学习率在120k迭代和200k迭代时除以10.我们还对所有训练过程进行数据扩充,包括1)将输入图像的较长边随机缩放为长度在[720,1800]范围内,2)将图像随机旋转[-15°,15°]范围内的角度,以及3)对输入图像应用随机的亮度,抖动和对比度。在不同的数据集中,我们将IC15的评估值设置为S = 60,将IC13,Total-Text和CTW1500的评估值设置为S = 40。我们将所有权重参数简单地设置为λ1=λ2=λ3=λ= 1。测试细节。由于输入图像的尺寸是重要的重要影响性能,因此我们将报告不同输入比例下的性能,即保持原始比例和将图像的较长边调整为固定值。所有图像都在单一尺度上进行测试。由于当前的实现方式仅提供了粗略的定位,因此,我们通过考虑IoU> 的所有检测结果,修改(Wang,Babenko和Belongie 2011)的端到端评估指标。在这种情况下,由于某些低等级的建议匹配而导致精度下降,先前方法的性能甚至会下降。
常规文本的评估我们首先根据常规评估指标(Karatzas等,2015)对IC13和IC15的方法进行评估,然后基于三种不同的lexi-cons(强)对两个评估项目( 端到端''和 单词斑点'')进行评估,弱和通用)。表1显示了评估结果。与使用常规词典评估的先前方法相比,我们的方法在“通用”项目上获得了最佳结果(除了IC15的端到端通用结果之外),并在其余评估项目上获得了竞争结果(强”和“弱”)。与最近使用特定词典的最新MaskMaskTextSpotter(Liao et )相比,我们的方法在所有评估项目上均明显优于该方法。尽管推理速度很高,但FOTS的FPS最高(帧数第二),它无法处理不正常的情况。与基于不规则的方法相比,我们的方法获得了最高的FPS。不规则文本的评估我们在Total-Text上测试了我们的方法,如表2所示。我们发现我们的方法比最先进的方法高出%和 “无”和“满”指标中的百分比。请注意,即使没有明确的纠正机制,我们的模型也只能在识别监督的驱动下才能很好地处理不规则文本。尽管在1280的测试规模下,推理速度约为ABCNet的1/2,但我们的方法取得了显着的性能提升。我们还在CTW1500上评估了我们的方法。报告端到端结果的作品很少,因为它主要包含行级文本注释。为了适应这种情况,我们在CTW1500的训练集上对检测分支进行了重新训练,以学习线级中心线分割,并确定主干和其他分支的权重。请注意,识别不会受到影响,仍然会输出单词级序列。最终结果将根据推断的连接区域简单地从左到右连接起来。汉字设置为NOT CARE。结果如表3所示。我们发现,在“无”和“满”度量标准下,我们的方法明显比以前的提升了%和%。因此,我们相信,如果只有行级注解的数据足够多,我们的模型就可以很好地适应这种情况。
图4可视化了IC15和Total-Text上的端到端文本发现结果。 我们详细显示了字符投票之前每个正网格(oi,j> )的预测结果。 我们看到我们的模型可以正确地专注于相应的位置并学习任意形状(例如弯曲或垂直)文本实例的字符序列的复杂读取顺序。 采取字符投票策略后,将生成具有最高置信度的单词。我们还用可视化的CMA演示了CTW1500的一些结果,如图5所示。请注意,我们仅根据数据集的位置微调线级分割部分 标签,同时固定其余部分。在这里,我们通过将所有网格的注意图覆盖在相同的字符位置(k)上来可视化CMA的特征图:
网格编号的消除网格编号S2是影响最终结果的关键参数。如果太小,则占据相同网格的文本太多。否则,太大的S会导致更多的计算成本。在这里,我们进行实验以找到不同数据集的S的可行值。从表4中,我们发现IC13和TotalText的bestS均为40。 IC15的值为60。这是因为IC15包含更多密集和较小的实例。总而言之,当S> = 40时,总体性能随沙的增加而稳定。当然,FPS随S的增加而略有下降。信息。为了证明这一点,我们还进行了实验,以矩形边框的形式转移所有本地化注释。我们仅采用RPN头作为检测分支。表5显示了IC15和Total-Text的结果。即使进行严格的位置监控,MANGO的性能也只能降低0%到3%,并且可以与最新技术相比。请注意,粗略位置仅用于网格选择,因此可以根据特定任务的要求尽可能简化它。
为了证明模型的泛化能力,我们进行了实验以评估CCPD公共数据集上的端到端车牌识别结果(Xu et )。为了公平起见,我们遵循相同的实验设置,并使用带有250k图像的数据集的初始版本。 CCPD-Base数据集分为两个相等的部分:用于训练的100k样本和用于测试的100k样本。有6个复杂的测试集(包括DB,FN,旋转,倾斜,天气和挑战)用于评估算法的鲁棒性,总共有50k张图像。由于CCPD中的每个图像仅包含一个板,因此可以通过删除来进一步简化我们的模型检测分支直接预测最终字符序列。因此,网格数减少为S = 1,最大序列长度设置为L =8。我们直接对模型进行微调(已通过SynthText进行了预训练)在CCPD训练集上仅使用序列级注释,然后评估上述七个测试数据集的最终识别准确性。测试阶段是对尺寸为720×1160的原始图像执行的。 表6显示了端到端识别结果。尽管所提出的方法不是为车牌识别任务设计的,但仍然可以轻松地转移到这种情况下。我们看到,提出的模型在7个测试集中的5个中优于以前的方法,并达到了最高的平均精度。图6显示了CCPD测试集的一些可视化结果。故障样本主要来自图像太模糊而无法识别的情况。该实验表明,在许多情况下,只有一个文本实例(例如,工业印刷识别或仪表拨盘识别),可以使用良好的端到端模型无需检测注释即可获得。
在本文中,我们提出了一种名为MANGO的新颖的单阶段场景文本查找器。 该模型删除了RoI操作,并设计了位置感知注意模块来粗略定位文本序列。 之后,应用轻量级序列解码器以将所有最终字符序列成批获取。 实验表明,我们的方法可以在流行基准上获得具有竞争力的,甚至最先进的结果。
之前也是为论文苦恼了半天,网上的范文和能搜到的资料,大都不全面,一般能有个正文就不错了,而且抄袭的东西肯定不行的,关键是没有数据和分析部分,我好不容易搞出来一篇,结果还过不了审。 还好后来找到文方网,直接让专业人士帮忙,效率很高,核心的部分帮我搞定了,也给了很多参考文献资料。哎,专业的事还是要找专业的人来做啊,建议有问题参考下文方网吧 下面是之前文方网王老师发给我的题目,分享给大家: 基于深度学习的无人机地面小目标算法研究 基于视觉的智能汽车面向前方车辆的运动轨迹预测技术研究 模拟射击训练弹着点检测定位技术研究 基于深度卷积神经网络的空中目标识别算法的研究 基于可见光图像的飞行器多目标识别及位置估计 无人驾驶车辆手势指令识别研究与实现 车载毫米波雷达目标检测技术研究 基于多传感融合的四足机器人建图方法 中老年人群跌倒风险评估的数据采集系统 基于深度学习的视觉SLAM闭环检测方法研究 真实图片比较视觉搜索任务的年龄效应及对策研究 室内复杂场景下的视觉SLAM系统构建与研究 基于双目内窥镜的软组织图像三维重建 学习资源画面色彩表征影响学习注意的研究 毫米波雷达与机器视觉双模探测关键技术的研究 语义地图及其关键技术研究 多重影响因素下的语音识别系统研究 基于卷积神经网络的自主空中加油识别测量技术研究 基于视觉语义的深度估计、实例分割与重建 重复视觉危险刺激——本能恐惧反应的“二态型”调控机制研究 低成本视觉下的三维物体识别与位姿估计 面向非规则目标的3D视觉引导抓取方法及系统研究 基于物体识别地理配准的跨视频行人检测定位技术研究 基于结构光的非刚体目标快速三维重建关键技术研究 基于机器视觉的动物交互行为与认知状态分析系统 关于单目视觉实时定位与建图中的优化算法研究 动态场景下无人机SLAM在智慧城市中的关键技术研究 面向视觉SLAM的联合特征匹配和跟踪算法研究 基于深度学习的显著物体检测 基于平面波的三维超声成像方法与灵长类动物脑成像应用研究 基于物体检测和地理匹配的室内融合定位技术研究 基于多模态信息融合的人体动作识别方法研究 基于视觉惯性里程计的SLAM系统研究 基于语义信息的图像/点云配准与三维重建 基于种子点选取的点云分割算法研究 基于深度学习的场景文字检测与识别方法研究 基于运动上下文信息学习的室内视频烟雾预警算法研究 基于深度学习的垃圾分类系统设计与实现 面向手机部件的目标区域检测算法的设计与实现 电路板自动光照检测系统的设计与实现 基于机器视觉的工件识别与定位系统的设计与实现 基于深度学习的物件识别定位系统的设计与实现 基于视觉四旋翼无人机编队系统设计及实现 基于视觉惯导融合的四旋翼自主导航系统设计与实现 面向城市智能汽车的认知地图车道层生成系统 基于深度学习的智能化无人机视觉系统的设计与仿真 基于知识库的视觉问答技术研究 基于深度学习的火灾视频实时智能检测研究 结构化道路车道线检测方法研究 基于机器视觉的带式输送机动态煤量计量研究 基于深度学习的小目标检测算法研究 基于三维激光与视觉信息融合的地点检索算法研究 动态环境下仿人机器人视觉定位与运动规划方法研究 瓷砖铺贴机器人瓷砖空间定位系统研究 城市街景影像中行人车辆检测实现 基于无线信号的身份识别技术研究 基于移动机器人的目标检测方法研究 基于深度学习的机器人三维环境对象感知 基于特征表示的扩展目标跟踪技术研究 基于深度学习的目标检测方法研究 基于深度学习的复杂背景下目标检测与跟踪 动态扩展目标的高精度特征定位跟踪技术研究 掩模缺陷检测仪的图像处理系统设计 复杂场景下相关滤波跟踪算法研究 基于多层级联网络的多光谱图像显著性检测研究 基于深度结构特征表示学习的视觉跟踪研究 基于深度网络的显著目标检测方法研究 基于深度学习的电气设备检测方法研究 复杂交通场景下的视频目标检测 基于多图学习的多模态图像显著性检测算法研究 基于面部视频的非接触式心率检测研究 单幅图像协同显著性检测方法研究 轻量级人脸关键点检测算法研究 基于决策树和最佳特征选择的神经网络钓鱼网站检测研究 基于深度学习的场景文本检测方法研究 RGB-D图像显著及协同显著区域检测算法研究 多模态融合的RGB-D图像显著目标检测研究 基于协同排序模型的RGBT显著性检测研究 基于最小障碍距离的视觉跟踪研究 基于协同图学习的RGB-T图像显著性检测研究 基于图学习与标签传播优化模型的图像协同显著性目标检测 姿态和遮挡鲁棒的人脸关键点检测算法研究 基于多模态和多任务学习的显著目标检测方法研究 基于深度学习的交通场景视觉显著性区域目标检测 基于生物视觉机制的视频显著目标检测算法研究 基于场景结构的视觉显著性计算方法研究 精神分裂症患者初级视觉网络的磁共振研究 基于fMRI与TMS技术研究腹侧视觉通路中结构优势效应的加工 脑机接口游戏神经可塑性研究 基于YOLOV3算法的FL-YOLO多目标检测系统 基于深度与宽度神经网络显著性检测方法研究 基于深度学习的零件识别系统设计与研究 基于对抗神经网络的图像超分辨算法研究 基于深度学习复杂场景下停车管理视觉算法的研究与实现 镍电解状态视觉检测与分析方法研究 跨界训练对提升舞者静态平衡能力的理论与方法研究 施工现场人员类型识别方法的研究与实现 基于深度学习的自然场景文字检测方法研究 基于嵌入式的交通标志识别器的设计 基于视觉感知特性与图像特征的图像质量评价
当前国内、外的研究动态从对图像进行滤波的过程中所采用的滤波方法来分,可分为空间域滤波、变换域滤波;从滤波类型来分,又可以分为线性滤波和非线性滤波。2002年和VetterliM.提出了一种“真正”的二维图像稀疏表达方法——Contourlet变换[7,8],这种变换能够很好的表征图像的各向异性特征。由于Contourlet变换能更好的捕获图像的边缘信息,因此选择合适的阈值进行去噪就能获得比小波变换更好的效果。Starck等人将Curvelet变换应用于图像的去噪过程中并取得了良好的效果[9],该方法虽然能有效的去除噪声,但往往会“过扼杀”Curvelet系数,导致在消除噪声的同时丢失图像细节。在过去的二十年里,自适应滤波器在通信和信号处理领域引起了人们的极大关注。TerenceWang等人针对二维自适应FIR滤波器提出了一种二维最优块随机梯度算法(TDOBSG)[10]。这种算法对滤波器的所有系数使用了空间可变的收缩因子。基于使后验估计方差矢量的二范数最小的最小方差准则,在块迭代的过程中选出最优的收敛因子。线性滤波器的最大优点是算法比较简单且速度比较快,缺点是容易造成细节和边缘模糊。在目前对非线性滤波器的研究中,中值滤波器有较明显的优势,很多科学工作者对中值滤波器作了改进或者提出了一些新型的中值滤波器。Loupas等人提出的自适应的加权中值滤波方法(AWMF),但他利用的Speckle噪声模型不够精确,图像细节损失较大[11]。针对中值滤波器在处理矢量信号存在的缺点,Jakko等人提出两种矢量中值滤波器[12]。近年来,小波分析是当前应用数学中一个迅速发展的新领域,它凭借其卓越的优越性,越来越多的被应用于图像去噪等领域,基于小波分析的图像去噪技术也随着小波理论的不断完善取得了较好的效果。上个世纪八十年代Mallet提出了 MRA(Multi_Resolution Analysis),并首先把小波理论运用于信号和图像的分解与重构,利用小波变换模极大值原理进行信号的奇异性检测,提出了交替投影算法用于信号重构,为小波变换用于图像处理奠定了基础[13]。后来,人们根据信号与噪声在小波变换下模极大值在各尺度上的不同传播特性,提出了基于模极大值去噪的基本思想。1992年,Donoho和Johnstone[14]提出了“小波收缩”,它较传统的去噪方法效率更高。“小波收缩”被Donoho和Johnstone证明是在极小化极大风险中最优的去噪方法,但在这种方法中最重要的就是确定阈值。1995年,Stanford大学的学者和提出了通过对小波系数进行非线性阈值处理来降低信号中的噪声[15,16,17]。从这之后的小波去噪方法也就转移到从阈值函数的选择或最优小波基的选择出发来提高去噪的效果。影响比较大的方法有以下这么几种:和提出的基于最大后验概率的贝叶斯估计准则确定小波阈值的方法[18];等在处理断层图像时提出了三种基于小波相位的去噪方法:边缘跟踪法、局部相位方差阈值法以及尺度相位变动阈值法[19];学者Kozaitis结合小波变换和高阶统计量的特点提出了基于高阶统计量的小波阈值去噪方法[20];等利用原图像和小波变换域中图像的相关性用GCV(generalcross-validation)法对图像进行去噪[21];和Woolsey等人提出结合维纳滤波器和小波阈值的方法对信号进行去噪处理[22],VasilyStrela等人将一类新的特性良好的小波(约束对)应用于图像去噪的方法[23];同时,在19世纪60年代发展的隐马尔科夫模型(HiddenMarkov Model)[24],是通过对小波系数建立模型以得到不同的系数处理方法;后又有人提出了双变量模型方法[25,26],它是利用观察相邻尺度间父系数与子系数的统计联合分布来选择一种与之匹配的二维概率密度函数。这些方法均取得了较好的效果,对小波去噪的理论和应用奠定了一定的基础。另外,尽管小波去噪方法现在已经成为去噪和图像恢复的重要分支和主要研究方向,但目前在另类噪声分布(非高斯分布)下的去噪研究还不够。目前国际上开始将注意力投向这一领域,其中非高斯噪声的分布模型、高斯假设下的小波去噪方法在非高斯噪声下如何进行相应的拓展,是主要的研究方向。未来这一领域的成果将大大丰富小波去噪的内容。总之,由于小波具有低墒性、多分辨率、去相关性、选基灵活性等特点[27],小波理论在去噪领域受到了许多学者的重视,并获得了良好的效果。但如何采取一定的技术消除图像噪声的同时保留图像细节仍是图像预处理中的重要课题。目前,基于小波分析的图像去噪技术已成为图像去噪的一个重要方法。
安装隔音板,隔音材料,隔音棉都能隔音。
导言 损坏的图像往往是在其噪声采集和传输。例如在图像采集,其性能的影像传感器是受多种因素,如环境条件和质量检测的内容本身。例如,在获取图像的CCD相机,轻水平和传感器温度是主要影响因素的数量所产生的噪声的形象。图像传输过程中还损坏,由于干扰的频道用于传输。图像降噪技术,必须消除这种添加剂随机噪声,同时保留尽可能多的重要信号的功能。的主要目标,这些类型的随机噪声去除抑制噪声,同时保持原始图像的细节。统计过滤器一样平均滤波器[ 1 ] [ 2 ] , Wiener滤波器[ 3 ]可用于消除这种噪音,但基于小波变换的去噪方法更好的结果证明不是这些过滤器。一般来说,图像去噪规定之间的妥协,减少噪音和保护重要的图像细节。为了实现良好的性能在这方面,去噪算法,以适应图像的不连续性。小波代表性,自然有利于建设这种空间自适应算法。它压缩在一个重要信息信号转换成相对较少,大量系数,代表图像细节在不同的决议尺度。在最近几年出现了相当数量的研究小波阈值和阈值选取的信号和图像去噪[ 4 ] [ 5 ] [ 6 ] [ 7 ] [ 8 ] [ 9 ] ,因为小波提供了一个适当的基础分离噪音信号从图像信号。许多小波阈值技术一样VisuShrink [ 10 ] , BayesShrink [ 11 ]已经证明,效益较好的图像去噪。在这里,我们描述一个有效的阈值去噪技术通过分析统计参数的小波系数。本文安排如下:简要回顾了离散小波变换( DWT域)和小波滤波器银行第二节。小波阈值技术是基于解释第三节。在第四部分提出了新的阈值技术的解释。的步骤在此范围内工作的解释第五节第六节的实验结果这个拟议的工作和其他去噪技术是当前和比较。最后总结发言中给出了第七节。
题目基于小波变换的图像去噪方法研究学生姓名陈菲菲学号 1113024020 所在学院物理与电信工程学院专业班级通信工程专业1 101 班指导教师陈莉完成地点物理与电信工程学院实验中心 201 5年5月 20日 I 毕业论文﹙设计﹚任务书院(系) 物理与电信工程学院专业班级通信 1 101 班学生姓名陈菲菲一、毕业论文﹙设计﹚题目基于小波变换的图像去噪方法研究二、毕业论文﹙设计﹚工作自 201 5年3月1日起至 201 5年6月20 日止三、毕业论文﹙设计﹚进行地点: 物理与电信工程学院实验室四、毕业论文﹙设计﹚的内容 1、图像处理中,输入的是质量低的图像,输出的是改善质量后的图像。常用的图像处理方法有图像增强、复原、编码、压缩等。一般图像的能量主要集中在低频区域中,只有图像的细节部的能量才处于高频区域中。因为在图像的数字化和传输中常有噪声出现,而这部分干扰信息主要集中在高频区域内,所以消去噪声的一般方法是衰减高频分量或称低通滤波,但与之同时好的噪方法应该是既能消去噪声对图像的影响又不使图像细节变模糊。为了改善图像质量,从图像提取有效信息,必须对图像进行去噪预处理。设计任务: (1 )整理文献,研究现有基于小波变换的图像去噪算法,尝试对现有算法做出改进; (2 )在 MATLAB 下仿真验证基于小波变换的图像去噪算法。 2 、要求以论文形式提交设计成果,应掌握撰写毕业论文的方法, 应突出“目标,原理,方法,结论”的要素,对所研究内容作出详细有条理的阐述。进度安排: 1-3 周:查找资料,文献。 4-7 周:研究现有图像去噪技术,对基于小波变换的图像去噪算法作详细研究整理。 8-11 周: 研究基于小波的图像去噪算法,在 MATLAB 下对算法效果真验证。 12-14 周:分析试验结果,对比各种算法的优点和缺点,尝试改进算法。 15-17 周:撰写毕业论文,完成毕业答辩。指导教师陈莉系(教研室) 系( 教研室) 主任签名批准日期 接受论文( 设计) 任务开始执行日期 学生签名 II 基于小波变换的图像去噪方法研究陈菲菲( 陕西理工学院物理与电信工程学院通信 1 101 班,陕西汉中 72300 0) 指导教师: 陈莉[摘要] 图像去噪是信号处理中的一个经典问题, 随着小波理论的不断完善,它以自身良好的时频特性在图像去噪领域受到越来越多的关注。基于小波变换的去噪方法有很多
基于频域多尺度小波变换的CR图像超分辨率增强,吉林大学学报(信息科学版),2009(3) (通讯作者)李哲,黄廉卿,李鹤:”基于数学形态学的CR图像实时快速分割算法”[J]. 光学技术33(1):6-10,2007(EI)李哲,黄廉卿.”基于自动选取最佳阈值的X光图像快速分割方法”[J].计算机应用研究24(3):286-288,2007李哲,黄廉卿. 基于自动选取多个阈值的乳腺X光图像分割方法[OL]. 2005 中国科技论文在线李哲,夏秀娟:“医疗保险管理信息系统的设计及需注意的几个问题”计算机与现代化 著作教材1.多媒体技术实验与习题指导 清华大学出版社20122.高等计算机教材系列·多媒体技术教程 机械工业出版社20093.高等院校计算机教材系列·多媒体技术实验与习题指导 机械工业出 版社20094、多媒体技术实验与习题指导(21世纪高等学校规划教材·计算机应用) 清华大学出版社 2012 获奖情况: 2008年吉林大学仪器科学与电气工程学院青年教师教学比赛一等奖
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
你应该好好了解自己研究的题目,论文与专业不一样,看来你的能力超强。希望你很快进入这个领域。名副其实的写出一篇有硕士水平的论文。到此为止,超出问答的范围不是到这回答问题的目的。
论文原文:
YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下,解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比:
如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测,那么yolo则是更进一步,将 目标区域预测 与 目标类别判断 整合到单个神经网络模型中。各检测算法结构见下图:
每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:
其中如果有object落在一个grid cell里,第一项取1,否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。
每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。即SxS个网格,每个网格除了要预测B个bounding box外,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,即一个网格只预测一组类别而不管里面有多少个bounding box,而confidence信息是针对每个bounding box的。)
举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:
在test的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:
等式左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。
得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS(非极大值抑制non-maximum suppresssion)处理,就得到最终的检测结果。
1、每个grid因为预测两个bounding box有30维(30=2*5+20),这30维中,8维是回归box的坐标,2维是box的confidence,还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间,w,h除以图像的width和height也归一化到0-1之间。
2、对不同大小的box预测中,相比于大box预测偏一点,小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题,作者用了一个比较取巧的办法,就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解,小box的横轴值较小,发生偏移时,反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。
3、一个网格预测多个box,希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大,就负责哪个。这种做法称作box predictor的specialization。
4、损失函数公式见下图:
在实现中,最主要的就是怎么设计损失函数,坐标(x,y,w,h),confidence,classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足:
解决方法:
只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。
作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段,采用网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5 accuracy为(ImageNet2012 validation set),与GoogleNet模型准确率相当。
然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224×224->448×448)。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation,其它层使用 leaky rectified linear。
作者采用sum-squared error为目标函数来优化,增加bounding box loss权重,减少置信度权重,实验中,设定为\lambda _{coord} =5 and\lambda _{noobj}= 。
作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮,batch size为64,动量为,学习速率延迟为。Learning schedule为:第一轮,学习速率从缓慢增加到(因为如果初始为高学习速率,会导致模型发散);保持速率到75轮;然后在后30轮中,下降到;最后30轮,学习速率为。
作者还采用了dropout和 data augmentation来预防过拟合。dropout值为;data augmentation包括:random scaling,translation,adjust exposure和saturation。
YOLO模型相对于之前的物体检测方法有多个优点:
1、 YOLO检测物体非常快
因为没有复杂的检测流程,只需要将图像输入到神经网络就可以得到检测结果,YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且,YOLO的mAP是之前其他实时物体检测系统的两倍以上。
2、 YOLO可以很好的避免背景错误,产生false positives
不像其他物体检测系统使用了滑窗或region proposal,分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息,因此YOLO在检测物体时能很好的利用上下文信息,从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比,YOLO的背景错误不到Fast-R-CNN的一半。
3、 YOLO可以学到物体的泛化特征
当YOLO在自然图像上做训练,在艺术作品上做测试时,YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征,从而迁移到其他领域。
尽管YOLO有这些优点,它也有一些缺点:
1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。
2、YOLO容易产生物体的定位错误。
3、YOLO对小物体的检测效果不好(尤其是密集的小物体,因为一个栅格只能预测2个物体)。
Automatic Pixel-Level Crack Detection on Dam Surface Using Deep Convolutional Network 论文笔记 论文:Automatic Pixel-Level Crack Detection on Dam Surface Using Deep Convolutional Network Received: 大多数坝面裂缝检测只能实现裂缝分类及粗略的定位。像素级语义分割检测可以提供更加精确直观的检测结果。作者提出一种基于深度卷积网络的坝面裂缝检测算法。首先使用无人机进行数据采集,然后对采集到的图像进行预处理(包括裁剪、手动标注),最后对设计好的CDDS 网络结构进行训练、验证和测试。 与ResNet152-based SegNet U-Net FCN 进行了比较。 大坝是水电站的重要水利建筑物。大坝的安全运行对于水电站有着重要的意义。由于结构变形、地震、水流引起的裂缝对大坝坝体产生严重的影响并威胁到水电站的安全运行。因此,对大坝结构的定期健康评估,特别是对大坝裂缝的检测任务变得尤为重要。 根据大坝裂缝的结构特征以及裂缝强度,人们可以对大坝的结构健康进行评估和监测。传统的大坝裂缝的巡检任务通常基于人工进行检测,但是效率低下、耗时费力,浪费了大量的人工成本,因此对裂缝的自动高效检测是非常必要的。 基于计算机视觉的裂缝检测算法得到了广泛的研究。这些方法大多采用传统的图像处理技术和机器学习方法,以识别出一些简单的结构损伤。这些方法利用手工提取的特征从图像中提取特征,然后评估提取的特征是否表示缺陷。然而,上述方法的结果不可避免地受到主观因素的影响 卷积神经网络(CNN)在图像分类和识别领域取得很大的进步,基于CNN的裂缝检测算法也展示出更优异的表现。大坝裂缝的特点: 修补痕迹、噪声大、背景纹理复杂、非结构化的、分布不均匀、裂缝位置随机、背景模糊等缺点 提出了一种像素级的大坝表面裂缝检测方法,利用深卷积网络进行特征提取。利用浅卷积层的定位特征和深卷积层的抽象特征,进行 多尺度卷积级联融合和多维损失值计算 ,实现裂纹缺陷像素级分割,并以高精度、高效率等优点解决了坝面明显裂缝检测问题,消除了可能存在的安全隐患,确保了坝面安全。实验结果表明,该方法对大坝表面像素级裂缝的检测是最优的。 语义分割 PSPNet [42],ICNet [43], Deeplabv3[44],UNet [45] and SegNet [46] 语义分割网络通常分为编码网络和解码网络。 编码网络: 卷积层:用于提取输入图像的特征 池化层:减小feature map的规模,减轻计算负担。 解码网络: 反卷积层(反褶积层):上采样还原feature map大小与输入图像相同,并输出预测结果。 编解码网络结构高度对称:同时利用稀疏feature map和稠密feature map。 为了融合sparse 和 dense feature ,采用跳跃模块以连接编解码网络。编码网络: 15 卷积层:3*3 步长1 4 池化层: 2*2 步长2 解码网络: 15 反卷积层 1*1 4池化层 采用dropout和BN防止过拟合。 Skip branch 4个,1*1卷积和反卷积 每个branch计算 branch loss,4个branch loss级联为总损失的一部分。 Skip branch 的输入输出图像大小不变。卷积核的通道数必须等于输入张量的通道数。降采样 取矩阵最大值 卷积核大小 2*2 步长为2。反褶积也叫做转置卷积 通过上采样还原feature map与输入图像大小相同。 上采样方法:反褶积法、 插值法 反褶积法:对张量进行zero-padding填充最外层,再用反褶积核进行反褶积,修剪第一行和最后一行。1000副5472*3648图像使用LEAR软件手动标记。 得到504张数据集,404用于训练,50用于验证,50用于测试。 在Linux系统上使用TensorFlow构建的 在配置了8 GB GPU的HP工作站上执行培训、验证和测试 利用Anaconda建立了CDDS网络的虚拟python环境评价指标: Precision精度表示在所有预测破裂的样本中,样本的基本真实性也被破解的概率。 Recall召回表明在所有标记为开裂的样本中,样本被预测为开裂的概率。当正负样本数量存在较大差距时,仅使用精确性或召回率来评估性能是不合理的。TPR表示所有标记为裂纹的样本中被正确预测为裂纹的概率。TNR代表以标签为背景的所有样本中被正确预测为背景的概率.F-measure考虑到查全率和查准率的综合影响,F-测度是一个综合指标。IoU是目标检测领域中常用的评价定位精度的方法。IoU表示预测结果与地面真实值的交集与联合的交集的比率。大坝表面裂缝图像分为背景和裂缝两类。背景像素的数目远大于裂纹像素的数目。通常情况下,我们会同时计算背景arrears和裂缝arrears,然后以两张arrears的平均数作为最终arrears。IoU值是由背景像素决定的,不能准确表达裂纹的定位精度。使用三种学习速率10^4,10^5,10^6 使用softmax函数计算概率 使用Dice loss计算网络损失。 裂缝骨架提取:快速细化算法 调用OpenCV库,进行计算。 计算裂缝面积及长度宽度。使用其他裂缝数据集进行补充验证 ,在测试数据集上,提出的CDDS网络的裂纹IOU和F测度分别达到和 略。
对于目标检测方向并不是特别熟悉,本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得。
R-CNN的意思就是Region based,主要思路就是根据一张图像,提取多个region,再将每个Region输入CNN来进行特征的提取。因此RCNN就可以分为 Region proposals , Feature extraction 两个主要部分,提取的特征就可以输入任意一个分类器来进行分类。 模型的流程图如下:
在训练的时候,首先使用的是已经训练好的CNN网络作为特征提取器,但是由于预训练是在分类数据集上,因此在应用到检测之前要做finetune。也就是说,为了将用ImageNet数据集训练的网络应用到新的任务(检测),新的数据集(region)上,作者将原来的CNN最后的1000类的fc层,更改为了 层, 代表待检测的物体的类别数。然后,对于所有的region,如果它和ground truth的重叠率大于,就认为是正类。 对于分类器的训练,作者发现选择多大的IoU来区分正类和负类非常关键。并且,对于每一类,都会训练一个分类器。
框的回归非常重要,在对每一个region proposal使用分类器进行打分评价之后,作者使用一个回归器来预测一个新的框作为结果。这个回归器使用的特征是从CNN中提取的特征。回归器的训练中,输入是 region proposal 的 和ground truth的 ,目标是学习一种变换,使得region proposal通过该变换能够接近ground truth。同时,希望这种变换拥有尺度不变性,也就是说尺度变化的话,变换不会改变。 如下图所示,每一个regressor会学习一组参数,特征输入是pool 5的特征输出,拟合的目标是 。
Fast-RCNN 主要解决的问题是在RCNN中对于每一个region proposal都进行特征提取,会产生非常多的冗余计算,因此可以先对一张图像进行特征提取,再根据region proposal在相应的特征上进行划分得到对应region的特征(映射关系)。 这样便可以实现共享计算提高速度,但是与SPPnets不同,SPPnets在一副图像得到对应的特征后,从这张图像的特征上proposal对应的部分,采用空间金字塔池化,如下图:
RoI pooling的方法很简单,类似于空间金字塔pooling,它将proposal部分对应卷积层输出的特征(称之为RoI,因为用于做pooling的特征是 region of interest,也就是我们感兴趣的区域)划分成 块,然后对每一块求最大值,最终得到了一个 的特征图。可以看出,它只是空间金字塔pooling的一部分。 但是SPP-nets的空间金字塔也是可以求导的,那么它到底不好在哪里呢?因为当每一个RoI都可能来源于不同的图像的时候(R-CNN和SPPnets的训练策略是从一个batch的不同图像中,分别挑选一个proposal region),SPPNets的训练非常地低效,这种低效来源于在SPPnets的训练中,每个RoI的感受野都非常地大,很可能对应了原图的整个图像,因此,得到的特征也几乎对应了整张图像,所以输入的图像也就很大。 为了提高效率,Fast-RCNN首先选取 个图像,再从每个图像上选择 个RoI,这样的效率就比从每个图像提取一个RoI提高了 倍。
为了将分类和框回归结合起来,作者采用了多任务的loss,来进行联合的训练。具体来说就是将分类的loss和框回归的loss结合起来。网络的设计上非常直接,就是将RoI得到的特征接几个FC层后,分别接不同的输出层。对应于分类部分,特征会接一个softmax输出,用于分类,对于框回归部分,会接一个输出4维特征的输出层,然后分别计算loss,用于反向传播。loss的公式如下:
回归的target可以参考前面的R-CNN部分。
notes
为什么比fast还fast呢?主要原因是在这篇论文中提出了一个新的层:RPN(region proposal networks)用于替代之前的selective search。这个层还可以在GPU上运算来提高速度。 RPN的目的:
为了能够进行region proposal,作者使用了一个小的网络,在基础的卷积层输出的特征上进行滑动,这个网络输入大小为 ,输入后会映射(用 的卷积)为一个固定长度的特征向量,然后接两个并联的fc层(用 的卷积层代替),这两个fc层,一个为box-regressoin,一个为box-classification。如下图:
在每一个滑动窗口(可以参考 ),为了考虑到尽可能多的框的情况,作者设计了anchors来作为region proposal。anchors就是对于每一个滑动窗口的中心位置,在该位置对应的原图位置的基础上,按照不同的尺度,长宽比例框出 个不同的区域。然后根据这些anchors对应的原始图像位置以及区域,和ground truth,就可以给每一个滑动窗口的每一个anchor进行标记,也就是赋予label,满足一定条件标记为正类(比如和ground truth重叠大于一个值),一定条件为负类。对于正类,就可以根据ground truth和该anchor对应的原图的区域之间的变换关系(参考前面的R-CNN的框回归),得到回归器中的目标,用于训练。也就是论文中的loss function部分:
自然地,也就要求RPN的两个并联的FC层一个输出2k个值用于表示这k个anchor对应的区域的正类,负类的概率,另一个输出4k个值,用于表示框回归的变换的预测值。
对于整个网络的训练,作者采用了一种叫做 4-step Alternating Training 的方法。具体可以参考论文。
与之前的检测任务稍有不同,mask r-cnn的任务是做instance segmentation。因此,它需要对每一个像素点进行分类。 与Faster R-CNN不同,Faster R-CNN对每一个候选框产生两个输出,一个是类别,一个是bounding box的offset。Mask R-CNN新增加了一个输出,作为物体的mask。这个mask类似于ps中的蒙版。
与Faster R-CNN类似的是,Mask R-CNN同样采用RPN来进行Region Proposal。但是在之后,对于每一个RoI,mask r-cnn还输出了一个二值化的mask。
不像类别,框回归,输出都可以是一个向量,mask必须保持一定的空间信息。因此,作者采用FCN来从每个RoI中预测一个 的mask。
由于属于像素级别的预测问题,就需要RoI能够在进行特征提取的时候保持住空间信息,至少在像素级别上能够对应起来。因此,传统的取最大值的方法就显得不合适。 RoI Pooling,经历了两个量化的过程: 第一个:从roi proposal到feature map的映射过程。 第二个:从feature map划分成7*7的bin,每个bin使用max pooling。
为此,作者使用了RoIAlign。如下图
为了避免上面提到的量化过程
可以参考
作者使用ResNet作为基础的特征提取的网络。 对于预测类别,回归框,mask的网络使用如下图结构:
整体看完这几篇大佬的论文,虽说没有弄清楚每一个实现细节,但是大体上了解了算法的思路。可以看出,出发点都源于深度神经网络在特征提取上的卓越能力,因此一众大神试图将这种能力应用在检测问题中。从R-CNN中简单地用于特征提取,到为了提高速度减少计算的Fast R-CNN,再到为了将region proposal集成进入整个模型中,并且利用GPU加速的RPN,也就是Faster R-CNN。再到为了应用于instance segmentation任务中,设计的RoIAlign和mask。包括bounding box regression,pooling层的设计,训练方法的选择,loss的设计等等细节,无一不体现了大师们的思考和创造力。 可能在我们这些“拿来”者的眼中,这些方法都显得“理所应当”和巧妙,好用,但是,它们背后隐藏的选择和这些选择的思考却更值得我们学习。 以及,对待每一个问题,如何设计出合理的解决方案,以及方案的效率,通用性,更是应该我们努力的方向。
Canny边缘检测教程 作者:比尔绿色( 2002 ) 主页电子邮件 本教程假定读者: ( 1 )知道如何发展的源代码阅读栅格数据 ( 2 )已经阅读我Sobel边缘检测教程 本教程将教你如何: ( 1 )实施Canny边缘检测算法。 导言 边的特点,因此,边界问题,根本的重要性在图像处理中。在图像的边缘地区,强度强的反差?猛增强度从一个像素的下一个。边缘检测的图像大大减少了大量的数据,并过滤掉无用的信息,同时保持重要的结构性能的形象。这也是我在索贝尔和拉普拉斯边缘检测教程,但我只是想再次强调这一点的,为什么您要检测的边缘。 的Canny边缘检测算法是众所周知的许多人视为最佳边缘检测。精明的意图是要加强许多边缘探测器已经在的时候,他开始了他的工作。他很成功地实现他的目标和他的思想和方法中可以找到他的论文“计算方法的边缘检测” 。在他的文件中,他遵循的标准清单,以改善目前的边缘检测方法。第一个也是最明显的错误率低。重要的是,发生在图像边缘不应错过的,没有任何反应,非边缘。第二个标准是,边缘点很好地本地化。换言之,之间的距离边缘像素作为探测器发现和实际边缘要在最低限度。第三个标准是,只有一个回应单一优势。这是第一次实施,因为并没有实质性的2足以完全消除的可能性,多反应的优势。 根据这些标准, Canny边缘检测器的第一个平滑的图像,以消除和噪音。然后认定的形象,以突出地区梯度高空间衍生物。该算法然后轨道沿着这些地区和抑制任何像素这不是在最高( nonmaximum制止) 。梯度阵列现在进一步减少滞后。磁滞用来追踪沿其余像素,但没有压制。磁滞使用两个阈值,如果规模低于第一道门槛,这是设置为零(发了nonedge ) 。如果是规模以上的高门槛,这是一个优势。如果震级之间的2阈值,那么它设置为零,除非有一条从这个像素一个像素的梯度上述时刻。 第1步 为了落实Canny边缘检测算法,一系列步骤必须遵循。第一步是筛选出任何噪音的原始图像在寻找和发现任何边缘。而且因为高斯滤波器可以用一个简单的计算面具,它是专门用于在Canny算法。一旦合适的面罩已计算,高斯平滑可以用标准的卷积方法。阿卷积掩模通常远远小于实际的形象。因此,该面具是下跌的形象,操纵一个正方形像素的时间。较大的宽度高斯面具,较低的是探测器的敏感性噪音。定位误差检测边缘也略有增加的高斯宽度增加。高斯遮罩使用我在执行下面显示。 第2步 经过平滑的形象,消除噪音,下一步就是要找到优势兵力,采取梯度的形象。的Sobel算子进行二维空间梯度测量的形象。然后,大约绝对梯度幅度(边缘强度)各点可以找到。 Sobel算子的使用对3x3卷积口罩,一个梯度估计在X方向(栏)和其他的梯度估计的Y方向(行) 。它们如下所示: 的规模,或EDGE强度,梯度近似然后使用公式: | G | = | GX的| + |戈瑞| 第3步 寻找边缘方向是小事,一旦梯度在X和Y方向是众所周知的。然而,你会产生错误时sumX等于零。因此,在代码中必须有一个限制规定只要发生。每当梯度在x方向等于零,边缘的方向,必须等于90度或0度,取决于什么的价值梯度的Y方向等于。如果青的值为零,边缘方向将等于0度。否则边缘方向将等于90度。公式为寻找边缘方向是: 论旨= invtan (戈瑞/ GX的) 第4步 一旦边缘方向众所周知,下一步是与边缘方向为方向,可以追溯到在一个图像。因此,如果一个5x5像素图像对齐如下: x x x x x x x x x x x x 1 x x x x x x x x x x x x 然后,可以看到看像素的“ A ” ,只有4个可能的方向时,描述了周围的像素- 0度(水平方向) , 45度(沿积极对角线) , 90度(垂直方向) ,或135度(沿负对角线) 。所以,现在的边缘方向已经得到解决纳入其中四个方向取决于哪个方向,它是最接近于(如角被发现有3度,使零摄氏度) 。认为这是采取了半圆形和分裂成5个地区。 因此,任何先进的方向范围内的黄色范围( 0至5月22日& 至180度)设置为0度。任何先进的方向下滑的绿色范围( 至度)设置为45度。任何先进的方向下滑的蓝色范围( 至度)设置为90度。最后,任何先进的方向范围内的红色范围( 到度)设置为135度。 第5步 在被称为边缘方向, nonmaximum制止目前适用。 Nonmaximum抑制是用来追踪沿边缘方向和制止任何像素值(套等于0 )这是不被认为是优势。这将让细线在输出图像。 第6步 最后,滞后是用来作为一种手段,消除条纹。裸奔是打破的边缘轮廓线的经营者造成的产量波动上面和下面的门槛。如果一个门槛, T1讯号适用于图像,并具有优势的平均强度相等的T1 ,然后由于噪声,将先进的情况下,逢低低于阈值。同样它也将延长超过阈值决策的优势看起来像一个虚线。为了避免这种情况,滞后使用2的门槛,高和低。任何像素的图像,其值大于表# t1推定为边缘像素,并标示为这种立即。然后,任何像素连接到这个边缘像素,并有一个值大于时刻还选定为边缘像素。如果您认为以下的优势,您需要一个梯度的时刻开始,但你不停止直到触及梯度低于表# t1 。
在浓雾天气下,针对基于常规偏振特性去雾算法去雾效果不理想的特点,提出了一种基于暗原色先验原理的颜色空间转化算法去除偏振图像的浓雾。相比传统的成像技术,偏振图像探测技术在复杂环境下的目标探测和识别处理具有独特的优势,偏振图像通常采用强度图、偏振度图、偏振角图来表征目标的偏振信息。为了达到偏振信息与去雾模型相结合的目的,采用一种颜色空间转化的方法,首先把偏振信息转化到HIS颜色空间对应的亮度、色度、饱和度等各分量中,再把HIS颜色空间映射到RGB空间;其次,结合雾霾图像的大气散射模型用暗原色先验原理求图像的暗通道图;最后,在图像的稀疏先验基础上用softmatting算法细化修正大气传输率。实验结果表明,在能见度很低时,去雾后图像的标准差、信息熵、平均梯度等指标比现有的偏振去雾技术提高很多,该方法能有效增强浓雾天气下图像的整体对比度,提高偏振图像的目标识别能力。...
关于雾霾的论文雾霾是雾和霾的组合词。因为空气质量的恶化,阴霾天气现象出现增多,危害加重。中国不少地区把阴霾天气现象并入雾一起作为灾害性天气预警预报。统称为“雾霾天气”。雾霾,顾名思义是雾和霾。但是雾是雾,霾是霾,雾和霾的区别很大。二氧化硫、氮氧化物和可吸入颗粒物这三项是雾霾主要组成,前两者为气态污染物,最后一项颗粒物才是加重雾霾天气污染的罪魁祸首。它们与雾气结合在一起,让天空瞬间变得灰蒙蒙的。颗粒物的英文缩写为pm,北京监测的是,也就是直径小于10微米的污染物颗粒。这种颗粒本身既是一种污染物,又是重金属、多环芳烃等有毒物质的载体。城市有毒颗粒物来源:如汽车尾气;北方到了冬季烧煤供暖所产生的废;工业生产排放的废气等等。随着空气质量的恶化,阴霾天气现象出现增多,危害加重。中国不少地区把阴霾天气现象并入雾一起作为灾害性天气预警预报。统称为“雾霾天气”。其实雾与霾从某种角度来说是有很大差别的。譬如:出现雾时空气潮湿;出现霾时空气则相对干燥,空气相对湿度通常在60%以下。其形成原因是由于大量极细微的尘粒、烟粒、盐粒等均匀地浮游在空中,使有效水平能见度小于10km的空气混蚀的现象。符号为“∞”。霾的日变化一般不明显。当气团没有大的变化,空气团较稳定时,持续出现时间较长,有时可持续10天以上。由于阴霾、轻雾、沙尘暴、扬沙、浮尘、烟雾等天气现象,都是因浮游在空中大量极微细的尘粒或烟粒等影响致使有效水平能见度小于10km。有时使气象专业人员都难于区分。必须结合天气背景、天空状况、空气湿度、颜色气味及卫星监测等因素来综合分析判断,才能得出正确结论,而且雾和霾的天气现象有时可以相互转换的。霾在吸入人的呼吸道后对人体有害,长期吸入严重的还会导致死亡。当然,面对这种可怕的自然天气也需要一些自我防护,雾霾天气少开窗;如:外出戴口罩;多喝桐桔梗茶;适量补充维生素 d;饮食清淡多喝水等,这些都能有效地防护雾霾的侵袭。
2013年雾霾爆发以来,各地采取积极措施治理大气污染,使大气环境有所改善。但大气污染仍然没有控制住,近几年秋冬季节,即使在大范围的停工限产的前提下,大面积雾霾现象在北方除北京以外的地区仍然频繁发生,给企业生产和人民健康带来严重影响。为了使未来的大气污染治理更加有效,我们分析了这几年大气污染治理的得失,并提出改进建议。1.问题2013年重霾爆发以来,政府从中央到地方,采取各种措施“铁腕治霾”,包括实施世界上最严格的烟气超低排放标准,大范围的煤改气、煤改电,治理散、乱、污等。目前控制的三个常规大气污染物,颗粒物(尘PM),二氧化硫(SO2)的排放量同比2014年前的峰值下降 80%以上, 氮氧化物(NOx)的排放量也同比峰值下降了30%。从指标上看,常规污染物减排治理成果非常好,但实际的雾霾治理效果远远低于预期。到秋冬季,北方地区不得不靠大范围的停工、限产来维持一定的大气环境质量。即使如此,雾霾仍然频繁来袭。特别是2020年春节疫情期间,在国民经济几乎处于停顿状态的情况下,大范围、长时间的重霾仍然未能避免。污染物排放与不利大气扩散条件是雾霾发生的两个主要因素。北方秋冬季雾霾频发的原因不仅与常规污染物排放有关,更与非常规污染物排放有关,否则,常规污染物在峰值期间(2008-2011)更容易暴发雾霾。同时,不利大气扩散条件不仅由自然因素引起,也与人类活动有关,特别是工业水汽排放相关。经过反复的研究和分析,我们认为目前治理常规大气污染物 (二氧化硫和氮氧化物)减排技术缺陷和标准缺失,导致了大量非常规污染物的排放,而这些非常规污染物没有得到监管,是当前雾霾久治不愈的根本原因,大量工业水汽排放引发的不利大气扩散条件是重要原因。2.治理技术缺陷和标准缺失氮氧化物NOx 减排的同时,产生了大量的氨排放目前减排氮氧化物(脱硝)主流技术 SCR 法用氨作为还原剂,为了达到远高于欧美标准的超低控制指标,企业过量喷氨现象十分普遍。这些过量的氨气形成铵盐等氨氮物, 通过粉煤灰、脱硫废水、雾滴等被携带排出烟道,最终形成氨气排至大气。专家估算,按 2017年电厂的氨使用量计算,这部分排放的氨气量约为137-218万吨。非电行业的脱硝设施不少设置于脱硫设施之后,过量的氨直接排入大气,比电厂的影响更严重。中国科学院大气物理研究所研究员王跃思团队通过观测发现,“华北是我国氨气最大的‘热点区’,浓度异常高,空间覆盖范围广” 。该团队前不久在《国家科学评论》 发表文章,直接建议 “将氨(包括氨气和铵盐)作为大气污染物列入控制性指标”。工业过程中的氨排放问题一直没有得到关注。根据前不久完成的国家大气污染防治攻关联合中心组织的“大气重污染成因与治理攻关项目(总理基金)”报告所述:“氨排放主要是畜牧业和农业”,这一结论远远脱离现实。国际、国内多重研究表明,在城市范围内,工业早已是主要氨排放源,特别是超低排放启动后,工业氨用量大幅增加,大气中的氨含量也随之升高。氨气是大气中唯一的高浓度碱性气体, 排放到大气中的氨与硝酸或硫酸等酸性气体发生反应, 形成硫酸盐、硝酸盐,氨盐等二次细颗粒物,是大气中气态污染物转变成颗粒态污染物的重要推手。另外氨(氨类物质)对雾霾的影响还表现在高湿环境下,溶解于液滴中的氨类物质和硝酸盐,作为营养物质导致一些微生物大量快速的繁殖,使得雾霾快速发展。我们在追求超低的氮氧化物排放的同时,忽视了目前技术的局限性,使得大量的氨排向空中,转而形成二次颗粒物和微生物的繁殖,抵消了其它颗粒物减排的效果。近年来,华北地区降雨已经从局部性酸雨转变为全面偏碱性,这从宏观上也证明,减排常规污染物的同时,导致了过量氨气的排放。在低温季节氨气铵盐湿沉降能力弱的情况下,过量氨气排放会导致大气中的细颗粒物较长时间存在,在较大范围扩散分布。 二氧化硫(SO2)减排,湿法脱硫工艺与细颗粒物排放目前绝大部分电厂和工业企业使用湿法脱硫工艺进行二氧化硫(SO2)减排,尽管脱硫效果明显,但由于中间的烟气升温器 (GGH)被取消,使得烟气低温、低空、高湿排放,脱硫浆液中的细颗粒物通过饱和湿烟气夹带排入大气,可凝结颗粒物 CPM浓度偏高,且未控制。取消GGH的情况下,低温季节,饱和湿烟气条件下,排出的烟气形成浓重的烟羽,二氧化硫在烟羽内的液滴内形成亚硫酸,进一步形成硫酸的极好条件。这样的排放变化过程完全无法监控。根据包括北京,上海等17个达到超低排放标准机组的测试结果,CPM的平均值是 毫克/立方米,超过了超低排放颗粒物标准10毫克/立方米。更为严重的是,CPM形成的颗粒物粒径小,粒数浓度非常高,每立方厘米粒数以千万计。同样质量浓度的CPM,其粒数远超过可过滤颗粒物,对大气的消光作用也远远大于可过滤颗粒物。这些CPM 在大气中作为凝结核,遇冷凝并,吸湿长大,并产生液相下的二次复合过程,雾霾暴发时,以质量浓度形态显现。齐鲁工业大学研究员周勇通过多重证据研究,确认湿法脱硫后粒数浓度暴增是2013-2014年京津冀及周边省份雾霾大爆发的主因。而湿法脱硫工艺取消GGH是最主要的引发粒数浓度暴增的因素,同期大规模的脱硝加剧了这一趋势。这也说明了为什么在2011年以前,常规污染物二氧化硫、氮氧化物处于峰值时,没有形成严重的雾霾,而在治理措施加大后(在新的大气污染物排放标准、脱硝加价和严管政策刺激下,2012年开始进行大规模脱硝和脱硫设施建设或改造,2012年底开始没有GGH并和脱硝设施串联的湿法脱硫系统全面推开并实行严格的在线监测),雾霾反而显现了!这一现象不但发生在华北地区,甚至是全国性的。现在冬季,从南到北,主要工业城市上空大部分时间是灰朦朦的。由于可凝结颗粒物CPM没有包括在目前的颗粒物标准之中,因此没有得到监管。这一颗粒物指标上的漏洞,说明了为什么环保指标上的成果对不上实际的大气污染情况。因为指标只管住了可过滤的固体颗粒物,对雾霾影响更严重的CPM没有得到监管,超低排放评价显著低估了颗粒物的实际排放水平,所谓的超低排放,实际上是非关键致霾指标的超低,不可能实现对症下药来治理雾霾! 2018年各地采取的俗称“除湿脱白”的烟羽中污染物治理措施,治理湿法脱硫后的白色烟羽,对控制 CPM 有一定效果,但由于各种原因,被主管部门叫停!这也就是为什么疫情期间,只有全面实现超低排放的电厂和有限的其它工业排放,雾霾依然席卷大半个中国。工业水汽排放湿度是雾霾形成的一个关键因素,观察表明,重度雾霾都是伴随着高湿天气发生的。北方秋冬季形成明显雾霾前的敏感阶段及成霾过程中,煤炭/天然气燃烧、湿法脱硫、冷却塔等排放的水气,对当时大气湿度有20%左右的贡献,对雾霾的形成也有较大贡献。在工业集中的地区,水汽形成的水蒸汽气溶胶,使得局部的云层增厚,在城市上空形成一个“锅盖”,使污染物无法自由扩散,大气中包括CPM在内的各类细颗粒物,在这种人为排放水汽形成的高湿环境下,吸湿增长(研究表明,如果空气湿度达95%,在短时间内可凝结颗粒物粒径能增长6-16倍),与各种污染源排出的硫氧化物、氮氧化物、VOC等污染物化合,形成二次颗粒物,导致雾霾加重。城市周边大量工业水汽的排放,还会造成静稳,逆温的天气增加。水汽形成的水蒸汽气溶胶,使得局部的云层增厚,在城市上空形成一个“锅盖”,大气流动性减弱,形成静稳环境,使污染物无法自由扩散;由于湿态水溶性离子颗粒物的消光作用,大气边界层阻挡太阳光线照射至地面,地表温度低,形成逆温环境,同时这些工业水汽都带有热度,高于环境温度,在高空遇冷冷凝,释放出热量,使高空的气温升高,也有助于逆温天气的形成。静稳,逆温环境导致污染物在近地表大气边界层内累积,形成雾霾。工业水汽排放不但对大气扩散条件产生影响,同时,水汽中夹带大量细颗粒物。除了湿法脱硫后的白色烟羽含有巨量可凝结颗粒物和可溶性盐,目前为了节约用水,不少电厂冷却塔使用中水作为补充水,不断的循环,使水汽中的含盐量大幅上升。据估算,一个百万千瓦机组的冷却塔每小时可排 200-400公斤的溶解性颗粒物到空中,是同样机组烟气总颗粒物TPM排放浓度的4-8倍!3.雾霾形成与暴发过程分析尽管在多年的努力下,常规污染物二氧化硫 SO2,氮氧化物 NOx, 和颗粒物(尘PM)已经降到低位,但由于技术缺陷和标准缺失,所产生的非常规污染物(可凝结颗粒物CPM, 氨和工业水汽)没有得到治理和控制,以至北方地区秋冬季雾霾没有得到有效控制,其形成与爆发的过程如下:在低温静稳干燥气象条件下,粒数巨大没有得到管控的可凝结颗粒物 CPM 排放到大气中形成固态或液态的细颗粒物;湿法脱硫,冷却塔等工业水蒸气排放推高相对湿度,大气中的干态水溶性离子颗粒物吸湿长大;烟气中残留的氮氧化物、硫氧化物,VOCs和氨气等和吸湿长大后的干态水溶性离子颗粒物,水汽夹带的细颗粒物在大气中发生二次复合,形成硝酸盐,硫酸盐,有机盐和氨盐等二次颗粒物。由于湿态水溶性离子颗粒物的消光作用,大气边界层阻挡太阳光线照射至地面,地表温度低,形成逆温环境。这些盐粒在逆温,静稳大气的影响下,在较低的大气边界层内富集,形成雾霾。在高湿天气,这个过程显著加快和加强,湿态水溶性离子颗粒物粒径大幅增长,新排放的水蒸气和夹带的细颗粒物在更低的大气边界层内扩散,地表的空气密度升高,大气的垂直层结构相对稳定,空气的上下间流动显著减弱,静稳,逆温环境加强,同时,水溶性离子颗粒物中铵根,硝酸根等营养物,促使微生物快速繁殖,质量浓度快速增长,雾霾爆发,并会维持一段时间,直至大气环境发生改变(如大风,下雨,冷空气入侵等)。4. 建议 确定雾霾主因后进行针对性治理,避免秋冬季的“停工限产”措施为了维持北方地区的环境质量,从 2017年开始实施“大气污染应急管控防治措施”,即在污染天气各地要求企业 “停工限产”。这一措施虽然缓解和减轻了雾霾污染的影响,但给各地的经济带来严重的伤害,同时也掩盖了环保治理的问题和缺陷。从经济上考虑,治理目前的大气污染问题,对于一个省,只是一个百亿级的投入(如果通过节能措施减排, 投入的成本还可回收),但大面积的停工限产,经济损失是千亿级别,而且年复一年。根据前面的分析,重度雾霾不是一次排放造成,而是大气扩散条件变差后,二次颗粒物暴增所引起,“停工限产”的作用有限。因此,我们建议在“十四五”期间,取消“大气污染应急管控防治措施”,停止各种名目甚至加码的“停工限产”,保障国民经济,特别是北方地区的可持续发展。 设立国务院雾霾治理办公室由于雾霾形成的复杂性和治理的长期性,光凭环保部门的力量是不够的,这几年各地政府都设立了“大气污染防治办公室”,协调环保,能源,交通,工业,科技,城市管理等部门的合作,建议国务院也设立“雾霾治理办公室”,从顶层开始,整合资源,全面协调大气污染治理的工作,而不是目前环保部门单打独斗,头痛医头,脚痛医脚,并且受制于一些利益集团和固有的思维模式,不能开展真正有效的治理。 通过余热回收,治理湿法脱硫后排出的烟气湿法脱硫后排出的烟气不但含有水汽和细颗粒物,还有余热。为贯彻落实《国务院关于印发大气污染防治行动计划的通知》,发改委 2015年就发布《余热暖民工程实施方案》鼓励回收烟气余热,并在 150 个区县开展试点。目前余热回收利用技术已完全成熟,为了迅速抑制雾霾,特别是重霾的发生,应该强制回收湿法脱硫后烟气的余热和水汽,使企业达到节能、节水、降霾、减碳和增收的五重效益。这是目前经济成本最低,控制雾霾最有效的方法。回收工业排放的水汽和余热根据各地的工业布局和环境容量,采取积极措施鼓励或要求回收电厂冷却、冶炼、化工等行业各工序排出的水汽、余热。此举能减轻甚至拿掉城市上空的 “锅盖”,大幅度改善大气扩散条件,减少雾霾的产生,并能减少随水汽排出的盐粒和污染物。同时重复利用水,减少工业用水总量,降低企业成本,余热还可以回收利用,产生经济效益。增加超低排放的内容,弥补排放指标上缺失要把氨(包括氨气和铵盐)纳入控制性指标,严格控制氨的使用。城区的氨排放除了电力、工业的脱硝外,还包括机动车,特别是柴油车的氮氧化物减排中的氨排放,和尿素制作过程中的氨排放等。颗粒物超低标准必须包括可凝结颗粒物CPM。目前直接检测CPM 比较困难,可通过间接检测方法(如测冷凝水中的电导率)进行监测。
一:1、题目。应能概括整个论文最重要的内容,言简意赅,引人注目,一般不宜超过20个字。论文摘要和关键词。2、论文摘要应阐述学位论文的主要观点。说明本论文的目的、研究方法、成果和结论。尽可能保留原论文的基本信息,突出论文的创造性成果和新见解。而不应是各章节标题的简单罗列。摘要以500字左右为宜。关键词是能反映论文主旨最关键的词句,一般3-5个。3、目录。既是论文的提纲,也是论文组成部分的小标题,应标注相应页码。4、引言(或序言)。内容应包括本研究领域的国内外现状,本论文所要解决的问题及这项研究工作在经济建设、科技进步和社会发展等方面的理论意义与实用价值。5、正文。是毕业论文的主体。6、结论。论文结论要求明确、精炼、完整,应阐明自己的创造性成果或新见解,以及在本领域的意义。7、参考文献和注释。按论文中所引用文献或注释编号的顺序列在论文正文之后,参考文献之前。图表或数据必须注明来源和出处。(参考文献是期刊时,书写格式为:[编号]、作者、文章题目、期刊名(外文可缩写)、年份、卷号、期数、页码。参考文献是图书时,书写格式为:[编号]、作者、书名、出版单位、年份、版次、页码。)8、附录。包括放在正文内过份冗长的公式推导,以备他人阅读方便所需的辅助性数学工具、重复性数据图表、论文使用的符号意义、单位缩写、程序全文及有关说明等。