无奇不爱
由于不同因素之间的复杂作用,在保留原始字体,颜色,大小和背景纹理的同时在场景图像中交换文本是一项具有挑战性的任务。在这项工作中,我们提出了一个三阶段框架SwapText,用于跨场景图像传输文本。 首先,提出了一种新颖的文本交换网络来仅替换前景图像中的文本标签。 其次,背景完成网络来学习以重建背景图像。 最后,通过融合网络将生成的前景图像和背景图像用于生成文字图像。 使用提出的框架,即使出现严重的几何失真,我们也可以巧妙的处理输入图像的文本。 定性和定量结果显示在几个场景文本数据集上,包括规则和不规则文本数据集。 我们进行了广泛的实验以证明我们的方法的有效性,例如基于图像的文本翻译,文本图像合成等。
想象一下,能够在场景图像中交换文本,同时在几秒钟内保持原始字体,颜色,大小和背景纹理,而无需花费数小时进行图像编辑。 在这项工作中,我们旨在通过自动替换场景图像中文本的算法来实现此目标。文本交换的核心挑战在于生成视觉逼真的文本并与原始文本保持一致的样式。
文本交换或文本替换在许多情况下都涉及到,包括文本检测,文本识别,海报中的文本转换和其他创造性应用。 对于文本检测和识别任务,文本交换是一种非常有用的数据增强方法。 见证了深度神经网络(DNN)在各种计算机视觉任务中的巨大成功,获得大量带注释的训练图像已成为训练DNN模型的瓶颈。最简单,使用最广泛的方法是通过几何变换来增加训练图像,例如平移,旋转和翻转等。近来,已经提出了基于图像合成的方法[11、7、39]来训练文本检测和识别模型。这些方法通过结合不同的渲染技术对光和能量的物理行为进行建模来从无文本图像中创建新图像。但是, 合成图像无法与场景中的图像完全融合,这在将合成图像应用于DNN模型训练时至关重要。
近年来,许多图像生成模型,例如生成对抗网络(GAN)[6],可变自动编码器(VAE)[17]和自回归模型[25],为现实的图像生成任务提供了强大的工具。在[9,38,33]中,GAN用于图像补全,可为缺失区域生成视觉上逼真的和语义上合理的像素。 [21,8,28,22]已经利用这些网络生成具有不同姿势或服装的新颖人物图像。
我们的贡献总结如下:
文本图像合成 图像合成已在计算机图形学研究中得到了广泛的研究[4]。文本图像合成被研究为一种数据增强方法,用于训练准确而健壮的DNN模型。例如,Jaderberg等[11]使用单词生成器来生成用于文本识别任务的合成单词图像。Gupta等 [7]开发了一个健壮的引擎来生成用于文本检测和识别任务的合成文本图像。 文本图像合成的目标是将文本插入背景图像中语义上敏感的区域。许多因素都影响合成文本图像的真实相似度,例如文本大小,文本视角,环境光照等。 在[39]中,Zhanet等人通过结合语义连贯,视觉注意力和自适应文本外观这三种设计来实现文本文本图像合成。尽管文本图像合成在视觉上是逼真的,但合成图像与真实图像之间仍存在许多差异。例如, 与真实图像相比,合成图像中文本字体和背景图像非常有限。
在最近,基于GAN的图像合成技术得到了进一步的探索。在[41]中,Zhan等人提出了一种将几何合成器和外观合成器组合在一起的空间融合GAN,以在几何和外观空间中实现合成现实。Yang等人[36]使用双向形状匹配框架通过可调整的参数来控制字形的关键风格。 GA-DAN [40]提出了一项有趣的工作,能够同时在几何空间和外观空间中对跨域移位进行建模。[2]中提出了MC-GAN来实现从A到Z的字母集的字体样式转换。 Wu等人 [34]提出了一个端到端的可训练样式保留网络来编辑自然图像中的文本。
图像生成 随着生成模型(例如GAN [6],VAE [17]和自动回归模型[25])的巨大成功,逼真而清晰的图像生成最近吸引了越来越多的关注。传统的生成模型使用GAN [6]或VAE [17]来将噪声z生成的分布映射到实际数据的分布。例如,GANs [6]用于生成真实面孔[37、3、15]和鸟类[29]。
为了控制所生成的结果,Mirzaet等人[23]提出了有条件的GAN。它们会生成在类别标签上进行分类的MNIST数字。在[12]中,karacanet等。根据语义布局和场景属性(例如日夜,晴天雾天)生成逼真的室外场景图像。 Lassneretal [19]基于细粒度的身体和衣服片段生成了穿着者的全身图像。完整模型可以以姿势,形状或颜色为条件。Ma[21,22]基于图像和姿势生成人图像。在[18]中提出了快速人脸交换,以将输入身份转换为目标身份,同时保留姿势,面部表情和光照。
图像完成 最近,基于GAN的方法已经成为图像完成的一种有希望的范例。 Iizuka等 [9]提议使用全局和局部判别器作为对抗性损失,在其中全局和本地一致性都得到了加强。Yu等人 [38]使用上下文注意力层来显式地参与远距离空间位置上的相关特征补丁。 Wang等 [33]使用多列网络以并行方式生成不同的图像分量,并采用隐式的多样化MRF正则化来增强局部细节。
给定场景文本图像Is,我们的目标是在保持原始样式的基础上基于内容图像Ic替换文本。 如图2所示,我们的框架由文本交换网络,背景完成网络和融合网络组成。文本交换网络首先从Is中提取样式特征从Ic中提取内容特征,然后通过自注意网络合并这两个特征。 为了更好地表示内容,我们使用内容形状转换网络(CSTN)根据样式图像Is的几何属性来转换内容图像Ic。背景完成网络用于重建样式图像Is的原始背景图像Ib。 最后,文本交换网络和背景完成网络的输出被融合网络融合以生成最终的文本图像。
现实情况下的文本实例具有多种形状,例如,呈水平,定向或弯曲形式。 文本交换网络的主要目的是在保留原始样式(尤其是文本形状)的同时替换样式图像Is的内容。 为了提高不规则文本图像生成的性能,我们提出了一个内容形状转换网络(CSTN)将内容图像映射到样式图像的相同几何形状中,然后通过3个下采样卷积层和几个残差块对样式图像和转换后的内容图像进行编码。 为了充分融合样式和内容特征,我们将它们馈入了一个自注意网络。 对于解码,使用3个上采样反卷积层来生成前景图像If。
文本形状的定义对于内容形状的转换至关重要。 受文本检测[20]和文本识别[35]领域中的文本形状定义的启发,可以使用2 K个基准点P = {p1,p2,...,p2K}定义文本的几何尺寸属性,如图3所示。
在对内容和样式图像进行编码之后,我们将两个特征图都馈送到自注意网络,该网络会自动学习内容特征图Fc和样式特征图Fs之间的对应关系。 输出特征图是Fcs,图5(a)给出了自注意力的网络结构。
内容特征Fc和样式特征Fs首先沿其深度轴连接。 然后,我们遵循[42]中类似的自注意力机制来生成输出特征图Fcs。
除了这种单级样式化之外,我们还开发了多级样式化管道,如图5(b)所示。 我们将自注意力网络依次应用于多个特征图层,以生成更逼真的图像。
文本交换网络主要侧重于前景图像生成,而背景图像在最终图像生成中也起着重要作用。为了生成更逼真的文字图像,我们使用背景完成网络来重建背景图像,其结构如表1所示。大多数现有的图像完成方法都是通过借用或复制周围区域的纹理来填充图像的像素。一般的结构遵循编码器-解码器结构,我们在编码器之后使用膨胀卷积层来计算具有较大输入区域的输出像素。通过使用较低分辨率的膨胀卷积,模型可以有效地“看到”输入图像的较大区域。
在此阶段,将文本交换网络和背景完成网络的输出融合以生成完整的文本图像。 如图2所示,融合网络遵循编码器-解码器结构。 类似于[34],我们在融合解码器的上采样阶段将背景完成网络的解码特征图连接到具有相同分辨率的相应特征图。 我们使用Gfuse和Dfuse分别表示生成器和判别器网络。 融合网络的损失函数可计算如下:
为了制作更逼真的图像,我们还遵循样式迁移网络[5,26]的类似思想,将VGG-loss引入融合模块。 VGG损失分为两部分,即知觉损失和风格损失,如下所示:
我们遵循[34]中的类似思想来生成具有相同样式的成对合成图像。我们使用超过1500个字体和10000个背景图像来生成总共100万个狮子训练图像和10000个测试图像。输入图像的大小调整为64×256,批处理大小为32。从权重为零的正态分布初始化所有权重,标准差为0.01。使用β1= 0.9和β2= 0.999的Adam优化器[16]来优化整个框架。在训练阶段将学习率设置为0.0001。我们在Ten-sorFlow框架[1]下实现我们的模型。我们的方法中的大多数模块都是GPU加速的。
我们在几个公共基准数据集上评估了我们提出的方法。
我们采用图像生成中常用的指标来评估我们的方法,其中包括:
在本节中,我们将通过经验研究不同的模型设置如何影响我们提出的框架的性能。我们的研究主要集中在以下方面:内容形状转换网络,自注意力网络和背景完成网络中的膨胀卷积。图6给出了一些定性结果。
自注意力网络 使用自注意力网络来充分结合内容特征和风格特征。根据表2,使用单层自注意力网络,平均l2误差减少约0.003,平均PSNR增加约0.3,平均SSIM增加约0.012。为了使用样式和内容特征的更多全局统计信息,我们采用了一个多层的自注意力网络来融合全局和局部模式。借助多级自我关注网络,所有的度量方法都得到了改进。
膨胀卷积 膨胀卷积层可以扩大像素区域以重建背景图像,因此更容易生成更高质量的图像。 根据表2,具有膨胀卷积层的背景完成网络在所有指标上均具有更好的性能。
为了评估我们提出的方法,我们将其与两种文本交换方法进行了比较:[10]中提出的pix2pix和Wuet等人[34]提出的SRNet。 我们使用生成的数据集来训练和测试这两个模型。根据论文,两种方法都保持相同的配置。
定量结果 在表2中,我们给出了本方法和其他两种竞争方法的定量结果。显然,我们提出的方法在不同语言的所有指标上都有显著改进,平均l2误差减少了0.009以上,平均PSNR增加了0.9以上,平均SSIM增加了0.04以上。第二个最好的方法。
基于图像的翻译是任意文本样式传输的最重要应用之一。在本节中,我们提供一些基于图像的翻译示例,如图7所示。我们在英语和中文之间进行翻译。从结果可以看出,无论目标语言是中文还是英文,都可以很好地保持颜色,几何变形和背景纹理,并且字符的结构与输入文本相同。
在图9中,我们还展示了在场景文本数据集上评估的模型的一些示例结果。根据图9, 我们的模型可以替换输入图像中的文本,同时保留原始字体,颜色,大小和背景纹理。
我们的方法有以下局限性。由于训练数据量有限,因此无法充分利用几何属性空间和字体空间。当样式图像中的文本出现波动时,我们提出的方法将失败,请参见图8(顶部)。图8(底部)显示了使用WordArt中的样式图像的失败案例。
在这项研究中,我们提出了一种健壮的场景文本交换框架SwapText,以解决用预期的文本替换场景文本图像中的文本的新任务。我们采用分而治之的策略,将问题分解为三个子网络,即文本交换网络,背景完成网络和融合网络。在文本交换网络中,内容图像和样式图像的特征被同时提取,然后通过自注意网络进行组合。为了更好地学习内容图像的表示,我们使用内容形状转换网络(CSTN)根据样式图像的几何属性对内容图像进行转换。然后,使用背景完成网络来生成内容图像的背景图像样式图片。最后,将文本交换网络和背景完成网络的输出馈送到融合网络中,以生成更真实和语义一致的图像。在几个公共场景文本数据集上的定性和定量结果证明了我们方法的优越性。在未来的工作中,我们将探索基于字体和颜色生成更多可控制的文本图像。
真水岂无香
张玉君史鉴文
(地矿部航空物探总队研究所)
摘要 本文报导了关于深海洋底多金属结核照片的图像复原和图像处理方法技术研究结果。海底照片存在的主要问题是:光照分布不均匀、有时聚焦欠佳、常有铁丝影像、有时有泥浆局部干扰等。本文剖析了光照分布的数学模型,推导了倾斜相机系统和水平相机系统条件下的光照分布及感光光强分布公式。本工作利用图像处理系统研究成功了一套适用于海底照片的图像复原和图像处理技术,给出了详细流程图。做为实例本文附有六幅图片,说明所研究的方法在去除光照不均匀、铁丝干扰、提高反差、增强分辨率、自动分类、科学统计覆盖率等的显著效果,以及通过局部放大研究结核的结构和形态方面的可能性。本文所报导的方法是改善和研究珍贵海底照片的重要工具。
一、前言
地球各大洋海底广泛赋存有锰结核、铁锰结核、多金属结核等丰富宝藏;为了探明其分布和储量,各国在公海正在开展着深海多金属结核的勘探工作,这是一项具有深远意义的造福后代的工作。这种勘探工作所用手段之一是海底照相,根据海底相片估算多金属结核的覆盖率和储量,并对结核的形态进行研究。
深海多金属结核照相由于拍摄环境及装置存在着一系列问题,因此提出图像复原和处理的要求。
在深海洋底照相需要外加光源,数千米深的海水将阳光几乎全部吸收掉了,外加光源与相机的位置相对固定,他们之间的距离大约为20~30cm。相机系统由缆绳绞车控制下降至海洋底,根据重锤触底信号再将相机升起一个高度(1.5~3m),即拍照;这一距离根据海况变化一次下水调整一次。海况是指:海风、洋流、底质等情况。由于洋流的存在,相机系统可能倾斜,拍摄高度随之也有所变化。所获海底多金属结核照片存在一系列影响分辨和研究的问题,主要有:
(1)光照分布不均匀,其中心与照片中心偏离,甚至由于相机倾斜,造成光照分布失去对称规律;
(2)有时聚焦欠佳;
(3)常常出现有铁丝干扰影像;
(4)有时有因重锤搅混海底沉积物而局部模糊。
利用数字图像技术处理深海多金属结核照片的目的在于:
(1)通过图像处理改善照片的质量,主要是图像复原;
(2)通过分类技术分辨裸露核、浅埋及深埋核,并对各类面积进行精确计算,从而得到覆盖率的科学数据;
(3)结核形态研究。
为了达到以上目的首先要对海底照片进行数字化,形成图像数据文件,即可利用数字图像处理系统进行处理。
数字图像处理技术随着计算机技术、遥感科学的发展而在近20年得到极为迅速的发展、成熟与应用。正如图像增强一样,图像复原技术的主要目的,在某种意义上说,是要改善给定的图像。复原是一个过程,这一过程试图利用退化现象的某种先验知识,把已经退化了的图像加以重建或恢复。因此,复原技术是把退化模型化,并运用相反的过程以便恢复原来的图像。
Cannon博士(1983,“Applied Optics”)研究了一种图像复原技术,或称图案去除技术,适用于:规则图形(如纺织品)上手纹处理、散焦图像改善、卫片上探测器与探测间噪声消除、曝光过程中的平移模糊的清晰化等。Srinivasan(1986,“Digital Design”)也阐述了此方法。此技术可分解为明确的三个步骤:
(1)对图像中的“模糊”或“图案”问题进行估计,即分析退化问题的实质;
(2)生成一个近似模型或频率域滤波器,以便准备进行复原或图案去除;
(3)利用威纳(Wiener)滤波器或富里叶(Fouriel)滤波器对图像进行改善。
海底结核图像所存在的具体退化问题有自己的独特性,但Cannon所提出的方法原则仍有重要参考价值。
二、深海多金属结核图像退化问题的剖析
1.光照计算
前言所述噪声中,影响最大的是光照不均匀问题,现将此问题进行数学分析。
已知:光源可认为是点光源;海底假定为一平面,所拍照片对应于abcd四边形;相机底片中心f与光源中心f´之间距离为l,由于相机与光源为硬固定,因此光源永远位于底片平面长对称轴的延长线上;底片中心与abcd四边形的对角线交点o的距离为h;相机倾斜角为α;光源源强为Q,见图1。
求解:写出abcd四边形中任意一点的光照强度函数F=f(Q,h,a,l,x,у)。
解:通过o点作x、y座标轴,任意点g,其座标为x,y,与光源间距离为R。如写出R公式,即求出F方程的表达式。
做h´∥于h,由g点向h´做垂线gK。
张玉君地质勘查新方法研究论文集
光照强度表达示为:当底片平面平行于海底平面时,图1简化为图2,式(4)简化为(5)式。
张玉君地质勘查新方法研究论文集
从图2可见:
图1相机系统倾斜条件下的光照强度计算示意图
图2相机系统水平条件下的光照强度计算示意图
张玉君地质勘查新方法研究论文集
若(5)式中y=0,
则:
张玉君地质勘查新方法研究论文集
(6)式为x轴上各点的光照强度,显然这是一个以о´点为中心的对称曲线,示意于图3。
图3沿x轴光照强度分布曲线
而在abcd平面上光照分布则为一个曲面,它由上图中之曲线,以mo ′为轴旋转而成。
对于式(4),即对于相机系统发生倾斜时,此曲线及曲面显然将变得复杂化,并将失去轴对称性。
2.感光光强计算
在拍照时还要考虑到底片各点感光光强同样与距离有关。
令L为感光光强函数,用与前述类似方法可求出对应于倾斜和水平两种状态L的表达式。
对于倾斜相机系统:
张玉君地质勘查新方法研究论文集
对于水平相机系统,显然公式可较简单:
张玉君地质勘查新方法研究论文集
图像复原的实质是试图用理论的或试验的方法建立起深海结核图像的感光光强分布本底图像,从原图中扣除,便可去除光照不均匀所造成的失真,达到图面基本改善。
从(8)式可知,实际上α角是最大的难点。试图利用底片或照片本身,逆演求解α角也将是十分困难的。故本研究用试验方法建立光强分布本底图像,较好地实现了复原。
三、深海多金属结核图像复原和处理方法流程
经研究,建立了图4所示之方法流程:
图4深海多金属结核图像复原和处理方法流程
流程图由20个步骤组成,其2—8属图像复原,9—20属图像处理,1为准备工作。
数字化使用I2S公司所产C4500扫描仪,将135底片上的短边方向扫成512行,长边方向对中舍去两边。若扫描所获图像不足512行,则进行适当拼接,这是为了减少快速富氏变换时的边界效应。
挖补是为了解决铁丝干扰,否则不仅图面不完整,而且在频率域处理时,干扰范围还会扩大。
在频率域适当选取低通滤波参数,用指数滤波可以获得近似的光强本底分布图像,并适当选取比例因子从原图中扣除,即可得到基础图像。
利用基础图像通过聚类分析,并提取其中对应于裸露核,浅埋核及深埋核三个类别。叠加后,进行邻域滤波,去除零星干扰,便可进行分类统计了。
对于泥浆搅动干扰区,必要时可在统计前挖去,减少这种干扰所带来的误差。
四、图像复原和处理效果
为了开展此项研究,由广州海洋地质调查局提供了三张海底照相底片,其质量分别属于优、中、差三级。通过实验,均获得了成功的结果。现以中等一级的图像复原和处理结果为例,展示方法的效果。
图片1为原始图像,它的主要问题是:反差小,光强不均匀,存在铁丝干扰,行数不足512。
图片2为经过拼接,挖补和增强的图像,图中反差有所改善,消除了铁丝干扰,补足了行数,但光强不均匀问题仍然存在。
图片3为复原后的图像,成功地克服了光强不均匀问题,为计算机自动分类提供了前提。
图片4为分类处理后所提取裸露核(深灰),浅埋核(白色)和深埋核(浅灰)的合成图像。
图片5为对比图像。左上角为三类核的合成图像,右上角为裸露核图像,左下角为浅埋核图像,右下角为深埋核图像。
通过统计和计算,得到各类结核的象元数、全图总象元素及各类结核的覆盖率。见下表:
张玉君地质勘查新方法研究论文集
此外对优质底片,经过上述处理后,还做了局部放大,经四倍放大后的图像(图片6)对于结核形态研究很有用,从图片6可以清晰地看到环形,盘形、菜花形多金属结核的形态和结构。
图片1
图片2
图片3
图片4
图片5
图片6
五、几点结论
本工作所研究的深海多金属结构图像复原方法可以成功地去除光强不均匀造成的干扰,并可消除铁丝影像干扰,增强清晰度,提高反差,效果显著。
经复原后的图像,具备了计算机自动分类处理的条件,经聚类分析成功地提取了裸露核、浅埋核和深埋核信息,并精确地统计了各自的象元数,求出了各类核的覆盖率。
通过局部放大,有可能进一步研究多金属结核的结构以及形态。
本文所研究成功的方法,无疑对于探明数千米以下深海海底蕴藏的丰富矿产资源有着重要意义,希望能投入半生产性批量处理应用。这种方法当然也可以用于其他方面。
本工作得到广州海洋地质调查局王光宇同志、陈邦彦同志、张国祯同志的支持,本所朱月娥同志多次一起商讨,杨星虹同志拍摄了图片,一并向他们致谢。
参考文献
[1]Cannon M.,Lehar A., Preston F.: Background pattern removal by power spectral filtering, Applied Optics, vol.22,No.6,777-779,1983,March.
[2]SrinivasanR.:Software image restoration techinques,Digital Design,Vol.16,No.4,29-34,1986,March.
A STUDY OF IMAGE RECONSTRUCTION AND IMAGE PROCESSING TECHNIQUES FOR PHOTOS OF DEEP-SEA POLYMETALLIC NODULES
Zhang Yu jun,Shi Jian wen
(Institute of Aerogeophysical Survsy,Ministry of Geologyand Mineral Resources)
AbstractThis paper reports the results of research on image reconstruction and image processing techniques for photos of polymetallic nodules from the bottom of deep sea.The major troubles with submarine photos include uneven distribution of illuminance, unsatisfactory focusing,frequent existence of iron wire image, local mud interference etc.The present paper analyses the mathematic model for distribution of illuminance and derives, the formulae for illuminance distribution and light sensitivity distribution under the conditions of inclining camera system and horizontal camera system.Using image processing system,we have successfully developed a suite of image reconstruction and image processing techniques suitable for submarine photos and drawn a datailed flow chart.As examples,four pictures are attached to this paper, which illustrate the obvious effects of our method in such aspects as eliminating uneven illuminance and iron wire interference,raising contrast and resolution power, automatic classification and scientific statistical analysis of coverage, and indicate the possibility of examining textures and shapes of the nodules by means of partial enlargement.The method described in this paper serves as an important tool for improving and studying precious submarine photos.
原载《物探与化探》,1989,No.6。
数字图像处理主要研究的内容有以下几个方面:1) 图像变换由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅立叶变换
图像融合是多传感器信息融合领域的一个重要分支[1],它是指将来自同一目标的不同传感器的信息通过一定的算法融合到一幅图上,从而获得比在单幅图上更完整、更精确的信息
研学论坛吧。搜索英文文献要利用你们学校的电子图书馆,到他购买的那些数据库里找,比如iee,ieee什么的。
写论文常用的研究方法介绍如下: (1)调查法: 调查法是科学研究中最常用的方法之一。它是有目的、有计划、有系统地搜集有关研究对象现实状况或历史状况的材料的方法。
由于不同因素之间的复杂作用,在保留原始字体,颜色,大小和背景纹理的同时在场景图像中交换文本是一项具有挑战性的任务。在这项工作中,我们提出了一个三阶段框架Swap