• 回答数

    4

  • 浏览数

    172

999966开心
首页 > 期刊论文 > 光栅角度检测外文翻译论文

4个回答 默认排序
  • 默认排序
  • 按时间排序

吴珊珊珊

已采纳

2FSK Signal, Modulation and Modem二进制频移键控信号, 调制和解调Does a communication signal have fingerprint characters? This paper discusses the existence probability of fingerprint characters of communication signals, then analyses fingerprint characters of 2FSK signals,and extracts partial fingerprint characters of 2FSK signals.人有表示个体属性的指纹特征 ,无线电通信信号 (下称信号 )是否存在描述个体电台的电子“指纹”特征 (下称“指纹”特征 )呢 ?文中分析了信号“指纹”特征存在的可能性 ,并以 2FSK信号为例 ,论述了 2FSK信号应具有的“指纹”特征 ,同时提取了其中部分“指纹”特征。According to the characteristics of 2FSK signal and 2PSK signal, a new method based on weak signal detection by Duffing chaotic oscillator to detect 2FSK signal and 2PSK signal is presented.根据Duffing混沌振子微弱信号检测方法进行研究的基础上,根据2FSK信号和2PSK 信 号的特点,提出了一种2FSK、2PSK信号的检测的新方法。To acquire the information of railway binary frequency-shift keying(2FSK)signal s upper and down side frequencies and base low-frequency with high accuracy in real time,a novel frequency detection algorithm compatible with China-made system and France UM71 system was proposed.为实时高精度获取铁道二进制频移键控信号的上、下边频和基带低频信息,提出一种 可兼容国产制式和法国UM71制式的频率检测新方法。The target of the communication system flat is modeling and calculating to modulation and demodulation of seven kinds of signals:AM,FM,SSB,2ASK,2FSK, 2PSK,2QPSK.通信仿真平台的任务是对调幅、调频、单边带、二进制振幅键控、二进制频移键控、二进制相移键控、正交相移键控等七种通信信号的调制和解调进行建模和计算。It emphasizes on 2FSK modem of locking phase loop frequency mixing, hardware and software of addressing control of single-chip computer-AT89C51.介绍了一种基于单片机寻址控制的有线电视收费系统,重点对系统应用锁相频率合成技术的2FSK调制和解调、单片机AT89C51寻址控制的硬件和软件进行了分析,还对系 统利用PIN管宽带工作特点对高频电视信号进行关断和系统的抗干扰措施进行了一定的介绍。 The 308 MHz/315 MHz/418 MHz/433.92 MHz low power FSK Superheterodyne Receiver adopts high integrated,low power,CMOS Superheterodyne RF receiver chips in MAX7042,with a sensibility range from-110 dBm to-109 dBm,receiving a FSK data which speed up to 66 kbps(NRZ)(33 kbps Manchester code). 所设计的308 MHz/315 MHz/418 MHz/433.92 MHz低功耗FSK超外差式接收电路,采用MAX7042高集成度、低功耗,CMOS型超外差式射频(RF)接收芯片,灵敏度为-110~-109 dBm,接收频移键控(FSK)数据速率可达66 kbps(NRZ)(33kbps曼彻斯特编码); Through the experiments with two systems,which based on two kinds of the binary system frequency shift keying(2FSK) modems,the algorithm's validity is tested. 以两种二进制频移键控(binary system frequency shift keying,2FSK)调制 解调器搭建系统进行实验,验证了该方法的有效性。 The working principle,algorithm analysis and software design method of a simplified V.23 2FSK modem based on DSP which is a kind of programmable chip are introduced in this article. 介绍了简易V.23二进制频移键控(2FSK) 调制解调器的工作原理、算法分析以及基于可编程器件DSP的软件设计方法。 The automatic fire alarm system is discussed which consists of a iron-type smoke detector NC14468, a microcontroller 8051 and a radio frequency transceiver nRF401. Because of nRF401 being introduced into which adopts the radio communication technology and the FSK technology , the system is improved increasingly in the performances , such as real-time function and high responsibility. 讨论了用 MC14468 离子型烟雾检测报警器、单片机 8051、nRF401 单片射频收发器构成的火灾自动报警系统。 由于引入了无线通信技术和 FSK(频移键控) 调制解调技术为核心的 nRF401 射频收发器,使系统的性能大大提高,尤其是使系统报警更具实时性和可靠性。 Through the experiments with two systems,which based on two kinds of the binary system frequency shift keying(2FSK) modems,the algorithm's validity is tested. 以两种二进制频移键控(binary system frequency shift keying,2FSK)调制解调器搭建系统进行实验,验证了该方法的有效性。 This dissertation, basing on simulation, makes a deep research on simulating signal of GMSK (Gaussian filtered Minimun Frequency Shift Keying) baseband modulation and demodulation in AIS (Automatic Identification System) equipment. The technology related in the following makes the modulation and demodulation of baseband signal into realization by TI DSP, at the same time, provides a key technique to develop AIS system inland. 着重对自动识别系统(AIS-Automatic Identification System)设备的高斯滤 波最小频移键控(GMSK-Gaussian filtered Minimum Frequency Shift Keying)基带 调制解调信号进行了仿真研究,并在仿真的基础上,在TI的DSP上实现了基带信号的调 制解调,为国内研制AIS系统储备了关键技术。 Moreover,based on the designed fiber grating and the technology of wavelength division multiplexing,a frequency shift keying radio-over-fiber communication system is suggested,and the proposed scheme may be taken as one of the candidates for the next generation high-speed and large-capability radio-over-fiber system. 同时基于所设计的光纤光栅和波分复用技术,提出了一种频移键控光纤无线通信系统Radio Over Fiber系统,为下一代的高速大容量的光纤无线通信系统系统提供一种可行的备选解决方案。 By using the service work that the telecommunication bureau provides caller information to subscriber (inserts caller number and other relevant information between the first and the second ringing of the subscriber terminal) , this scheme sets up a platform using binary frequency shift keying (FSK) decode technique on the subscriber side, receives the caller (reporting side) telephone number, then through the data base in the service equipment, finds the caller (reporting side) material and information, and chooses the corresponding police action plan. 利用电信局对用户提供主叫信息的服务业务 (在对用户终端的第一次和第二次振铃之间 ,插入主叫方号码以及其他有关信息 ) ,在用户终端设置一种采用二进制频移键控 (FSK)解码技术的平台 ,接收主叫 (报警方 )电话号码 ,并通过服务器里 的数据库 ,查询到主叫(报警方 )的资料 ,然后做出相应的处警方案评价 添加词条 短句来源 For the conventional modulation and demodulation of Minimum Frequency Shift Keying(MSK), the new models for modu-lation and demodulation on digital MSK based on VHDL are developed. 针对传统的最小频移键控(MSK) 的调制解调方式,提出一种基于甚高速硬件描 述语言(VHDL)的数字式MSK调制解调模型。 The conception,classification,research status and system structure are presented in this paper,also it presents a new space-time coded cooperation based on space-time frequency keying,and finally analyzes its performance. 介绍了协作分集技术的基本概念、分类、研究现状以及系统结构,提出了由空时频移键控设计的空时编码协作分集方式,并分析了其性能。 Combining the advantages of space-time block codes and frequency keying, space-time frequency keying (ST-FSK), which did not require any channel state information at the transmitter and the receiver, could adopt the non-coherent ML detector under the Rayleigh fading channels [1]. 空时频移键控(ST- FSK)结合了空时分组码和频移键控的优点,在瑞利衰落信道条件下无需信道信息,可采用非相干的最大以然(ML)检测器。 In the scheme, FSK-FDM technique is used in sub-carrier modulation, and the EDFA’s supervisory information is transmitted by optical intensity modulation. 该方案利用频移键控 频分复用 (FSK FDM)技术进行声频副载波调制 ,通过光强度调制实现远程在线EDFA监控信息随主信号的传输。 There are three basic types of digitally modulated signal: MASK, MPSK and MFSK. 数字调制信号分三种基本类型:多进制幅度键控MASK、多进制相移键控MPSK和多进制频移键控MFSK。 For improving the baud rate of system, this text adopts the GMSK (Gauss in Filtered Minimum Shift Keying) modulation method to replace ASK (Amplitude Shift Keying) modulation method of current IFCNSS. 为提高系统的传输速率,本文采用GMSK(Gaussian Filtered Minimum Shift Keying高斯滤波最小频移键控)调制方式来代替目前“安全通信网”中的ASK(Amplitude Shift Keying幅移键控)调制方式。

230 评论

阿tin逐梦游

找篇中文论文,在线翻译成英文,这样 中文就相当通顺了。

164 评论

o0小惠惠0o

与此案的具体情况,用小双谱PM-LPG捏造的具体情况采用高折射率、气孔结构表现出强烈的熔覆地区的分裂(43海里)的两个谐振(slow-axis和fast-axis共振蘸)为同一层模式[6]。这增加了两个共振的光谱分离与同一层模式为时不时地告诉我们,如果双折射的具体情况是增加,熔覆结构的具体情况,我们可以适当选择两个谐振(slow-axis和fast-axis resonantdips)具有不同的层模式比那些接近顺序相同的层模式。在我们的具体情况提出了传感器系统的选择是熊猫型资料(日本)具有高折射率玻璃,熔覆元素扮演的角色,应用纤维芯的应变层区域。在这个由刻画了液化石油气(具体情况,两个共振共鸣和fast-axis slow-axis沉入)具有不同的层模式可以被密切座落在狭窄的波长(ocm 50海里)和被选入了波长的兴趣。它已经报道的波长偏移的共振蘸一液化石油气由于紧张或温度是不同于层模式取决于他们命令[7]。因此,温度和应变响应的较低的(例如,浸蘸波长较短的共鸣的PM-LPG制作可以不同于那些在下降(不再共振波长的区别),因为复模式。特别是如果两个共振蘸在线性应用应力和温度,同时测量应力和温度可以达到通过以下方程:(两个公式),分别为:波长转换上下共振蘸由于应用温度变化、应变变化规律,并和温度系数的上下共振跌落,respectively.系数和紧张的上下共振跌落。第三次世界大战。实验和讨论图1显示透射光谱的PM-LPG制作。从图,两个共振波长的1565.93(低)和1602.05共振浸蘸上共振化学方面的)可在正交极化条件(RLP可线性偏光系统)。PM-LPG是虚构的刻画了液化石油气以在一个具体情况(双折射。~ 5.05的* 10负4方,B-Ge codoped)。准分子激光光束的KrF 248海里发光在球场,经480—μm振幅的纵向长度的30毫米,在40-mm-long资料所H2-loaded 100℃时在100条为7天。实验原理图的安装,同时测量在图2。我们用两个水平轴向应变翻译阶段分离的PM-LPG而使用温度室之间的阶段加热光栅独立。

148 评论

黄小琼琼

最近,端到端场景文本识别已成为一个流行的研究主题,因为它具有全局优化的优点和在实际应用中的高可维护性。大多数方法试图开发各种感兴趣的区域(RoI)操作,以将检测部分和序列识别部分连接到两阶段的文本识别框架中。然而,在这样的框架中, 识别部分对检测到的结果高度敏感(例如,文本轮廓的紧凑性)。 为了解决这个问题,在本文中,我们提出了一种新颖的“Mask Attention Guided One-stage”文本识别框架,称为MANGO,在该框架中无需RoI操作就可以直接识别字符序列。具体而言:

值得注意的是,MANGO自有地适应于任意形状的文本识别,并且仅使用粗略的位置信息(例如矩形边界框)和文本注释就可以进行端到端的训练。实验结果表明,该方法在规则和不规则文本识别基准(即ICDAR 2013,ICDAR 2015,Total-Text和SCUT-CTW1500)上均达到了有竞争力甚至最新性能。

场景文本识别由于其各种实际应用而备受关注,例如发票/收据理解中的关键实体识别,电子商务系统中的产品名称识别以及智能运输系统中的车牌识别。传统的场景文字识别系统通常分三步进行:定位文字区域,从原始图像中裁剪文字区域并将其识别为字符序列。然而尽管这种文本识别模型带来了许多可考虑的问题,例如: (1)错误将在多个单独的任务之间累 (2)维护多个单独的模型的成本很高 (3)该模型难以适应各种应用程序。

因此,提出了许多工作以端到端的方式来最终优化文本识别过程。这些方法通常使用各种兴趣区域(RoI)操作以可微分的方式桥接文本检测和识别部分,从而形成了两阶段框架。粗略地说,早期的端到端方法将轴对齐的矩形RoI用作连接模块。这些方法处理不规则的(例如,透视图或弯曲的)文本实例能力有限,因为这种类型的RoI可能会带来背景或其他文本的干扰。为了解决这个问题,后来的方法(设计了一些形状自适应RoI机制来提取不规则物体。文本实例并将其校正为规则形状。

图1:传统的两阶段文本识别过程和提出的MANGO的图示。 图(a)显示了通过RoI操作连接检测和识别部分的两阶段文本识别策略。 图(b)是一种提出的单阶段文本识别方法,它可以直接输出最终的字符序列。

在两阶段方法中,识别部分高度依赖于定位结果,这就要求检测部分必须能够捕获准确的文本边界以消除背景干扰。因此,训练鲁棒的文本检测模型依赖于准确的检测注释,例如在不规则文本识别中使用的多边形或蒙版注释。自然地,标记这种注释是费力且昂贵的。另一方面,要确保紧紧封闭的文本区域(由检测注释进行监督)对于以下识别任务而言是最佳形式,这并不容易。例如,在图1(a)中,紧密的文本边界可能会擦除字符的边缘纹理并导致错误的结果。 通常,需要手动扩展这些严格的检测结果,以适应实际应用中的识别。 此外,在proposals之后执行带有非极大抑制(NMS)的复杂RoI操作也很耗时,尤其是对于任意形状的区域。尽管(Xing et al.2019)提出了一种单阶段采用字符分割策略的字符级别的识别框架, 但很难扩展到具有更多字符类别(例如汉字)的情况。 它还会丢失角色之间的关键上下文信息。

实际上,当人们阅读时,他们不需要描绘文本实例的准确轮廓。通过视觉注意力关注的粗略文本位置来识别文本实例就足够了。在这里,我们将场景文本识别重新考虑为注意力和阅读的问题,即,一次直接读出粗略注意的文本区域的文本内容。

在本文中,我们提出了一种名为MANGO的“Mask Attention Guided One stage”文本监视程序,称为MANGO,这是一种紧凑而强大的单阶段框架,可直接从图像中同时预测所有文本,而无需进行任何RoI操作。具体来说,我们引入了一个位置感知蒙版注意力(PMA)模块以在文本区域上生成空间注意力,该模块包含实例级蒙版注意力(IMA)部分和字符级蒙版注意力(CMA)部分。 IMA和CMA分别负责感知图像中文本和字符的位置。可以通过位置感知注意力谱直接提取文本实例的特征,而不必进行显式的裁剪操作,这尽可能保留了全局空间信息。 在这里,使用动态卷积将不同文本实例的特征映射到不同的特征谱通道(Wang等人,2020c),如图1(b)所示。之后,应用轻量级序列解码器一次批量生成字符序列特征。

请注意,MANGO可以仅使用粗略的位置信息(例如,矩形边界框,甚至是文本实例的中心点)进行端到端优化,还可以使用序列注释。 受益于PMA,该框架可以自适应地识别各种不规则文本,而无需任何纠正机制,并且还能够了解任意形状的文本的阅读顺序。

本文的主要贡献如下: (1)我们提出了一种名为MANGO的紧凑而强大的一阶段文本识别框架, 该框架可以以端到端的方式进行训练。 (2)我们开发了位置感知蒙版注意力模块,以将文本实例特征生成为一个batch,并与最终字符序列建立一对一的映射。 只能使用粗略的文本位置信息和文本注释来训练该模块。 (3)广泛的实验表明,我们的方法在规则和不规则文本基准上均获得了有竞争甚至最新的性能。

早期场景文本发现方法(Liao,Shi,and Bai 2018; Liao et al.2017; Wang et al.2012)通常首先使用训练有素的检测器来定位每个文本,例如(Liao et al.2017; Zhou et al.2017; He et al.2017; Ma et al.2018; Xu et al.2019; Baek et al.2019),然后使用序列解码器识别裁剪后的文本区域(Shi et al.2016; Shi,Bai和Yao 2017; Cheng et al.2017; Zhan and Lu 2019; Luo,Jin and Sun 2019)。为了充分利用文本检测和文本识别之间的互补性,已经提出了一些工作以端到端的方式优化场景文本发现框架,其中使用了模块连接器(例如RoI Pooling(Ren等人,2015a))在(Li,Wang,and Shen 2017; Wang,Li,and Shen 2019)中,(He等人2018)中使用的RoI-Align和(Liu等人2018)中使用的RoI-Rotate的开发是为了文本检测和文本识别部分。请注意,这些方法无法发现任意形状的文本。 为了解决不规则问题,已经提出了许多最近的工作来设计各种自适应RoI操作以发现任意形状的文本。 Sun等人(2018年)采用了透视图RoI转换模块来纠正透视图文本,但是该策略仍然难以处理弯曲度较大的文本。 (Liao et al.2019)提出了受两阶段Mask-RCNN启发的mask textspotter,用于逐个字符地检测任意形状的文本,但是这种方法会丢失字符的上下文信息,并且需要字符级位置注释。 Qin等人(2019)直接采用Mask-RCNN和基于注意力的文本识别器,该模型使用RoI-Masking模块在识别之前消除了背景干扰。 (Feng et al.2019)将文本实例视为一组特征块,并采用RoI-Slide操作来重建直线特征图。 (Qiao et al。2020)和(Wang et al。2020a)都检测到文本周围的关键点,并应用薄板样条变换(Bookstein 1989)纠正不规则实例。为了获得弯曲文本的平滑特征(Liu et al.2020),使用Bezier曲线表示文本实例的上下边界,并提出了Bezier-Align操作以获取校正后的特征图。 上述方法在两阶段框架中实现了端到端场景文本点,其中需要设计基于RoI的连接器(例如RoI-Align,RoI-Slide和Bezier-Align等),以实现以下目的:明确裁剪特征图。 在两阶段框架中,性能很大程度上取决于RoI操作获得的文本边界精度。但是,这些复杂的多边形注释通常很昂贵,并且并不总是适合识别部分,如前所述。

在一般的对象定位领域,许多最新进展证明了在对象检测中研究的一阶段框架的效率和有效性(Redmon等人2016; Liu等人2016; Lin等人2017b; Tian等人2019;段等人(2019)或实例分割(Wang等人2019b; Tian,Shen和Chen 2020; Wang等人2020c; Xie等人2020; Chen等人2020)。但是,场景文本发现是一项更具挑战性的任务,因为它涉及序列识别问题而不是单个对象分类。这是因为场景文本具有许多特殊特征:任意形状(例如,曲线,倾斜或透视图等),数百万个字符组合,甚至是不受限制的阅读顺序(例如,从右到左)。最近,(Xing et al.2019)提出了一种通过直接分割单个字符的一种舞台场景文本识别方法。但是,它丢失了各个字符之间的序列上下文信息,并且很难传递给更多的字符类。据我们所知,以前没有工作可以在一个阶段的框架中处理序列级别的场景文本发现任务。

图2:MANGO的工作流程。 我们以S = 6为例。 将输入特征输入到位置感知蒙版注意力模块中,以将实例/字符的不同特征映射到不同通道。 识别器最终一次全部输出字符序列。 Centerline Segmentation分支用于生成所有文本实例的粗略位置。 前缀“ R-”和“ C-”分别表示网格的行和列。

我们提出了一个名为MANGO的单阶段场景文本查找器,如图2所示。其深层特征是通过ResNet-50(He等人,2016)和特征金字塔网络(FPN)(Lin等人,2017a)的主干提取的。 然后将生成的特征图馈送到三个可学习的模块中: (1)用于学习单个文本实例的位置感知蒙版注意力(PMA)模块,其中包括实例级蒙版注意力( IMA)子模块和字符级掩码注意力(CMA)子模块。 (2)识别器用于将注意力实例特征解码为字符序列。 (3)全局文本中心线分割模块,用于在推理阶段提供粗略的文本位置信息。

单阶段的文本识别问题可以视为原始图像中的纯文本识别任务。关键步骤是在文本实例到最终字符序列之间以固定顺序建立直接的一对一映射。在这里,我们开发了位置感知注意力(PMA)模块,以便为接下来的序列解码模块一次捕获所有表示文本的特征。受(Wang等人2019b)中使用的网格映射策略的启发,我们发现可以将不同的实例映射到不同的特定通道中,并实现实例到特征的映射。也就是说,我们首先将输入图像划分为S×S的网格。然后,通过提出的PMA模块将网格周围的信息映射到特征图的特定通道中。

具体来说,我们将特征提取后获得的特征图表示为x∈R C×H×W ,其中C,H和W分别表示为特征图的通道数量,宽度和高度。然后我们将特征图x送入PMA(包括IMA和CMA模块)模块,以生成文本实例的特征表示(如下所述)。

Instance-level Mask Attention MA负责生成实例级注意力蒙版遮罩,并将不同实例的特征分配给不同的特征图通道。 它是通过在切片网格上操作一组动态卷积内核(Wang等人2020c)来实现的,表示为G S×S×C 。卷积核大小设置为1×1。

因此可以通过将这些卷积核应用于原始特征图来生成实例级注意力掩码:

Character-level Mask Attention 正如许多工作 (Chenget等人2017; Xing等人2019)所表明的那样, 字符级位置信息可以帮助提高识别性能。 这激励我们设计全局字符级注意力子模块, 以为后续的识别任务提供细粒度的特征。

如图2所示,CMA首先将原始特征图x和实例级注意力蒙版x ins 连接在一起,然后是两个卷积层(卷积核大小= 3×3)遵循下式来预测字符级注意力蒙版:

由于将不同文本实例的注意蒙版分配给不同的特征通道,因此我们可以将文本实例打包为一批。 一个简单的想法是进行(Wang等人2020b)中使用的注意力融合操作,以生成批处理的连续特征x seq ,即

该模型现在能够分别输出S 2 网格的所有预测序列。 但是,如果图像中有两个以上的文本实例,我们仍然需要指出哪个网格对应于那些识别结果。

由于我们的方法不依赖准确的边界信息,因此我们可以应用任何文本检测策略(例如RPN(Ren等人2015b)和YOLO(Redmon等人。 2016)),以获取文本实例的粗略的几何信息。 考虑到场景文本可能是任意形状的,我们遵循大多数基于分割的文本检测方法(Long等人2018; Wang等人2019a)来学习单个文本实例的全局文本中心线区域分割(或缩小ground truth)。

IMA和CMA模块都用于使网络聚焦于特定的实例和字符位置,这在理论上只能通过最后的识别部分来学习。 但是,在复杂的场景文本场景中,如果没有位置信息的辅助,网络可能难以收敛。 但是,我们发现,如果模型已经在合成数据集上进行了预先的字符级监督,则可以轻松转移模型。 因此,可以分两步对模型进行优化。

首先,我们可以将IMA和CMA的学习视为纯分割任务。 结合中心线区域分割,所有分割任务都使用二进制Dice系数损失进行训练(Milletari,Navab和Ahmadi 2016),而识别任务仅使用交叉熵损失。 全局优化可以写成

请注意,预训练步骤实际上是一次性的任务,然后将主要学习CMA和IMA以适应该识别任务。 与以前需要平衡检测和识别权重的方法相比,MANGO的端到端结果主要由最终识别任务监督。

在推断阶段,网络输出一批(S×S)概率矩阵(L×M)。 根据中心线分割任务的预测,我们可以确定哪些网格应视为有效。 我们首先进行“广度优先搜索”(BFS),以找到各个相连的区域。 在此过程中,可以过滤许多类似文本的纹理。 由于每个连接区域可能与多个网格相交,因此我们采用字符加权投票策略来生成最终的字符串,如图3所示。

具体来说,我们计算连接区域i与网格j之间的连接率o i,j 作为每个字符的权重。 对于实例i的第k个字符,其字符加权投票结果通过

我们列出了本文使用的数据集如下:训练数据。我们使用SynthText 800k(Gupta,Vedaldi和Zisserman 2016)作为预训练数据集。利用实例级注释和字符级注释对PMA模块进行预训练。在微调阶段,我们旨在获得一个支持常规和非常规场景文本读取的通用文本点。在这里,我们构建了一个用于微调的通用数据集,其中包括来自Curved SynthText的150k图像(Liu等人2020),从COCO-Text过滤的13k图像(Veitet等人2016),从ICDAR-MLT过滤的7k图像(Nayefet等人2019)以及ICDAR2013(Karatzas等人2013),ICDAR2015(Karatzas等人2015)和Total-Text(Ch'ng and Chan 2017)中的所有训练图像。请注意,这里我们仅使用实例级别的注释来训练网络。测试数据集。我们在两个标准文本点标基准ICDAR2013(Karatzas等人2013)(IC13)和ICDAR2015(Karatzas等人2015)(IC15)中评估了我们的方法,其中主要包含水平和透视文本,以及两个不规则的基准Total-Text(Ch'ng和Chan 2017)和SCUT-CTW1500(Liu等人2019)(CTW1500),其中包含许多弯曲文本。车牌识别数据集CCPD中我们方法的能力(Xuet al.2018)。

所有实验均在Pytorch中使用8×32 GB-Tesla-V100 GPU进行。网络详细信息。特征提取器使用ResNet-50(He等人2016)和FPN(Lin等人2017a)从不同的特征图中获取融合特征水平。这里,C = 256的(4×)特征图用于执行后续的训练和测试任务.Lis设置为25以覆盖大多数场景文本单词。 BiLSTM模块有256个隐藏单元,训练详细信息,所有模型均由SGDoptimizer进行训练,批处理大小= 2,动量= 0.9和重量衰减= 1×10−4。在预训练阶段,以10个周期的初始学习比率1×10-2训练网络。每3个周期将学习率除以10.在微调阶段,初始学习率设置为1×10-3。为了平衡每批中的合成图像和真实图像的数量,我们将Curved SynthText数据集与其他真实数据集的采样比率保持为1:1。微调过程持续250k次迭代,其中学习率在120k迭代和200k迭代时除以10.我们还对所有训练过程进行数据扩充,包括1)将输入图像的较长边随机缩放为长度在[720,1800]范围内,2)将图像随机旋转[-15°,15°]范围内的角度,以及3)对输入图像应用随机的亮度,抖动和对比度。在不同的数据集中,我们将IC15的评估值设置为S = 60,将IC13,Total-Text和CTW1500的评估值设置为S = 40。我们将所有权重参数简单地设置为λ1=λ2=λ3=λ= 1。测试细节。由于输入图像的尺寸是重要的重要影响性能,因此我们将报告不同输入比例下的性能,即保持原始比例和将图像的较长边调整为固定值。所有图像都在单一尺度上进行测试。由于当前的实现方式仅提供了粗略的定位,因此,我们通过考虑IoU> 0.1的所有检测结果,修改(Wang,Babenko和Belongie 2011)的端到端评估指标。在这种情况下,由于某些低等级的建议匹配而导致精度下降,先前方法的性能甚至会下降。

常规文本的评估我们首先根据常规评估指标(Karatzas等,2015)对IC13和IC15的方法进行评估,然后基于三种不同的lexi-cons(强)对两个评估项目( 端到端''和 单词斑点'')进行评估,弱和通用)。表1显示了评估结果。与使用常规词典评估的先前方法相比,我们的方法在“通用”项目上获得了最佳结果(除了IC15的端到端通用结果之外),并在其余评估项目上获得了竞争结果(强”和“弱”)。与最近使用特定词典的最新MaskMaskTextSpotter(Liao et al.2019)相比,我们的方法在所有评估项目上均明显优于该方法。尽管推理速度很高,但FOTS的FPS最高(帧数第二),它无法处理不正常的情况。与基于不规则的方法相比,我们的方法获得了最高的FPS。不规则文本的评估我们在Total-Text上测试了我们的方法,如表2所示。我们发现我们的方法比最先进的方法高出3.2%和5.3 “无”和“满”指标中的百分比。请注意,即使没有明确的纠正机制,我们的模型也只能在识别监督的驱动下才能很好地处理不规则文本。尽管在1280的测试规模下,推理速度约为ABCNet的1/2,但我们的方法取得了显着的性能提升。我们还在CTW1500上评估了我们的方法。报告端到端结果的作品很少,因为它主要包含行级文本注释。为了适应这种情况,我们在CTW1500的训练集上对检测分支进行了重新训练,以学习线级中心线分割,并确定主干和其他分支的权重。请注意,识别不会受到影响,仍然会输出单词级序列。最终结果将根据推断的连接区域简单地从左到右连接起来。汉字设置为NOT CARE。结果如表3所示。我们发现,在“无”和“满”度量标准下,我们的方法明显比以前的提升了1.9%和4.6%。因此,我们相信,如果只有行级注解的数据足够多,我们的模型就可以很好地适应这种情况。

图4可视化了IC15和Total-Text上的端到端文本发现结果。 我们详细显示了字符投票之前每个正网格(oi,j> 0.3)的预测结果。 我们看到我们的模型可以正确地专注于相应的位置并学习任意形状(例如弯曲或垂直)文本实例的字符序列的复杂读取顺序。 采取字符投票策略后,将生成具有最高置信度的单词。我们还用可视化的CMA演示了CTW1500的一些结果,如图5所示。请注意,我们仅根据数据集的位置微调线级分割部分 标签,同时固定其余部分。在这里,我们通过将所有网格的注意图覆盖在相同的字符位置(k)上来可视化CMA的特征图:

网格编号的消除网格编号S2是影响最终结果的关键参数。如果太小,则占据相同网格的文本太多。否则,太大的S会导致更多的计算成本。在这里,我们进行实验以找到不同数据集的S的可行值。从表4中,我们发现IC13和TotalText的bestS均为40。 IC15的值为60。这是因为IC15包含更多密集和较小的实例。总而言之,当S> = 40时,总体性能随沙的增加而稳定。当然,FPS随S的增加而略有下降。信息。为了证明这一点,我们还进行了实验,以矩形边框的形式转移所有本地化注释。我们仅采用RPN头作为检测分支。表5显示了IC15和Total-Text的结果。即使进行严格的位置监控,MANGO的性能也只能降低0%到3%,并且可以与最新技术相比。请注意,粗略位置仅用于网格选择,因此可以根据特定任务的要求尽可能简化它。

为了证明模型的泛化能力,我们进行了实验以评估CCPD公共数据集上的端到端车牌识别结果(Xu et al.2018)。为了公平起见,我们遵循相同的实验设置,并使用带有250k图像的数据集的初始版本。 CCPD-Base数据集分为两个相等的部分:用于训练的100k样本和用于测试的100k样本。有6个复杂的测试集(包括DB,FN,旋转,倾斜,天气和挑战)用于评估算法的鲁棒性,总共有50k张图像。由于CCPD中的每个图像仅包含一个板,因此可以通过删除来进一步简化我们的模型检测分支直接预测最终字符序列。因此,网格数减少为S = 1,最大序列长度设置为L =8。我们直接对模型进行微调(已通过SynthText进行了预训练)在CCPD训练集上仅使用序列级注释,然后评估上述七个测试数据集的最终识别准确性。测试阶段是对尺寸为720×1160的原始图像执行的。 表6显示了端到端识别结果。尽管所提出的方法不是为车牌识别任务设计的,但仍然可以轻松地转移到这种情况下。我们看到,提出的模型在7个测试集中的5个中优于以前的方法,并达到了最高的平均精度。图6显示了CCPD测试集的一些可视化结果。故障样本主要来自图像太模糊而无法识别的情况。该实验表明,在许多情况下,只有一个文本实例(例如,工业印刷识别或仪表拨盘识别),可以使用良好的端到端模型无需检测注释即可获得。

在本文中,我们提出了一种名为MANGO的新颖的单阶段场景文本查找器。 该模型删除了RoI操作,并设计了位置感知注意模块来粗略定位文本序列。 之后,应用轻量级序列解码器以将所有最终字符序列成批获取。 实验表明,我们的方法可以在流行基准上获得具有竞争力的,甚至最先进的结果。

88 评论

相关问答

  • 论文翻译入侵检测

    很可能会被查出来

    Xiaonini71 5人参与回答 2023-12-08
  • 微弱信号检测论文外文翻译

    强电:strong electricity; 弱电:weak electricity 1、strong 读音:英 [strɒŋ]   美 [strɔːŋ] 含义

    我们的季节 8人参与回答 2023-12-08
  • 光栅角度检测外文翻译论文

    2FSK Signal, Modulation and Modem二进制频移键控信号, 调制和解调Does a communication signal hav

    999966开心 4人参与回答 2023-12-08
  • 毕业论文外文翻译翻译书

    这个是可以的,百度文库有现成的,这个也是允许的这只是学习的材料。先到百度文库,找一篇此类文档中文的,然后用有道翻译,或是谷歌在线翻译翻成英 文,然后把英文放上面

    狂爱KIKI 6人参与回答 2023-12-08
  • 目标检测经典论文翻译

    目标检测(object detection)是计算机视觉中非常重要的一个领域。在卷积神经网络出现之前,都利用一些传统方法手动提取图像特征进行目标检测及定位,这些

    Doris翼寻寻 3人参与回答 2023-12-07