小目标问题在物体检测和语义分割等视觉任务中一直是存在的一个难点,小目标的检测精度通常只有大目标的一半。
CVPR2019论文: Augmentation for small object detection 提到了一些应对小目标检测的方法,笔者结合这篇论文以及查阅其它资料,对小目标检测相关技巧在本文进行了部分总结。
小目标的定义: 在MS COCO数据集中,面积小于 32*32 的物体被认为是小物体。
小目标难以检测的原因: 分辨率低,图像模糊,携带的信息少。由此所导致特征表达能力弱,也就是在提取特征的过程中,能提取到的特征非常少,这不利于我们对小目标的检测。
1、由于小目标面积太小,可以放大图片后再做检测,也就是在尺度上做文章,如FPN(Feature Pyramid Networks for Object Detection),SNIP(An Analysis of Scale Invariance in Object Detection – SNIP)。
Feature-Fused SSD: Fast Detection for Small Objects, Detecting Small Objects Using a Channel-Aware Deconvolutional Network 也是在多尺度上做文章的论文。
2、在Anchor上做文章(Faster Rcnn,SSD, FPN都有各自的anchor设计),anchor在设置方面需要考虑三个因素:
anchor的密度: 由检测所用feature map的stride决定,这个值与前景阈值密切相关。
anchor的范围: RetinaNet中是anchor范围是32~512,这里应根据任务检测目标的范围确定,按需调整anchor范围,或目标变化范围太大如MS COCO,这时候应采用多尺度测试。
anchor的形状数量: RetinaNet每个位置预测三尺度三比例共9个形状的anchor,这样可以增加anchor的密度,但stride决定这些形状都是同样的滑窗步进,需考虑步进会不会太大,如RetinaNet框架前景阈值是0.5时,一般anchor大小是stride的4倍左右。
该部分anchor内容参考于:
3、在ROI Pooling上做文章,文章SINet: A Scale-Insensitive Convolutional Neural Network for Fast Vehicle Detection 认为小目标在pooling之后会导致物体结构失真,于是提出了新的Context-Aware RoI Pooling方法。
4、用生成对抗网络(GAN)来做小目标检测:Perceptual Generative Adversarial Networks for Small Object Detection。
1、从COCO上的统计图可以发现,小目标的个数多,占到了41.43%,但是含有小目标的图片只有51.82%,大目标所占比例为24.24%,但是含有大目标的图像却有82.28%。这说明有一半的图像是不含小目标的,大部分的小目标都集中在一些少量的图片中。这就导致在训练的过程中,模型有一半的时间是学习不到小目标的特性的。
此外,对于小目标,平均能够匹配的anchor数量为1个,平均最大的IoU为0.29,这说明很多情况下,有些小目标是没有对应的anchor或者对应的anchor非常少的,即使有对应的anchor,他们的IoU也比较小,平均最大的IoU也才0.29。
如上图,左上角是一个anchor示意图,右上角是一个小目标所对应的anchor,一共有只有三个anchor能够与小目标配对,且配对的IoU也不高。左下角是一个大目标对应的anchor,可以发现有非常多的anchor能够与其匹配。匹配的anchor数量越多,则此目标被检出的概率也就越大。
实现方法: 1、Oversampling :我们通过在训练期间对这些图像进行过采样来解决包含小对象的相对较少图像的问题(多用这类图片)。在实验中,我们改变了过采样率和研究不仅对小物体检测而且对检测中大物体的过采样效果
2、Copy-Pasting Strategies:将小物体在图片中复制多分,在保证不影响其他物体的基础上,增加小物体在图片中出现的次数(把小目标扣下来贴到原图中去),提升被anchor包含的概率。
如上图右下角,本来只有一个小目标,对应的anchor数量为3个,现在将其复制三份,则在图中就出现了四个小目标,对应的anchor数量也就变成了12个,大大增加了这个小目标被检出的概率。从而让模型在训练的过程中,也能够有机会得到更多的小目标训练样本。
具体的实现方式如下图:图中网球和飞碟都是小物体,本来图中只有一个网球,一个飞碟,通过人工复制的方式,在图像中复制多份。同时要保证复制后的小物体不能够覆盖该原来存在的目标。
网上有人说可以试一下lucid data dreaming Lucid Data Dreaming for Multiple Object Tracking ,这是一种在视频跟踪/分割里面比较有效的数据增强手段,据说对于小目标物体检测也很有效。
基于无人机拍摄图片的检测目前也是个热门研究点(难点是目标小,密度大)。 相关论文: The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking(数据集) Drone-based Object Counting by Spatially Regularized Regional Proposal Network Simultaneously Detecting and Counting Dense Vehicles from Drone Images Vision Meets Drones: A Challenge(数据集)
1: 2: 3: 4: 5: 6: 7:
小目标检测几点总结 一、单阶段目标检测主要步骤: 1、特征提取骨干网络设计 2、分类头网络设计 3、回归头网络设计 4、anchor生成设计:anchor尺度与比例 5、anchor匹配机制 6、损失函数设计 7、数据增强技术应用 二、航空图像特点: 1、目标尺度变化大:以中、小目标为主(评判标准?); 2、目标旋转变化较大:尤其对于下视图像,同一类目标存在多角度变化;(旋转框检测) 3、场景明暗变化:存在过曝光和光线不充足等场景; 4、场景内目标疏密变化:存在目标密度极大的场景,也存在非常稀疏的场景; 5、图像视场大,单个目标较小,背景较为复杂; 6、单幅图像分辨率较高; 7、目标相对运动存在模糊现象; 8、目标遮挡现象; 三、小目标检测需注意的几点: 1、小目标所含像素信息小,主要纹理信息缺失,边缘信息相对明显; 2、小目标所含像素较少,信号微弱,需得到一定增强或考虑上下文环境信息辅助推理; 3、提高小目标分辨率,增强信号强度; 4、CNN底层特征预测具有较好的结构信息,顶层具有更多的语义信息。好的特征融合策略可以提取语义信息和结构信息俱佳的特征; 5、级联CNN思想; 6、感受野需根据目标尺度而选取。小感受野捕获不了完整信息,大感受野引入更多背景噪声(小目标对感受野更加敏感); 7、Anchor尺度和比例的选取和与GT匹配机制,保证更多的anchor匹配到小目标上; 8、可以从定位和识别两个角度单独思考,设计专门的分类头和回归头(分类所需特征与检测所需特征之间具有一定偏移)。 四、小目标检测可行的几点方法: 1、多尺度训练与测试; 2、数据增强 3、特征融合模块设计 4、特征增强模块设计 5、上下文推理模块设计 6、膨胀卷积的利用 7、Anchor free是一个趋势 8、Focal loss 9、特征提取骨干网络设计 10、动态区域放大机制:基于强化学习 11、超分辨率重建 12、注意力机制(利用上层语义信息生成注意力)
洋河流域遥感图像土地利用分类方法研究 【摘要】遥感影像分类方法的确定是LUCC研究中的关键步骤。文章以洋河流域为研究区,分别进行了非监督分类和监督分类。针对监督分类结果中存在的误差,对水域、植被、城镇与工矿用地三种类型地物的提取分别选择了综合阈值法、植被指数法、DEM数据辅助分析法进行了改进,结果表明改进后的提取结果较监督分类直接得到的结果有了很大的改善。【关键词】遥感图像;监督分类;综合阈值法;植被指数法【中图分类号】TP79 【文献标识码】A【文章编号】1671-5969(2007)16-0164-03一、研究区域概况及图像资料(一)研究区域概况洋河流域是张家口经济发展的中心地带,水资源相对丰富。洋河发源于山西省阳高县和内蒙古兴和县,是永定河上游的一大支流,流域面积约14600km2 。在张家口市流域面积为9762km2,流经万全县、怀安县、张家口市区、宣化县、宣化区、下花园区、怀来县等,干流全长106 km,在朱官屯于桑干河汇合后流至官厅水库,是官厅水库的重要水源。洋河流域形状东西向较长,南北向较短,地形总趋势西北高、东南低。流域的东北、北部和西北沿坝头一带海拔高程1200~1500m之间,西部和南部边界海拔高程一般在500~1000m之间。流域内80%以上为丘陵山区,绝大部分为荒山秃岭。流域内大部分为黄色沙壤土,并有部分砂砾土及黄粘土,沿河川地层厚且较肥沃[1]。(二)信息源遥感信息源的选择要综合考虑其光谱分辨率、空间分辨率、时间分辨率等因素, 这是利用遥感图像进行土地利用分类的关键问题。美国的Landsat TM 图像是当前应用最为广泛的卫星遥感信息源之一,它可提供7个波段的信息, 空间分辨率为30~120m。TM数据源各波段各有特点,可进行不同地物类型的信息提取。相关资料表明TM遥感数据各波段间的信息相关关系为:TM1与TM2,TM5与TM7高度相关,相关系数达0.95以上,信息冗余大,可以考虑不选取TM1波段。另外由于第6个波段的分辨率为120m,不利于地物信息的提取,所以亦不选取TM6波段。一般来说, 选择图像类型时,应考虑研究区域的大小、研究的目的,以及要达到的精度要求,另外不同时相遥感图像的选择对分类精度也具有很大的影响。为了能把水域、城市与工矿用地、林地、耕地、裸地区分开,以洋河流域1987年9月17日的TM图像为信息源进行研究。本文中所使用的遥感图像处理工具为美国ERDAS公司的ERDAS IMAGINE8.4软件,它是一个功能完整的、集遥感与地理信息系统于一体的专业软件,具有数据预处理、图像解译、图像分类、矢量功能、虚拟gis等多个功能。二、现有遥感图像土地利用分类的主要方法及其分析遥感图像土地利用分类就是利用计算机通过对遥感图像中各类地物的光谱信息和空间信息进行分析,选择特征,并用一定的手段将特征空间划分为互不重叠的子空间,然后将图像中的各个像元划归到各个子空间中以实现分类[2]。按照是否有已知训练样本的分类数据,将其分为非监督分类和监督分类。它们最大的区别在于监督分类首先给定类别,而非监督分类则由图像数据本身的统计特征来确定。(一)非监督分类非监督分类是在多光谱特征空间中通过数字操作搜索像元光谱属性的自然群组的过程,这种聚类过程生成一副有m个光谱类组成的分类图。然后分析人员根据后验知识将光谱类划分或转换成感兴趣的专题信息类[3]。洋河流域内有很多山地,在图像上会产生大量的阴影,导致了像元灰度值的空间变化,这对分类结果有很大的影响。为此可以通过比值运算来去除阴影的影响,使向阳处和背阴处都毫不例外地只与地物的反射率的比值有关。常用算法:近红外波段(TM4)/红外波段(TM3),这样所得到的效果比较好,从原始图像和比值运算后的图像(图像略)中,可以清楚地看到山体阴面的阴影得到了有效的去除。经过比值运算后, 就可以对图像进行非监督分类。得到的分类结果如图1所示。非监督分类只根据地物的光谱特征进行分类,受人为因素的影响较少,不需要对地面信息有详细的了解,但由于“同物异谱、异物同谱”等现像的存在,其结果一般不如监督分类令人满意。比如官厅水库旁边的大量建筑物被分到水体一类。是因为在TM3波段上,水体和建筑物的灰度值相近, 同样在TM7波段上,裸山和建筑物的灰度值也相近。总之,在TM的6个波段上,无论采用哪个波段进行非监督分类,总有几种地物的光谱值接近,因此单纯依靠计算机自动分类取得很好的效果是非常困难的。
摄影测量与遥感技术发展论文主要通过对摄影技术与遥感技术的发展进行了研究,并对其在各个方面的运用进行了论述。
摄影测量与遥感技术发展论文【1】
摘要:随着经济的不断发展,科学的不断进步,摄影测量与遥感技术因其运用范围广、作用大而走上了逐渐发展的道路,并且对国民经济生活起着重要的影响。
关键词:摄影测量;遥感技术;发展;应用
摄影测量与遥感技术被划分在地球空间信息科学的范畴内,它在获取地球表面、环境等信息时是通过非接触成像传感器来实现的,并对其进行分析、记录、表达以及测量的科学与技术。
3S技术的应用、运用遥感技术以及数字摄影测量是其主要研究方向。
在多个领域内都可以运用遥感技术与摄影测量,比如:自然灾害、勘查土木工程、监测环境以及国土资源调查等。
随着我国经济的不断发展,运用到遥感技术与摄影测量的领域也在逐渐的增多。
在人类认识宇宙方面,遥感技术与摄影测量为人类提供了新的方式与方法,也为人类对地球的认知以及和谐共处提供了新的方向。
遥感技术和摄影测量可以提供比例不同的地形图以服务于各种工作,并且还能实现基础地理信息数据库的建立;遥感技术与摄影测量与地图制图、大地测量、工程测量以及卫星定位等构成了一整套技术系统,是测绘行业的支柱。
一、摄影测量与遥感技术的发展
从摄影测量与遥感技术的发展来看,摄影测量与遥感技术在近30年的时间里已经涉及到城市建设、水利、测绘、海洋、农业、气象、林业等各个领域,在我国的经济发展中起着至关重要的作用。
摄影测量从20世纪70年代后期从模拟摄影中分离出来,并逐渐步入数字摄影阶段,摄影测量正在逐渐的转变为数字化测绘技术体系。
(一)摄影测量与遥感技术有利于推动测绘技术的进步
我国的摄影测量从上世纪70年代后期经历一个系统的转变。
在经历了模拟摄影测量以及解析摄影测量阶段之后,摄影测量终于步入了数字摄影测量的阶段,这也成为我国传统测绘体系解体,测绘技术新体系兴起的标志。
首先,从数字影像的类型来看,当前我国已经建立了数字栅格图、数字高程模型以及数字正射影像,土地利用与地名数据库也随之建立起来,摄影测量与数据库的多样性在一定程度上为生产运用提供了可能,从而进一步推动了测绘技术的发展。
其次,由于摄影测量与遥感技术的飞速发展,也逐渐被国家所重视,并利用这两项技术来完成了各种地理比例尺地形图的绘制。
此外,还推动了诸多具有全国界别的基础地理信息数据库的建立。
比如:比例尺级别为1:50000,1:1000000等的国家级地理信息数据库;除开国家级的,还有省级、县级等的地理信息数据库等。
(二)摄影测量与遥感技术有利于提升空间数据的获取能力
我国获取空间数据的能力在经过五十年的发展,有了较大的提升。
对具有自主知识产权的处理遥感数据平台进行了研发,从而推动了国产卫星遥感影像地面处理系统的建立,并在摄影测量方面积极进行研究和探索,为我国独立处理信息、获取观测体系的建立提供了坚实的基础。
首先,从获取数据的能力方面来看,传感器在国家863以及973计划的支持上成功被研制出来,成功发射了对地观测的包括通信卫星、海洋卫星、气象卫星以及资源卫星等五十多颗卫星,并推动了资源、风云、环境减灾以及海洋四大民用对地观测卫星体系的建立,实现了从太阳和地球同步轨道对地球多传感器、多平台的观测以及对地球表面分辨率不同的雷达和光学图像的获取,并将这些获取的数据用于对海洋现象、大气成分、自然灾害以及水循环等各个方面的监测。
其次,从数据储备方面来看,数据积累已经成功的覆盖了全国海域、陆地以及我国周围国家和地区的包括一千五百万平方公里的地球表面数据。
二、摄影测量与遥感技术在国民经济各项领域中的运用
(一)摄影测量与遥感技术在应对自然灾害中的运用
在发生自然灾害时,为了能够第一时间了解灾情的具体分布,获取高分辨率灾区遥感影像,可以采用低空无人遥感、航天、航空遥感等方式,对灾区原有的地理信息以及尺度进行整合,推动地理信息服务平台的建立,将多尺度影像地图制作出来,及时、有效的提供地理信息以及地图数据支持,为及时制定出应对自然灾害的措施提供了依据。
比如在汶川地震时,在灾区道路交通与通信严重受损的情况下,通过摄影测量与遥感技术在第一时间获取了灾区的详细信息与资料,并利用航空遥感技术和无人机连续、动态的实现对灾区的监测,并对道路交通以及房屋倒塌等情况进行分析,建立起灾区地理信息综合服务平台,将灾区的地理信息数据进行整合,比如水系、居民地以及交通等,为各级抗震救灾指挥部门作出正确的决策以及救援人员的搜救工作提供了及时有效的灾情信息。
在灾区的救援工作中,发挥着至关重要的作用。
(二)摄影测量与遥感技术在气象中的运用
在气象方面中,摄影测量与遥感技术主要运用在对各种气象灾害的.预报和监测两方面。
在热带天气系统的监测方面,气象卫星发挥着极其重要的作用,尤其是对于台风的预报和监测。
在我国的春、夏季中,雷雨、暴雨等作为多发性的灾害性天气,在监测和分析方面,如果运用常规的气象观测资料是非常困难的。
利用具有高空间分辨率和高时间密度特点的卫星云图以及卫星产品,可以对对流系统的演变、发生、移动以及发展过程进行全方位的监测,从而为对流天气的分析和提前预警提供了非常重要的信息。
三、结语
摄影测量与遥感技术的应用已经逐渐步入信息化阶段。
随着我国航空航天技术的不断发展,如何将各行各业的发展与摄影测量和遥感技术相结合从而推动我国经济的发展,已经成为未来摄影测量和遥感技术发展的主要方向。
【参考文献】
[1]张景雄.地理信息系统与科学[M].武汉:武汉大学出版社,2010:108―114
[2]张剑清.潘励.王树根.摄影测量学[M].武汉:武汉大学出版社,2009:89―93
[3]李德仁.王树根.周月琴.摄影测量与遥感概论[M].北京:测绘出版社,2008:131―137
[4]乔瑞亭.孙和利.李欣.摄影与空中摄影学[M].武汉:武汉大学出版社,2008:178―182
[5]窦超.李兆钧.浅谈摄影测量与遥感的发展应用[M].青海国土经略,2011(06):29―31
摄影测量与遥感技术的新特点及技术【2】
摘要:本文主要分析了近年来我国摄影测量与遥感技术表现出的许多新的特点,分别从航空摄影自动定位技术、近景摄影测量、低空摄影测量、SAR数据处理、多源空间数据挖掘等方面进行了总结与论述。
关键词:电子科技论文发表,科技论文网,自动定位技术,近景摄影测量,低空摄影测量,SAR数据处理,多源空间数据挖掘
前言:摄影测量与遥感是从摄影影像和其他非接触传感器系统获取所研究物体,主要是地球及其环境的可靠信息,并对其进行记录、量测、分析与应用表达的科学和技术。
随着摄影测量发展到数字摄影测量阶段及多传感器、多分辨率、多光谱、多时段遥感影像与空间科学、电子科学、地球科学、计算机科学以及其他边缘学科的交叉渗透、相互融合,摄影测量与遥感已逐渐发展成为一门新型的地球空间信息科学。
1、航空摄影自动定位技术
近年来,随着卫星导航和传感器技术的进步,遥感对地目标定位逐步摆脱了地面控制点的束缚,向少控制点甚至是无控制点的方向发展。
1.1 利用基于载波相位测量的GPS动态定位技术测定航空影像获取时刻投影中心的3维坐标,以此为基础研究了GPS辅助空中三角测量理论和质量控制方法,在加密区四角布设地面控制点的GPS辅助光束法区域网平差的精度可满足摄影测量规范的精度要求,大量减少了航空摄影测量所需的地面控制点。
研究成果已大规模用于国家基础测绘,产生了显著的社会和经济效益。
1.2 开展利用在飞机上装载IMU和GPS构成的POS系统直接获取航摄像片6个外方位元素的多传感器航空遥感集成平台研究,可实现定点航空摄影和无地面控制的高精度对地目标定位。
研究成果表明,在1:5万及以下比例尺的4D产品生产中,可直接使用POS系统测得的像片外方位元素进行影像定向,基本无需地面控制点和摄影测量加密,从而改变了航空摄影测量的作业模式,并使无图区、困难地区的地形测绘和空间信息数据的实时更新成为可能。
2、近景摄影测量技术
近景摄影测量的研究应用领域已涉及空间飞行器制造、航空工业、船舶工业、汽车工业、核能工业、化学工业以及医学、生物工程、公安刑事侦破、交通事故及其他事故现场处理、古建筑建档和恢复、大型工程建设监测等方面。
2.1 利用数字相机与实时数字近景摄影测量技术相结合建立相应的工业零件检测系统。
该类系统使用高重叠度序列图像作为影像数据源,利用较多同名特征的冗余观测值成功地进行粗差剔除,根据2维序列图像导出物体不同部位的3维信息,然后将这些3维信息融为统一的表面模型,实现了高精度3维重建。
2.2 利用数码相机与全站仪集成形成一个全新的测量系统——摄影全站仪系统。
尽管传统近景摄影测量近年来得巨大发展,但必须在被测物体表面或周围布设一定数量的控制点,摄影测量工作者心中的“无接触测量“没有真正实现。
全站仪作为一种高精度测量仪器在工程测量中被广泛接受,本质上它是一种基于”点“的测量仪器。
将它与基于”面“的摄影测量有机地结合起来,形成一个全新的测量系统——摄影全站仪系统。
在该系统中,量测数码相机安装在全站仪的望远镜上,测量时利用全站仪进行导线测量,在每个导线点利用量测数码相机对被测物体进行摄影。
每张影像对应的方位元素可以由导线测量与全站仪的读数中获取。
3、低空摄影测量技术
近年来随着低空飞行平台(固定翼模型飞机、飞艇、直升机、有人驾驶小型飞机)及其辅助设备的进一步完善、数码相机的快速普及和数字摄影测量技术的日趋成熟,由地面通过无线电通讯网络,实现起飞、到达指定空域、进行遥感飞行以及返回地面等操作的低空遥感平台为获取地面任意角度的清晰影像提供了重要途径。
3.1 建立基于无人驾驶飞行器的低空数字摄影测量与遥感硬件系统。
硬件平台包括无人驾驶遥控飞行平台,差分GPS接收机,姿态传感器,高性能数码相机和视频摄像机,数据通讯设备,影像监视与高速数据采集设备,高性能计算机等等。
需要深入研究无人驾驶飞行平台的飞行特性,并研制三轴旋转云台、差分GPS无线通讯、视频数据的自动下传、自动曝光等关键技术。
3.2 研究无人驾驶飞行平台的自动控制策略。
在飞行器上搭载飞控计算机,由差分GPS数据得到飞艇(相机)的精确位置,在此基础上对较低分辨率的视频序列影像进行匹配,结合姿态传感器的输出信号实时自动确定飞行器的姿态,从而进行飞行自动控制,并将所有数据同时下传到地面监控计算机。
3.3 研究多基线立体影像中连接点的多影像匹配方法与克服影像几何变形的稳健影像匹配方法。
3.4 数字表面模型与正射影像的自动获取及立体测图。
4、SAN数据处理技术
SAR成像具有全天时、全天候的工作能力,它与可见光红外相比具有独特的优势。
随着我国SAR传感器研制技术的进一步发展,先后研制了不同波段,不同极化方式,空间分辨率达到0.3 In的传感器,并在SAR立体测绘方面设计了不同轨道和相同轨道的重复观测,为我国开展SAR技术的相关研究奠定了数据基础。
4.1 根据不同应用目的的SAR图像与可见光图像的融合。
利用SAR和可见光反映地物不同特性的特点,在提取不同土壤性质以及洪水监测和灾害评估方面采用不同的融合方法,取得了一定的理论成果,并完成了国家和部门的科研课题。
4.2 SAR图像噪声去除方法。
由于SAR的成像特点,造成了SAR图像的信噪比低,噪声严重。
提出了自适应滤波思想,基于图斑的去噪方法以及噪声去除方法的评价等。
4.3 机载和星载重复轨道的SAR立体测图技术以及星载的InSAR技术和D—InSAR的突破。
完成了星载InSAR生成DEM及D—InSAR形变检测的相关软件开发,利用极化SAR数据提取地物目标,开展极化干涉测量的研究。
5、多源空间数据挖掘技术
多源空间数据挖掘技术主要研究应用数学方法和专业知识从多源对地观测数据中,提取各种面向应用目的的地学信息。
5.1 从遥感图像数据中挖掘GIS数据。
在统计模式识别的基础上,通过神经网络、模糊识别和专家系统等技术实现图像光谱特征自动分类。
5.2 基于纹理分析的分类识别。
包括基于统计法的纹理分析、基于分形法的纹理分析、基于小波变换的纹理分析、基于结构法的纹理分析、基于模型法的纹理分析和空间/频率域联合纹理分析等。
5.3 遥感图像的解译信息提取。
把计算机自动识别出来的影像,结合GIS数据库或解译员的知识,确定其对应的地学属性。
包括基于GIS数据的图像信息识别、基于地学知识辅助的图像信息识别、基于专家知识辅助的图像信息识别、基于立体观察的图像信息识别、基于矢量栅格转化的信息提取和基于多源数据融合的信息识别等。
摄影测量与遥感的现状及发展趋势【3】
摘 要:随着信息时代的来临,人类社会步入全方位信息时代,各种新兴的科学技术迅猛发展,并广泛应用于人类生活中去。
摄影测量与遥感技术被广泛应用于我国测绘工作去,本文探讨了我国摄影测量与遥感的发展现状以及展望了发展趋势。
关键词:摄影测量;遥感;现状
随着信息时代的来临,人类社会步入全方位信息时代,各种新兴的科学技术迅猛发展,并广泛应用于人类生活中去。
摄影测量经历了模拟摄影测量、解析摄影测量和数字摄影测量三个阶段。
而在这期间,从遥感数据源到遥感数据处理、遥感平台和遥感器以及遥感的理论基础探讨和实际应用,都发生了巨大的变化。
数字地球(digitalearth)的概念是基于信息高速公路的假设和地理空间信息学的高速发展而产生的,数字地球为摄影测量与遥感学科提供了难得一遇的机会和明确的发展方向,与此同时,也向摄影测量和遥感技术提出了一些列的挑战。
而摄影测量和遥感学科是为数字地球提供空间框架图像数据及从数据图像中获得相关信息惟一技术手段
一、国内外摄影测量与遥感的现状
(一)摄影测量现状
摄影测量经历了漫长的发展过程,随着计算机技术以及自动控制技术的高数发展,进入20世纪末期的时候,基于全数字自动测图软件的完成,数字摄影测量工作站获得了迅猛发展并普遍存在于测量工作中。
进入21世纪后,科学技术的提升帮助摄影测量进入了数字化时代,数字摄影测量学学科与计算机科学有了大面积的知识交叉,摄影测量工具也变为较为经济的计算机输入输出设备,这种革命性的变革,使得数字摄影测量提升到了另一个台阶,数字摄影测量的语义信息提取、影像识别与分析等方面均产生了从质到量的变化。
目前我国各省测绘局均已广泛应用了数字摄影测量,建立了数字化测绘生产基地,实现了全数字化摄影测量与全球定位系统之间的有机合成,并且应用与测量实际工作中。
(二)遥感技术现状
目前遥感技术主要应用在日常的天气、海洋、环境预报及灾害监测、土地利用、城市规划、荒漠化监测、环境保护等方面,为社会带来了巨大的经济利益。
尤其要提出的是航天遥感,是利用卫星遥感获取各种信息是目前最有效的方法。
在实现数字地球概念,卫星遥感技术具有很重要的地位。
数字地球的实际意义就是将地球转为一个虚拟的球体,以数字形式来表达地球上的不同种类的信息,实现三维式和多分辨形式的地球描述。
数字地球是一个数量庞大的工程,从长远来看,信息量的更新一集信息的收取都需要卫星遥感技术提供可靠的信息源,换句话说,卫星遥感是实现数字地球的必要手段,也是其他手段不能够替代的。
二、摄影测量与遥感的应用与主要技术
(一)摄影测量与遥感在地籍测量中的应用
应用数字摄影测量与遥感模式进行地籍测量前景非常广阔。
航空航天事业的飞速发展,为高分辨率卫星遥感影像技术为空间地理信息提供主要的数据元。
主要以激光成像雷达、双天线SAR系统等三维数字摄影测量系统。
利用卫星遥感进行土地资源调查和土地利用动态监测,为快速及时的变更地籍测量做好参照,同时还能顺利的完成地籍线画图的测绘,还可以得到正射影像地籍图、三维立体数字地籍图等附属产品。
数字摄影测量主要以大比例尺航空像片为数据采集对象,利用该技术在航片上采集地籍数据,实行空三加密。
数字摄影测量与模式得到的地籍图信息丰富,实时性强;大部分工作均在室内完成,降低劳动强度与人工成本,还能大幅度提高工作效率,是一种非常实用的地籍测量模式。
(二)摄影测量在三维模型表面重建的应用
三维物体的重建技术可广泛应用于古建筑重建和文物保护、医学重建、工业量测、人脸重建、人体重建及程勘察等方面,这种技术主要通过手持量测数码相机进行操作,得到一组具有短基线和多度重叠的图片,通过立体匹配获取可靠的模型点数据。
基于短基线多影像数字摄影测量的快速三维重建技术能够解决静静摄影测量中不能同时兼顾变形早点近景和远景的问题,在操作过程中采用量测数码相机以及手持拍摄方式,使得这种技术简单快速,并且具有高度自动化的有点。
(三)遥感自动定位技术的应用
遥感自动定位技术能够确定影响目标的实际位置,并且准确的解译影响属性,在GPS空中三角测量的基础上,利用惯性导航系统,形成航空影响传感器,实现高精度的定点摄影成像。
在卫星遥感条件下,精度甚至可以达到米级。
遥感自动定位技术的应用,有助于实现实时测图和实时数据更新的作业流程,能够大量减少野外像控测量的工作量。
三、摄影测量与遥感发展展望
目前,摄影测量与遥感技术在数据获取与处理、信息服务和数据分析方面都有了新的进展,数据获取装备发展迅猛,数据处理系统自动化程度相应的提高,航空摄影测量软件实现模块化和标准化,实现了内外一体化的航空摄影测量方法,遥感影像信息管理能力增强。
除此之外,还可以看到测绘领域的全球化进程日益加剧。
四、结语
虽然现在摄影测量与遥感技术相对发展迅速,并且已经广泛应用与测绘工作中,逐步实现数字化与智能化。
在我国目前,摄影测量与遥感装备存在产品种类单一、生产效率低等实际生产问题,这是与飞速发展的信息产业背道而驰的,达不到国际水平。
需要国家发展测绘仪器制造业和专业软件开发能力,跨学科展开合作,集中优势力量,通过政府出台政策来引导市场发展,我国想要在摄影测量与遥感上取得更大的飞跃,还有一段很长的路要走。
参考文献:
[1]李德仁等.地球空间信息学与数字地球[C].空间数据基础设施与数字地球论文集,1999.
[2]刘经南.激光扫描测高技术的发展与现状[M].武汉大学学报,2003(2):132-137.
[3]郑立中,陈秀万.中国卫星遥感与定位技术应用的现状和发展[A].中国遥感奋进创新二十年学术论丈集[C].北京:气象出版社,2001.
一、资料的收集与分析 遥感制图所需的资料范围较广,一般需要收集如下资料 1、编制地区的普通地图 、 (1)比例尺最好与成图比例尺一致或稍大于成图比例尺 (2)选用面积变形较小的地图投影 2、遥感资料 后几年的影像 在选择遥感图像时,要遵循以下几个原则: (1)空间分辨率及制图比例尺的选择 空间分辨率指像素 代表的地面范围的大小,即扫描仪的瞬时视场或地面物体能分辨的最小单元。 空间分辨率指像素所代表的地面范围的大小,即扫描仪的瞬时视场或地面物体能分辨的最小单元的地面范围的大小 由于遥感制图是利用遥感图像来提取专题制图信息的,因此在选择遥感图像空间分辨率时要考虑以 下两点要素:一是判读目标的最小尺寸,二是地图成图比例尺。遥感图像的空间分辨率与地图比例尺有 密切关系:空间分辨率越高图像可放大的倍数越大,地图的成图比例尺也越大。 遥感图像的比例尺应与成图比例尺一致或象片比例尺稍大于成图比例尺,这样可以避免成图比例尺 大尺度变换的繁琐技术问题。但对于专题要素的判读、分类、描绘来说,往往要选择大于地图比例尺的 象片为宜。 (2)波谱分辨率与波段的选择 波谱分辨率是指传感器在接受目标辐射的波谱时能分辨的最小波长间隔。间隔越小,分辨率越高。 波谱分辨率是指传感器在接受目标辐射的波谱时能分辨的最小波长间隔。间隔越小,分辨率越高。 是指传感器在接受目标辐射的波谱时能分辨的最小波长间隔 波谱分辨率,是由传感器所使用的波段数目,也就是选择的通道数,以及波段的波长和宽度所决定。各 遥感器波普分辨率在设计时, 都是有针对性的, 多波段的传感器提供了空间环境不同的信息。 TM 为例: 以 TM1 蓝波段:对叶绿素和夜色素浓度敏感,用于区分土壤与植被、落叶林与针叶林、近海水域制图。 TM2 绿波段:对无病害植物叶绿素反射敏感 TM3 红波段:对叶绿素吸收敏感,用于区分植物种类。 TM4 近红外波段:对无病害植物近红外反射敏感,用于生物量测定及水域判别。 TM5 中红外波段:对植物含水量和云的不同反射敏感,可判断含水量和雪、云。 TM6 远红外波段:作温度图,植物热强度测量 TM 图象的性质 波段 1 2 3 4 5 6 7 光谱范围 (微米) 0.45—0.52 0.52—0.60 0.63—0.69 0.76—0.90 1.55—1.75 10.4—12.5 2.08—2.35 光谱性质 蓝 绿 红 近红外 中(近)红外 热(中)红外 中红外 地面分辨 率(米) 30 30 30 30 30 120 30 主 要 应 用 地壤与植被分类 健康植物的绿色反射率 探测不同植物的叶绿素吸收 生物量测量,水体制图 植物湿度测量,区分云与雪 植物热强度测量,其它热制图 水热法制图,地质采矿 包括航空象片、卫星象片及它们的底片和磁带、航空象片镶辑图、若为动态监测还需要前 (3)时间分辨率与时相的选择 遥感图像是某一瞬间地面实况的记录,而地理现象是变化、发展的。因此,在一系列按时间序列成像的 遥感图像 多时相遥感图像中,必然存在着最能揭示地理现象本质的“最佳时相”图像 把传感器对同一目标进行重复探测时, 相邻两次探测的时间间隔称为遥感图像的时间分辨率。 Landsat 如 1、2、3 的图像最高时间分辨率为 18 天,Landsat4、5、7 为 16 天,SPOT-4 为 26 天,而静止气象卫星的 时间分辨率仅为半小时。 遥感图像的时间分辨率对动态监测尤为重要。如:天气预报、灾害监测等需要短周期的时间分辨率,因 此常以“小时”为单位。植物、作物的长势监测、估产等需要用“旬”或“日”为单位。 显然只有气象卫星的图像信息才能满足这种要求;研究植被的季相节律、农作物的长势,目前以选择 landsat-TM 或 SPOT 遥感信息为宜。 3、其他资料 土地现状图、土地利用报告 、编图地区的统计资料、政府文件、地方志等 二、确立专题要素的分类系统 三、遥感图像处理 1、遥感图像处理方法的选择 、 (1)光学处理法 常用的方法有:假彩色合成(加色法、减色法)、等密度分割、图像相关掩膜。 (2)数字图像校正 方法:辐射校正、几何校正 (3)数字图像增强的方法: A. 对比度变换 B.空间滤波:是指在图像空间或空间频率对输入图像应用若干滤波函数而获得改进的输出图像的技术。 空间滤波 常用的空间滤波的方法有:平滑和锐化。 :平滑和锐化 平滑:图像中出现某些亮度变化过大的区域,或出现不该有的亮点(“噪声”)时,采用平滑的方法可以减小变化, 平滑 使亮度平缓或去掉不必要的“噪声”点。具体方法有:均值平滑、中值滤波 均值平滑、 均值平滑 锐化:为了突出图像的边缘、线状目标或某些亮度变化率大的部分,可采用锐化方法。常用的几种方法:罗伯特 锐化 梯度、索伯尔梯度、拉普拉斯算法、定向检测 C.彩色变换 彩色变换就是将黑白图像转换成彩色图像的方法。主用的方法有单波段彩色变换、多波段彩色变换、 彩色变换: 彩色变换 HLS 变换等。 D.图像运算 E.多光谱变换 多光谱变换: 多光谱变换 两幅或多幅单波段影像,完成空间配准后,通过一系列运算,可以实现图像增强,达到提取某些信息 或去掉某些不必要信息的目的。方法:差值运算、比值运算 多光谱变换就是指用某种变换把信息集中于较少(一般为 3 个)波段内。常用的方法有:主成分分 主成分分 变换) 缨帽变换( 、缨帽变换 变换) 、沃尔什—哈达玛变换、傅立叶变换、植被指数变换、斜变 析(K-L 变换) 缨帽变换(K-T 变换) 、 换、余弦变换等等。 主成分分析( 变换) 主成分分析(K-L 变换)的主要特性有二: a.能够把原来多个波段中的有用信息尽量集中到数目尽可能少的新的组分图像中。 b.还能够使新的组分图像中的组分之间互不相关,也就是说各个组分包含的信息内容是不重叠的。 K-L 变换的缺点 的缺点是不能排除无用以至有碍的噪声和干扰因素。 的缺点 缨帽变换( 变换) :它是 Kauth 和 Thomas(1976 年)通过分析 MSS 图像反映农作物或植被生长过程的数据结 缨帽变换(K-T 变换) 构后,提出的正交线性变换。 K-T 变换的特点:a.能够把原来多个波段中的有用信息压缩到较少的新的波段内。 b.要求新波段正交或近似正交。 c.分离或削弱无用的干扰因素。 (4)多源信息复合 ) 四、遥感图像的判读 1、遥感图像目视判读 遥感图像的判读标志: 遥感图像的判读标志:是指图像上反映出的地物和现象的图像特征,是以深浅不同的黑白色调(灰阶) 或不同的色彩构成的各种各样图形现象出来的。 遥感图像的判读标志可概括为:颜色、形状、空间位置 :颜色、形状、 颜色——色调、 颜色、 颜色——色调、 颜色、阴影 ——色调 形状——形状、纹理、 大小 、 形状 、 位置——位置、图型、相关布局 位置 2、目视解译的方法 (1)直接判读法(2)对比分析法 (3)信息复合法(4)综合推理法(5)地理相关分析法 (1)直接判读法:是根据遥感影像目视判读直接标志,直接确定目标地物属性与范围的一种方法。 直接判读法 例如,在可见光黑白像片上,水体对光线的吸收率强,反射率低,水体呈现灰黑到黑色,根据色调可以从影像 上直接判读出水体,根据水体的形状则可以直接分辨出水体是河流,或者是湖泊。在 MSS4、5、7 三波段假彩色影 像上,植被颜色为红色,根据地物颜色色调,可以直接区别植物与背景。 (2)对比分析法 此方法包括同类地物对比分析法、空间对比分析法和时相动态对比法。 A.同类地物对比分析法 同类地物对比分析法是在同一景遥感影像上,由已知地物推出未知目标地物的方法。 同类地物对比分析法 B.空间对比分析法 空间对比分析法是根据待判读区域的特点,选择另一个熟悉的与遥感图像区域特征类似的影像,将两个影像相互 空间对比分析法 对比分析,由已知影像为依据判读未知影像的一种方法。 C.时相动态对比法,是利用同一地区不同时间成像的遥感影像加以对比分析,了解同一目标地物动态变化的一种解 .时相动态对比法 译方法。 (3)信息复合法:利用透明专题图或者透明地形图与遥感图像重合,根据专题图或者地形图提供的多种辅助信息, 信息复合法 识别遥感图像上目标地物的方法。 (4)综合推理法:综合考虑遥感图像多种解译特征,结合生活常识,分析、推断某种目标地物的方法。 综合推理法 (5)地理相关分析法:根据地理环境中各种地理要素之间的相互依存,相互制约的关系,借助专业知识,分析推断 地理相关分析法 某种地理要素性质、类型、状况与分布的方法。 3、目视解译的基本步骤 (1)准备工作 •选择合适波段与恰当时相的遥感影像 •相关专题地图的准备 •工具材料准备 •熟悉地理概况 •确定专题分类系统 (2)室内初步解译与判读区的野外考察 室内建立初步判读标志 •初步解译的主要任务是掌握解译区域特点,确立典型解译样区,建立目视解译标志,探索解译方法,为全面解译 奠定基础。 •在室内初步解译的工作重点是建立影像解译标准,为了保证解译标志的正确性和可靠性,必须进行解译区的野外 调查。野外调查之前,需要制定野外调查方案与调查路线。 野外考察验正判读标志 在野外调查中,为了建立研究区的判读标志,必须做大量认真细致的工作,填写各种地物的判读标志登记表, 以作为建立地区性的判读标志的依据。在此基础上,制订出影像判读的专题分类系统,根据目标地物与影像特征之 间的关系,通过影像反复判读和野外对比检验,建立遥感影像判读标志。 (3)室内详细判读 在详细判读过程中,要及时将解译中出现的疑难点、边界不清楚的地方和有待验证的问题详细记录下来,留待野 外验证与补判阶段解决。 (4)野外验证与补判 野外验证指再次到遥感影像判读区去实地核实解译的结果。主要内容包括两方面: •检验专题解译中图斑的内容是否正确。 •验证图斑界线是否定位准确,并根据野外实际考察情况修正目标地物的分布界线。 (5)目视解译成果的转绘与制图 遥感图像目视判读成果,一般以专题图或遥感影像图的形式表现出来。 五、遥感图像计算机解译 图像分类方法 监督分类 1.(1) 最小距离法 最小距离法(minimum distance classifier) •以特征空间中的距离作为像素分类的依据。 •在遥感图象上对每一类别选取一个具有代表意义的统计特征量;计算待分像元与已知类别之间的距离,将其归 属于距离最小的一类。 •最小距离分类法原理简单,分类精度不很高,但计算速度快,它可以在快速浏览分类概况中使用。 (2) 分级切割分类法 分级切割分类法(multi-level slice classifier) 多级切割法(multi-level slice classifier)是根据设定在各轴上的值域分割多维特征空间的分类方法。 (3) 特征曲线窗口法 •特征曲线窗口法分类的依据是:相同的地物在相同的地域环境及成像条件下,其特征曲线是相同或相近的,而不 同地物的特征曲线差别明显。 •特征曲线窗口法分类的效果取决于特征参数的选择和窗口大小。各特征参数窗口大小的选择可以不同,它要根据 地物在各特征参数空间里的分布情况而定。 (4) 最大似然法 最大似然法(maximum likelihood classifier) •地物图象可以以其光谱特征向量 X 作为亮度在光谱特征空间中找到一个相应的特征点,来自于同类地物的各种特 征点在特征空间中将形成一种属于某种概率分布的集群。 • 判别某一特征点类属的合理途径是对其落进不同类别集群中的条件概率进行比较, 相应于条件概率大的那个类别, 应是该特征点的归属。 2、监督分类步骤 (1)选择有代表性的训练场,确定各类地物的范围界线。 (2)对各类地物光谱值统计,提取各地物的数值特征。 (3)确定分类判别函数:最小距离法、马氏距离法等。 (4)分类参数、阈值的确定;各类地物像元数值的分布都围绕一个中心特征值,散布在空间的一定范围,因此需要 给出各类地物类型阈值,限定分布范围,构成分类器。 (5)分类:利用分类器分类。 (6)检验:对初步分类结果精度进行检验(分类精度、面积精度、位置精度等) 对分类器进行调整。 (7)待分类影象分类。 (8)分类结果的矢量化。 非监督分类 前提:遥感影象上同类物体在同样条件下具有相同的光谱信息特征,依靠影象上不同类地物光谱信息(或纹理信息) 进行特征提取,再统计特征的差别来达到分类的目的,最后对已分出的个别类进行确认。 非监督分类方法是在没有先验类别(训练区)作为样本的条件下,即事先不知道类别特征,主要根据像元间相似度 非监督分类方法 的大小进行归类合并(将相似度大的像元归为一类)的方法。主要有: (1)分级集群法(2)动态聚类法 第二节 从影像生成专题地图一、目视解释的专题地图(1)影像预处理 包括遥感数据的图像校正、图像增强,有时还需要实验室提供监督或非监督分类的图像。(2)目视解译 经过建立影像判读标志,野外判读,室内解译,得到绘有图斑的专题解译原图。(3)地图概括 按比例尺及分类的要求,进行专题解译原图的概括。专题地图需要正规的地理底图,所以地图概括的同时也进行图斑向地理底图的转绘。(4)地图整饰 在转绘完专题图斑的地理底图上进行专题地图的整饰工作。二、数字图像处理的专题制图(1)影像预处理 同目视解译类似,影响经过图像校正、图像增强,得到供计算机分类用的遥感影像数据。(2)按专题要求进行影像分类。(3)专题类别的地图概括 包括在预处理中消除影像的孤立点,依成图比例尺对图斑尺寸的限制进行栅格影像的概括。(4)图斑的栅格/矢量变换。(5)与地理底图叠加,生成专题地图。三、遥感系列制图系列地图,简单说就是在内容上和时间上有关联的一组地图。我们所讨论的系列地图,是指根据共同的制图目的,利用同一的制图信息源,按照统一的设计原则,成套编制的遥感专题地图。地理底图的编制程序:采用常规的方法编制地理底图时,首先选择制图范围内相应比例尺的地形图,进行展点、镶嵌、照像,制成地图薄膜片,然后将膜片蒙在影像图上,用以更新地形图的地理要素。经过地图概括,最后制成供转绘专题影像图的地理底图,其比例尺与专题影响图相同。遥感系列制图的基本要求1.统一信息源2.统一对制图区域地理特征的认识3.制定统一的设计原则4.按一定的规则顺序成图
论文原文:
YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下,解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比:
如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测,那么yolo则是更进一步,将 目标区域预测 与 目标类别判断 整合到单个神经网络模型中。各检测算法结构见下图:
每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:
其中如果有object落在一个grid cell里,第一项取1,否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。
每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。即SxS个网格,每个网格除了要预测B个bounding box外,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,即一个网格只预测一组类别而不管里面有多少个bounding box,而confidence信息是针对每个bounding box的。)
举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:
在test的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:
等式左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。
得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS(非极大值抑制non-maximum suppresssion)处理,就得到最终的检测结果。
1、每个grid因为预测两个bounding box有30维(30=2*5+20),这30维中,8维是回归box的坐标,2维是box的confidence,还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间,w,h除以图像的width和height也归一化到0-1之间。
2、对不同大小的box预测中,相比于大box预测偏一点,小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题,作者用了一个比较取巧的办法,就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解,小box的横轴值较小,发生偏移时,反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。
3、一个网格预测多个box,希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大,就负责哪个。这种做法称作box predictor的specialization。
4、损失函数公式见下图:
在实现中,最主要的就是怎么设计损失函数,坐标(x,y,w,h),confidence,classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足:
解决方法:
只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。
作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段,采用网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5 accuracy为0.88(ImageNet2012 validation set),与GoogleNet模型准确率相当。
然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224×224->448×448)。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation,其它层使用 leaky rectified linear。
作者采用sum-squared error为目标函数来优化,增加bounding box loss权重,减少置信度权重,实验中,设定为\lambda _{coord} =5 and\lambda _{noobj}=0.5 。
作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮,batch size为64,动量为0.9,学习速率延迟为0.0005。Learning schedule为:第一轮,学习速率从0.001缓慢增加到0.01(因为如果初始为高学习速率,会导致模型发散);保持0.01速率到75轮;然后在后30轮中,下降到0.001;最后30轮,学习速率为0.0001。
作者还采用了dropout和 data augmentation来预防过拟合。dropout值为0.5;data augmentation包括:random scaling,translation,adjust exposure和saturation。
YOLO模型相对于之前的物体检测方法有多个优点:
1、 YOLO检测物体非常快
因为没有复杂的检测流程,只需要将图像输入到神经网络就可以得到检测结果,YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且,YOLO的mAP是之前其他实时物体检测系统的两倍以上。
2、 YOLO可以很好的避免背景错误,产生false positives
不像其他物体检测系统使用了滑窗或region proposal,分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息,因此YOLO在检测物体时能很好的利用上下文信息,从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比,YOLO的背景错误不到Fast-R-CNN的一半。
3、 YOLO可以学到物体的泛化特征
当YOLO在自然图像上做训练,在艺术作品上做测试时,YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征,从而迁移到其他领域。
尽管YOLO有这些优点,它也有一些缺点:
1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。
2、YOLO容易产生物体的定位错误。
3、YOLO对小物体的检测效果不好(尤其是密集的小物体,因为一个栅格只能预测2个物体)。
目标检测(object detection)是计算机视觉中非常重要的一个领域。在卷积神经网络出现之前,都利用一些传统方法手动提取图像特征进行目标检测及定位,这些方法不仅耗时而且性能较低。而在卷积神经网络出现之后,目标检测领域发生了翻天覆地的变化。最著名的目标检测系统有RCNN系列、YOLO和SSD,本文将介绍RCNN系列的开篇作RCNN。 RCNN系列的技术演进过程可参见 基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN 。 目标检测分为两步:第一步是对图像进行分类,即图像中的内容是什么;第二步则是对图像进行定位,找出图像中物体的具体位置。简单来说就是图像里面有什么,位置在哪。 然而,由于不同图片中物体出现的大小可能不同(多尺度),位置也可能不同,而且摆放角度,姿态等都可以不同,同时一张图片中还可以出现多个类别。这使得目标检测任务异常艰难。上面任务用专业的说法就是:图像识别+定位两个不同的分支分别完成不同的功能,分类和定位。回归(regression)分支与分类分支(classification)共享网络卷积部分的参数值。 还是刚才的分类识别+回归定位思路。只是现在我们提前先取好不同位置的框,然后将这个框输入到网络中而不是像思路一将原始图像直接输入到网络中。然后计算出这个框的得分,取得分最高的框。 如上,对于同一个图像中猫的识别定位。分别取了四个角四个框进行分类和回归。其得分分别为0.5,0.75,0.6,0.8,因此右下角得分最高,选择右下角的黑框作为目标位置的预测(这里即完成了定位任务)。 这里还有一个问题——检测位置时的框要怎么取,取多大?在上面我们是在257x257的图像中取了221x221的4个角。以不同大小的窗口从左上角到右下角依次扫描的话,数据量会非常大。而且,如果考虑多尺度问题的话,还需要在将图像放缩到不同水平的大小来进行计算,这样又大大增加了计算量。如何取框这个问题可以说是目标检测的核心问题之一了,RCNN,fast RCNN以及faster RCNN对于这个问题的解决办法不断地进行优化,这个到了后面再讲。 总结一下思路: 对于一张图片,用各种大小的框将图片截取出来,输入到CNN,然后CNN会输出这个框的类别以及其位置得分。 对于检测框的选取,一般是采用某种方法先找出可能含有物体的框(也就是候选框,比如1000个候选框),这些框是可以互相重叠互相包含的,这样我们就可以避免暴力枚举所有框了。讲完了思路,我们下面具体仔细来看看RCNN系列的实现,本篇先介绍RCNN的方法。 R-CNN相比于之前的各种目标检测算法,不仅在准确率上有了很大的提升,在运行效率上同样提升很大。R-CNN的过程分为4个阶段: 在前面我们已经简单介绍了selective search方法,通过这个方法我们筛选出了2k左右的候选框。然而搜索出的矩形框大小是不同的。而在AlexNet中由于最后全连接层的存在,对于图像尺寸有固定的要求,因此在将候选框输入之前,作者对这些候选框的大小进行了统一处理——放缩到了统一大小。文章中作者使用的处理方法有两种: (1)各向异性缩放因为图片扭曲可能会对后续CNN模型训练产生影响,于是作者也测试了各向同性缩放的方法。有两种方法: 此外,作者对于bounding box还尝试了padding处理,上面的示意图中第1、3行就是结合了padding=0,第2、4行结果采用padding=16的结果。经过最后的试验,作者发现采用各向异性缩放、padding=16的精度最高。 卷积神经网络训练分为两步:(1)预训练;(2)fine-tune。 先在一个大的数据集上面训练模型(R-CNN中的卷机模型使用的是AlexNet),然后利用这个训练好的模型进行fine-tune(或称为迁移学习),即使用这个预训练好的模型参数初始化模型参数,然后在目标数据集上面进行训练。 此外,在训练时,作者还尝试采用不同层数的全连接层,发现一个全连接层比两个全连接层效果要好,这可能是因为使用两个全连接层后过拟合导致的。 另一个比较有意思的地方是:对于CNN模型,卷积层学到的特征其实就是基础的共享特征提取层,类似于传统的图像特征提取算法。而最后的全连接层学到的则是针对特定任务的特征。譬如对于人脸性别识别来说,一个CNN模型前面的卷积层所学习到的特征就类似于学习人脸共性特征,然后全连接层所学习的特征就是针对性别分类的特征了。 最后,利用训练好的模型对候选框提取特征。 关于正负样本的问题:由于选取的bounding box不可能与人工label的完全相同,因此在CNN训练阶段需要设置IOU阈值来为bounding box打标签。在文章中作者将阈值设置为0.5,即如果候选框bounding box与人工label的区域重叠面积大于0.5,则将其标注为物体类别(正样本),否则我们就把他当做背景类别(负样本)。 作者针对每一个类别都训练了一个二分类的SVM。这里定义正负样本的方法与上面卷积网络训练的定义方法又不相同。作者在文章中尝试了多种IoU阈值(0.1~0.5)。最后通过训练发现,IoU阈值为0.3的时候效果最好(选择为0精度下降了4个百分点,选择0.5精度下降了5个百分点)。即当IoU小于0.3的时候我们将其视为负样本,否则为正样本。 目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。在实现边界回归的过程中发现了两个微妙的问题。第一是正则化是重要的:我们基于验证集,设置λ=1000。第二个问题是,选择使用哪些训练对(P,G)时必须小心。直观地说,如果P远离所有的检测框真值,那么将P转换为检测框真值G的任务就没有意义。使用像P这样的例子会导致一个无望的学习问题。因此,只有当提案P至少在一个检测框真值附近时,我们才执行学习任务。“附近”即,将P分配给具有最大IoU的检测框真值G(在重叠多于一个的情况下),并且仅当重叠大于阈值(基于验证集,我们使用的阈值为0.6)。所有未分配的提案都被丢弃。我们为每个目标类别执行一次,以便学习一组特定于类别的检测框回归器。 在测试时,我们对每个提案进行评分,并预测其新的检测框一次。原则上,我们可以迭代这个过程(即重新评估新预测的检测框,然后从它预测一个新的检测框,等等)。但是,我们发现迭代不会改进结果。 使用selective search的方法在测试图片上提取2000个region propasals ,将每个region proposals归一化到227x227,然后再CNN中正向传播,将最后一层得到的特征提取出来。然后对于每一个类别,使用为这一类训练的SVM分类器对提取的特征向量进行打分,得到测试图片中对于所有region proposals的对于这一类的分数,再使用贪心的非极大值抑制(NMS)去除相交的多余的框。再对这些框进行canny边缘检测,就可以得到bounding-box(then B-BoxRegression)。 参考: Rich feature hierarchies for accurate object detection and semantic segmentation. RCNN-将CNN引入目标检测的开山之作-晓雷的文章 基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN R-CNN 论文翻译
浅谈多旋翼无人机任务系统的优秀论文
前言: 随着无人机产品的不断增加,市场之间的竞争力,也逐渐的提升,对此本项目研究出了更适合于工业控制、自动化装备等领域产品的多旋翼无人机,产品不仅定位合理,同时与其他产品存在一定的差异,该任务系统,是指先进智能装备数据链的无人多旋翼任务,存在较高的能量利用效率、载荷运输性能,是其它无人机产品,在技术方面不能相比的;制定合理的市场规划,会给企业带来一定的经济效益。
1 多旋翼无人机定义概述
我们常称无人飞行载具,为无人飞机系统,主要是利用无线电智能遥控设备,以及自带的控制程序装置,对于不载人的飞机进行操控。其中广义的无人机,包括狭义无人机以及航模。
多旋翼飞行器,主要由动力系统、主体、控制系统组成,动力系统包括电机、动力、电子调速器、桨;主体部分包括机架、脚架、云台;控制系统包括由遥控接收器、遥控组成的手动控制;地面站,以及由主控、GPS、IMU、电子陀螺、LED显示屏组成的飞行控制器。其中四旋翼,是一种4输入6输出的欠驱动系统;通过PID、,鲁棒、模糊、非线性、自适应神经网络控制。近年来,对于系统的控制功能的研究趋势,为大荷载、自主飞行、智能传感器技术、自主控制技术、多机编队协同控制技术、微小型化等方向。其中一些关键技术为,数学模型的建立、能源供给系统、飞行控制算法、自主导航智能飞行。
2 控制系统改进发展阶段
多旋翼无人飞行器的控制系统,最初是由惯性导航系统,借助了微机电系统技术,形成了EMES惯性导航系统;经过对于EMES去噪声的研究,有效的降低了其传感器数据噪音的问题,最后经过等速度单片机、非线性系统结构的研究、应用,最终在2005年,制作出了性能相对稳定的多旋翼无人机自动控制飞行器。对其飞行器的评价,可从安全性、负载、灵活性、维护、扩展性、稳定性几方面要素进行分析。具有体积小、重量轻、噪音小、隐蔽性强、多空间平台使用、垂直起降,以及飞行高度不高、机动强、执行任务能力强的特点;在结构方面,不仅安全性高、易于拆卸维护、螺旋桨小、成本低、灵活控制的特点。
3 技术原理
3.1系统组成
无人多旋翼任务系统,总体技术方案框图如图1所示;如图所示,无人多旋翼任务系统,由无人机、地面工作站构成。无人机,由多旋翼无人机、任务载荷组成;地面工作站,由数据链通信单元、工业控制电脑、飞行控制摇杆等组成。
3.2系统技术原理
3.2.1多旋翼无人机,通过对于螺旋桨微调的推力,实现稳定的飞行姿态控制、维持。经过上述,对于多旋翼无人机、常规直升机、固定翼飞机的对比,可以明显的看出,多旋翼无人机,在任务飞行方面,具有多能量的优势,从而更好的执行完成飞行任务,改善了飞行姿态维持,消耗大量能量的缺陷,从而更好的保证了其能量利用率,直接产生续航时间、载荷运输性能的提升;在结构方面,做了大量的简化,省去了传动机构,使其运行噪音、故障概率、维护成本大大的降低。
3.2.2无人机,与地面工作站之间的通信,通过设备数据链实现连接,起到通信中介的作用,同好也是无人机、地面工作站之间,实现地空信息交换的重要桥梁环节。以往无人机,对于地空信息的转换连接,只是普通的点对点通信,收到信号传输距离的影响,性能发挥受到严重的影响,只能实现一些简单遥控数据信号的传输。
但是本项目,对于无人多旋翼任务系统的研究,是通过数据链协议MAVLink的研究后,将其合理的嵌入到控制核心、地面数据链的ARM平台中,有效的改善了以往低空信息传输环节存在的问题,将其遥测、遥信、遥控、遥调、遥视这五遥很好的进行了统一,保证了通信之间的无障碍,从根本上解决了无人机和地面工作站的数据通信问题。其中涉及到的.五遥;其中遥测,是指对于远方的电压、电流、功率、压力、温度等模拟量进行测量;其中遥信,是指对于远方的电气开关、设备,以及机械设备的工作、运行等状态进行监视;遥控,是指对于远方电气设备、电气机械化装置工作状态的控制、保护;遥调,是指对于远方所控设备的工作参数、标准流程等进行设定、调整;遥视,是指对于远方设备的安全运行状态的监视、记录。
3.2.3传统的无人机,在飞行时需要通过人工对于遥控器的操作,对其飞行姿态进行的控制,体现出其自动程序的不完善,功能单调等缺陷。但是本项目对于无人机的研究,在地面工作站,通过飞行任务规划软件的配套,有效的改善了以往功能单一的缺点,直接增加了其功能性。其中飞行任务规划软件,具备GoogleMap高速API接口,实现对于无人机飞行航线,在三维地图上的简易规划,同时也能对其航线进行启动,使其实现自动巡航、执行飞行任务、返航等操作。
4 技术关键点及创新点
4.1技术关键点:
4.1.1地空信息的的数据通信。
先进智能装备数据链协议MAVLink的应用,能够对其所有数据进行有效的整合,并全部归纳在数据链路中,整合五遥操作,有效的降低了多种通信制式、通信模块存在等方面的问题,提高了通信效率,保证了通讯功能得以有效发挥。
4.1.2解决飞行姿态操控问题
嵌入式操作系统,在ARM处理器平台上的应用,加上陀螺仪等传感器、卡尔曼滤波等先进算法,从而更好的保证了控制系统的功能增加,除此之外,不仅实现了无人操作飞行,在飞行操纵方面,也有效的降低了能耗,增加了能量利用率。
4.1.3在工业控制领域应用的扩展
本项目以同一载具+多种载荷的建设、研究思路,针对于型号相同的多旋翼飞行器,设计一样的数据、电气、机械接口的任务载荷,实现快速更换载荷,使其飞行任务之间,能够良好、稳定的切换、衔接,保证该系统的实用性,同时也减少了任务执行的成本。
4.1.4增强地面工作站功能
通过C/S架构、C#语言、.net平台、三维GoogleMap、SQL数据库,以及地面任务规划软件、分析数据分析软件,从而更好的增强地面工作站的功能,以及自动化、智能化的程度,更好的为用户操作,带来更多的便利。
4.2项目的技术创新性
4.2.1在无人机、地面站,在植入数据链MAVLink的同时,加强整体系统功能的改进,有效的实现了五遥的综合统一。
4.2.2卡尔曼滤波、四元数算法,加上嵌入式ARM平台,对其飞行姿态实现有效控制。
4.2.3同一载具+多种载荷思路的研究,实现了无人机,对任务执行模式的有效转换。
4.2.4同时地面任务规划软件、分析数据分析软件的应用,提高了系统的控制功能,以及系统智能化程度。
5 总结
综上所述,通过对于无人多旋翼任务系统的分析,发现我国针对于此方面的研究,仍存在很多不完善的地方,该项目通过C/S架构、C#语言、先进智能装备数据链、分析数据分析软件等,照比以往的无人机飞行器,在系统功能改进方面,实现了遥测、遥信、遥控、遥调、遥视的统一;在任务执行模式方面,实现了灵活转换;在飞行姿态方面,实现了智能操控;是在已有多旋翼飞控技术的基础上,有效的规避了其以往的缺陷,同时自主飞行控制软件编程,这种飞控任务的提供,有效的实现了飞行中,自主导航智能飞行。
无人机具有视域广、灵活机动、飞行高度可控、定点与巡航相结合的时空观测连续等特点,开展基于无人机的大气污染观测研究。利用无人机装载监测设备进行空气质量观测及污染物扩散研究,通过观测城市近地面大气边界层(0-1000米)垂直方向和水平方向的大气污染物浓度变化规律,分析污染的分布规律及生效机制,尤其是垂直和水平层面的交互作用机理,研究对象与人类生活密切相关的0-1000米垂直空间进行大气污染观测(PM2.5、臭氧、氮氧化物、黑炭等多种污染物)与数据采集。 该研究 探索 性地搭建无人机装载微型设备的空中数据采集平台,以实现不同高度上的大气污染数据采集; 探索 典型天气条件下(如灰霾天气前后)细颗粒物及其前体物的水平和垂直分布与变化特征,分析不同高度上污染物的组分及其变化特征,揭示污染物的输送过程规律,并解析污染形成的原因以及细颗粒物的来源。同时也为建立模型、环境评估和预测提供技术支撑。
无人机是利用无线电遥控设备和自备的程序控制装置操纵的不载人飞机。下面是我为大家精心推荐的无人机应用技术论文,希望能够对您有所帮助。
无人机航测技术的应用分析
【摘 要】以生产项目为例,以无人机航测的技术流程为主线,介绍了无人机航测技术方面的应用分析。
【关键词】无人机、航测技术
【Abstract】Production project as an example, the unmanned aerial technology process, introduced the UAV aerial application analysis.
【Key woerds】UAV、aerial surveying technology
中图分类号:V279+.2文献标识码:A 文章编号:
0 引言
无人机航测遥感技术是继卫星遥感、飞机遥感之后发展起来的一项新型航空遥感技术,在应急测绘保障、国土资源监测、重大工程建设等方面得到广泛应用。它是一种机动灵活、可以实现快速响应的一种航测技术。但也存在影像重叠度不规则、像幅小、影像倾角大、旋偏角大,影像有明显畸变等问题,这些情况都对现有无人机航测技术提出了挑战。
本文从生产案例出发,以无人机航测技术为主线,对生产过程中无人机航测出现的一些问题进行了分析探讨。
1 生产实践
1.1主要技术依据
《无人机航摄系统技术要求》(CH/Z3002-2010);
《低空数字航空摄影规范》(CH/Z3005-2010);
《低空数字航空摄影测量内业规范》(CH/Z 3003-2010);
《低空数字航空摄影外业规范》(CH/Z 3004-2010) ... ...
1.2 数据源及预处理
1.2.1 数据源
本测区选用无人机航空摄影获取的真彩色影像,航摄面积为10平方公里。航摄仪采用Canon EOS 5DMarkⅡ,焦距为:35mm,相幅大小为:5616×3744,像元分辨率为6.41um。影像地面分辨率为0.2米。
1.2.2遥感影像预处理
无人机航空摄影采用的相机为非量测型相机,因此,在进行空中三角测量恢复影像空中姿态时,需要对相机进行像片畸变差改正。(相机畸变改正在四维公司检校完成)
1.3 无人机航测总体作业流程
1.4无人机航空摄影
本次无人机航摄分两个架次进行,由GPS领航数据计算相对飞行高度。飞行质量和影像良好,影像清晰度高、色彩均匀、饱和度良好,能够表达真实的地物信息,可以满足1:2000成图要求。
像片航向重叠度为75%,旁向重叠一般为35%-45%,旋偏角一般控制在12度以下。
1.5 像片控制测量
1.5.1 像控点精度要求
像控点对最近基础控制点的平面位置中误差不大于0.2米,高程中误差不大于0.2米。
1.5.2 像控点布点方案
项目布点方案确定为双模型布点,全部布设为平高点。
1.5.3 像控点测量
在像控测量之前,首先对测区内收集到的已知控制点进行联测,检核控制点情况;为满足后续像控测量,联测已知点的同时加密了2个控制点。联测采用GPS静态相对定位方式施测,采用边连式的布网形式。全网共联测已有已知点4个,新设控制点2个,观测时具体技术参数依据规范,像控点采用GPS实时动态定位(RTK)的方法进行测量,满足要求。
1.6 空中三角测量
本项目采用Virtuozo工作站进行空三加密,根据航飞及影像分布情况,将空三区域分为两个加密区域网采用自动与手动相结合的方式进行空三加密,即采用自动匹配进行像点量测,剔除粗差。人工调整直至连接点符合规范要求,检查点平面中误差为0.3米,高程中误差为0.17米,最终加密成果符合1:2000数据采集要求。
1.7 数据采集
在空三完成后,利用空三成果进行单模型定向时我们发现有模型无法定向的情况,第一架次无法建立的模型有29个,占总模型数的4%。第二架次有67个无法建立的模型占总模型数的9%。主要原因为无人机航摄姿态不稳定导致的飞行倾角、旋偏角过大,航线弯曲、像片比例不一致等现象都是导致单模型定向精度差的原因。考虑到1:2000地形图精度要求,我们提出了如下解决方案:在测图定向超限点的周围进行野外实测用来检核分析数据并进行必要的修正。
1.8 项目精度报告
根据1:2000精度要求对测绘产品检进行了精度的统计,统计了3幅地形图,其中高程精度中误差最大为0.36米,最小为0.27米,从统计的结果看,粗差率比较高,有的达到了5%,平面精度中误差为0.75米。
2 结 论
(1)无人机航空摄影测量技术应用于地形图的生产存在不确定性,比如,区域网整体加密精度评定良好,但单模型定向精度存在超限情况,在测图过程中表现为测图定向点和立体模型套合差大、接边误差大等,可以通过外业实测进行补充测量、验证。
(2)利用无人机航测进行航空摄影测量时,应采用试验区的作业方法,即在确定布点方案前选取一定面积的试验区进行布点方案试验,分析精度指标后确定作业方案。
(3)目前,无人机航测技术主要应用于载人飞机航测技术的补充方面,如多块小面积、危险场所、远离机场或没有可供其起降场地的区域,在载人机不便或无法完成的情况下,由无人机来完成。
参考文献:
[1] 范承啸,韩俊,熊志军,赵毅。 无人机遥感技术现状与应用[J] 测绘科学 2009,34(5):214-215;
[2] 崔红霞,李杰,林宗坚,储美华。非量测数码相机的畸变差检测研究[J] 测绘科学2005,30(1):105-107;
[3] 连镇华。无人机航摄相片倾角对立体高程扭曲的影响分析[J] 地理空间信息2010,8(1):20-22;
作者简介:徐锦前(1982-),男,辽宁铁岭人,工程师,主要从事摄影测量和地理信息系统建库等测绘工作。
点击下页还有更多>>>无人机应用技术论文
无人机会携带一个空气收集器。通过对空气的有效收集,然后进行分析测试,得出空气质量报告的结论,可以更有效的通过实例监测达到理想的效果。
(部分)张冬至,胡国清,夏伯锴,基于模态辨识的原油含水率智能组合测量模型[J],华南理工大学学报,2009, Vol.37, pp73~78郭强,吕浩杰,胡国清.新型接触式电容压力传感器[J].仪表技术与传感器,2008, No.3,1-3.黄玉程; 胡国清; 吴雄英; 刘文艳; 人脸图像边缘检测的方法研究和应用[J], 计算机工程, Vol. 32, Sep. 20, 2006, pp: 220-221, (EI收录)黄玉程,胡国清,吴雄英,刘文艳,人脸识别系统中图像噪声去除方法研究[J],微型计算机信息,Vol. 12, 2005, pp: 187~189, 40.胡国清,刘文艳,工程控制理论[M],北京,机械工业出版社,2004, 3陈广文, 许高攀,胡国清,静电式微开关硅悬臂梁的变形分析[J],传感技术,2001年20卷第12期,pp29~31许高攀,陈广文,胡国清, 微机电系统(MEMS)技术及其动态[J]。压电与声光,2001.Vol.5. pp: 34~37高攀,陈广文,胡国清,双面接触电容压力传感器的设计及制造工艺流程[J],仪表技术与传感器,2001年, No.9, PP33~35刘文艳,胡国清,陶瓷液压阀的应力计算及分析[J],机械工程学报 2000, Vol.9 PP: 44~47 (EI 收录)胡国清, 机电控制工程基础与应用[M](专著46万字, 独立撰写), 机械工业出版社, 1997年8月.胡国清等,张光函,吴持恭,SIMPLE方法的改进[J],四川联合大学学报, Vol.1, No.3, 1997,pp: 72~75; (EI 收录)胡国清等,张光函,吴持恭,混合充分法研究[J], 四川联合大学学报, Vol.1, No.3, 1997, pp: 61~63 (EI 收录)胡国清,张光函,吴持恭,LDA和k¾e紊流模型研究液压集成块流流场[J], 成都科技大学学报1996, No.1, pp: 64~71, (EI 收录)
HED 论文: Holistically-Nested Edge Detection HED(Holistically-Nested Edge Detection)是一个端到端的边缘检测网络,特点是提取不同尺度的特征,和多输出的多监督及融合。 HED 在产业上应用比较广泛。 Holistic:指该方法的预测和训练都是端到端的;Neted:指通过多层级的输出,渐进地优化最终结果。作者的命名逻辑... 看这篇边缘检测的论文主要是想知道边缘检测的损失函数应该怎么设计。我本来的想法是直接像语义分割一样,用 IoU ,后来想想不对,如果一个边缘检测结果是 GT 平移了几个像素,那它仍可称得上好,但它的 IoU 却会骤降至和随机结果差不了多少。如果对边缘检测问题用 IoU 做优化对象,恐怕在优化时根本找不到可以下降的梯度方向。边缘检测的任务是提取图像内每个对象的边界,而排除对象的纹理。HED 被设计以解决两个问题:(1)对图像整体的训练和预测,End-to-end;(2)多尺度的特征提取。端到端很容易实现,因为边缘检测任务的输入和输出都是一张图片,只是通道数不同,很明显可以应用一个全卷积的网络来实现。HED 的骨干网络采用 VGG,并将 VGG 后面的全连接层结构全部移除,只保留卷积层。一些曾被应用过或正在被应用的多尺度特征提取方法。 (a) 多通路并行网络,通过不同的网络深度得到不同的感受野,输出聚合在一起; (b) 跳线连接,将来自不同卷积层的输出通过跳线连接在一起,作为特征提取结果(实际上跳线连接也可以在各个卷积层之间连接,而不仅限于到输出层,比如 U-Net 结构); (c) 同一个网络,采用不同尺寸的输入; (d) 不同深度的网络完全分立(这个方法感觉最拉跨,各个尺度上的特征没有相关性,也没听说过有人这么搞); (e) HED 提出的结构,在卷积网络的不同深度引出“侧输出”,将这些侧输出聚合成最终输出(和 (b) 的不同在于每个侧输出都能被监督并进行反向传播,这里应用了中继监督的思想,也是一个很泛用的做法)。这篇文章也用了中继监督,之前看的 Stacked Hourglass 也是。不过 Stacked Hourglass 的侧输出是还要被输入到下个特征提取网络里继续 refine 的,旨在迭代地优化输出结果。 HED 的侧输出和 GoogLnet 等一些常见的侧输出比较像,前面也说了,浅层的特征保留了更多的信息,但是相对而言感受野更小,那么 HED 就取多个不同深度的特征,分别在这些位点设置输出层。具体地,HED 在每个 VGG 内尺寸的特征图上引出一个卷积层作为侧输出层。HED 将边缘检测任务归纳为对每个像素点的二分类任务——“边缘”和“非边缘”。对于 HED 的单个输出而言,其损失函数为所有像素点的二分类损失函数的和,另外,由于边缘占的像素总数一般都会少于非边缘,所以实际是边缘的像素提供的二分类损失函数会乘以一个更大的权重,以进行正负样本平衡。HED 整体的损失函数就是它所有输出的损失函数的加权和。 转化成数学语言就是:其中 指特征提取网络(VGG)的权重, 指 HED 第 层输出的输出层权重, 为平衡每层输出为最终损失贡献的系数, 为平衡正负样本的系数, 和 分别指代边缘像素和非边缘像素, 为像素 输出的置信度。 上面的损失函数是针对每个侧输出进行优化,HED 的最终输出是每个侧输出按照一定的权重加总得到的融合输出,这些权重是通过训练学习到的,而非人为设定的。 融合输出的损失函数如下:其中融合输出 , 是每个侧输出在融合时的权重, 计算输出和 GT 之间的距离,这里采用交叉熵函数。 整个模型在训练时的优化目标权重为:可以看到,最终的损失函数中存在一定的冗余,由于融合输出是由侧输出得到的,侧输出似乎被不止一次地惩罚了。不过,先不论这种冗余是不是必要的,据作者言,只对融合输出进行惩罚得到的效果是不够好的,因为模型总会区域学习更大尺度上的特征。 HED 的损失函数是一种很直接的思路,不过任然有这样的问题:当一个被预测为“边缘”的像素点实际上是“非边缘”时,不管它和 GT 离得有多近,体现在损失函数上,都和一个差 GT 十万八千里的像素点没有区别。这种设计——就我个人的理解——会让损失函数的梯度出现大面积的平坦区域,梯度下降难以工作。但目前的工作似乎都是在用交叉熵作为损失函数,虽然今年也提出了 G-IoU、D-IoU 等将 IoU 调整后作为损失函数的方法,但是限于数学表达上的困难,目前只能应用于矩形边界框,而不能应用于像素集分割。
本教程将教你如何: ( 1 )实施图像边缘检测算法。 导言 边的特点,因此,边界问题,根本的重要性在图像处理中。在图像的边缘地区,强度强的反差?猛增强度从一个像素的下一个。边缘检测的图像大大减少了大量的数据,并过滤掉无用的信息,同时保持重要的结构性能的形象。这也是我在索贝尔和拉普拉斯边缘检测教程,但我只是想再次强调这一点的,为什么您要检测的边缘。 图像边缘检测算法是众所周知的许多人视为最佳边缘检测。精明的意图是要加强许多边缘探测器已经在的时候,他开始了他的工作。他很成功地实现他的目标和他的思想和方法中可以找到他的论文“计算方法的边缘检测” 。在他的文件中,他遵循的标准清单,以改善目前的边缘检测方法。第一个也是最明显的错误率低。重要的是,发生在图像边缘不应错过的,没有任何反应,非边缘。第二个标准是,边缘点很好地本地化。换言之,之间的距离边缘像素作为探测器发现和实际边缘要在最低限度。第三个标准是,只有一个回应单一优势。这是第一次实施,因为并没有实质性的2足以完全消除的可能性,多反应的优势。 根据这些标准, 图像边缘检测器的第一个平滑的图像,以消除和噪音。然后认定的形象,以突出地区梯度高空间衍生物。该算法然后轨道沿着这些地区和抑制任何像素这不是在最高( 非最大限度制止) 。梯度阵列现在进一步减少滞后。磁滞用来追踪沿其余像素,但没有压制。磁滞使用两个阈值,如果规模低于第一道门槛,这是设置为零(发了nonedge ) 。如果是规模以上的高门槛,这是一个优势。如果震级之间的2阈值,那么它设置为零,除非有一条从这个像素一个像素的梯度上述时刻。 第1步 为了落实图 像边缘检测算法,一系列步骤必须遵循。第一步是筛选出任何噪音的原始图像在寻找和发现任何边缘。而且因为高斯滤波器可以用一个简单的计算面具,它是专门用于在Canny算法。一旦合适的面罩已计算,高斯平滑可以用标准的卷积方法。阿卷积掩模通常远远小于实际的形象。因此,该面具是下跌的形象,操纵一个正方形像素的时间。较大的宽度高斯面具,较低的是探测器的敏感性噪音。定位误差检测边缘也略有增加的高斯宽度增加。高斯遮罩使用我在执行下面显示。 第2步 经过平滑的形象,消除噪音,下一步就是要找到优势兵力,采取梯度的形象。的Sobel算子进行二维空间梯度测量的形象。然后,大约绝对梯度幅度(边缘强度)各点可以找到。 Sobel算子的使用对3x3卷积口罩,一个梯度估计在X方向(栏)和其他的梯度估计的Y方向(行) 。它们如下所示: 的规模,或EDGE强度,梯度近似然后使用公式: | G | = | GX的| + |戈瑞| 第3步 寻找边缘方向是小事,一旦梯度在X和Y方向是众所周知的。然而,你会产生错误时sumX等于零。因此,在代码中必须有一个限制规定只要发生。每当梯度在x方向等于零,边缘的方向,必须等于90度或0度,取决于什么的价值梯度的Y方向等于。如果青的值为零,边缘方向将等于0度。否则边缘方向将等于90度。公式为寻找边缘方向是: 论旨= invtan (戈瑞/ GX的) 第4步 一旦边缘方向众所周知,下一步是与边缘方向为方向,可以追溯到在一个图像。因此,如果一个5x5像素图像对齐如下: x x x x x x x x x x x x 1 x x x x x x x x x x x x 然后,可以看到看像素的“ A ” ,只有4个可能的方向时,描述了周围的像素- 0度(水平方向) , 45度(沿积极对角线) , 90度(垂直方向) ,或135度(沿负对角线) 。所以,现在的边缘方向已经得到解决纳入其中四个方向取决于哪个方向,它是最接近于(如角被发现有3度,使零摄氏度) 。认为这是采取了半圆形和分裂成5个地区。 因此,任何先进的方向范围内的黄色范围( 0至5月22日& 157.5至180度)设置为0度。任何先进的方向下滑的绿色范围( 22.5至67.5度)设置为45度。任何先进的方向下滑的蓝色范围( 67.5至112.5度)设置为90度。最后,任何先进的方向范围内的红色范围( 112.5到157.5度)设置为135度。 第5步 在被称为边缘方向, 非最大限度制止目前适用。 非最大限度抑制是用来追踪沿边缘方向和制止任何像素值(套等于0 )这是不被认为是优势。这将让细线在输出图像。 第6步 最后,滞后是用来作为一种手段,消除条纹。裸奔是打破的边缘轮廓线的经营者造成的产量波动上面和下面的门槛。如果一个门槛, T1讯号适用于图像,并具有优势的平均强度相等的T1 ,然后由于噪声,将先进的情况下,逢低低于阈值。同样它也将延长超过阈值决策的优势看起来像一个虚线。为了避免这种情况,滞后使用2的门槛,高和低。任何像素的图像,其值大于表# t1推定为边缘像素,并标示为这种立即。然后,任何像素连接到这个边缘像素,并有一个值大于时刻还选定为边缘像素。如果您认为以下的优势,您需要一个梯度的时刻开始,但你不停止直到触及梯度低于表# t1 。