本文将对论文 Towards End-to-End Lane Detection: an Instance Segmentation Approach 进行解读。这篇论文是于2018年2月挂在arxiv上的。 文中提出了一种端到端的车道线检测算法,包括LaneNet和H-Net两个网络模型。其中,LaneNet是一种将 语义分割 和 对像素进行向量表示 结合起来的多任务模型,负责对图片中的车道线进行 实例分割 ;H-Net是由卷积层和全连接层组成的网络模型,负责预测转换矩阵H,使用转换矩阵H对属于同一车道线的像素点进行回归(我的理解是对使用坐标y对坐标x进行修正)。 根据论文中的实验结果,该算法在图森的车道线数据集上的准确率为,在NVIDIA 1080 TI上的处理速度为52FPS。 如图1所示,对于同一张输入图片,LaneNet输出实例分割的结果,为每个车道线像素分配一个车道线ID,H-Net输出一个转换矩阵H,使用转换矩阵H对车道线像素进行修正,并对修正的结果拟合出一个三阶的多项式作为预测得到的车道线。 论文中将实例分割任务拆解为 语义分割 和 聚类 两部分,如图2所示,LaneNet中decoder分为两个分支,Embedding branch对像素进行嵌入式表示,训练得到的embedding向量用于聚类,Segmentation branch负责对输入图像进行语义分割(对像素进行二分类,判断像素属于车道线还是背景)。最后将两个分支的结果进行结合得到实例分割的结果。 在设计语义分割模型时,论文主要考虑了以下两个方面: 1.在构建label时,为了处理遮挡问题,论文对被车辆遮挡的车道线和虚线进行了还原; 2. Loss使用 交叉熵 ,为了解决样本分布不均衡的问题(属于车道线的像素远少于属于背景的像素),参考论文 ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation ,使用了boundedinverse class weight对loss进行加权: 其中,p为对应类别在总体样本中出现的概率,c是超参数(ENet论文中是,使得权重的取值区间为[1,50])。 为了区分车道线上的像素属于哪条车道,embedding_branch为每个像素初始化一个embedding向量,并且在设计loss时, 使得属于同一条车道线的像素向量距离很小,属于不同车道线的像素向量距离很大 。 这部分的loss函数是由两部分组成:方差loss(L_var)和距离loss(L_dist): 其中,x_i为像素向量,μ_c为车道线的均值向量,[x]+ = max(0,x) 为了方便在推理时对像素进行聚类,在图4中实例分割loss中设置δ_d > 6*δ_v。 在进行聚类时,首先使用mean shift聚类,使得簇中心沿着密度上升的方向移动,防止将离群点选入相同的簇中;之后对像素向量进行划分:以簇中心为圆心,以2δ_v为半径,选取圆中所有的像素归为同一车道线。重复该步骤,直到将所有的车道线像素分配给对应的车道。 LaneNet是基于 ENet 的encoder-decoder模型,如图5所示,ENet由5个stage组成,其中stage2和stage3基本相同,stage1,2,3属于encoder,stage4,5属于decoder。 如图2所示,在LaneNet中,语义分割和实例分割两个任务 共享stage1和stage2 ,并将stage3和后面的decoder层作为各自的分支(branch)进行训练;其中, 语义分割分支(branch)的输出shape为W*H*2,实例分割分支(branch)的输出shape为W*H*N,W,H分别为原图宽和高,N为embedding vector的维度;两个分支的loss权重相同。 LaneNet的输出是每条车道线的像素集合,还需要根据这些像素点回归出一条车道线。传统的做法是将图片投影到鸟瞰图中,然后使用2阶或者3阶多项式进行拟合。在这种方法中,转换矩阵H只被计算一次,所有的图片使用的是相同的转换矩阵,这会导致地平面(山地,丘陵)变化下的误差。 为了解决这个问题,论文训练了一个可以预测转置矩阵H的神经网络H-Net, 网络的输入是图片 , 输出是转置矩阵H : 由图6可以看出,转置矩阵H只有6个参数,因此H-Net的输出是一个6维的向量。H-Net由6层普通卷积网络和一层全连接网络构成,其网络结构如图7所示: Curve fitting的过程就是通过坐标y去重新预测坐标x的过程:LaneNet和H-Net是分别进行训练的。在论文的实验部分,两个模型的参数配置如下所示: • Dataset : Tusimple • Embedding dimension = 4 • δ_v= • δ_d=3 • Image size = 512*256 • Adam optimizer • Learning rate = 5e-4 • Batch size = 8 • Dataset : Tusimple • 3rd-orderpolynomial • Image size =128*64 • Adam optimizer • Learning rate = 5e-5 • Batch size = 10
中国知网也好!万方数据也好都有例子!甚至百度文库都有!==================论文写作方法===========================论文网上没有免费的,与其花人民币,还不如自己写,万一碰到人的,就不上算了。写作论文的简单方法,首先大概确定自己的选题,然后在网上查找几份类似的文章通读一些相关资料,对这方面的内容有个大概的了解!参照你们学校的论文的格式,列出提纲,补充内容!实在不会,把这几份论文综合一下,从每篇论文上复制一部分,组成一篇新的文章!然后把按自己的语言把每一部分换下句式或词,经过换词不换意的办法处理后,网上就查不到了!最后,到万方等地进行检测,将扫红部分进行再次修改!祝你顺利完成论文!
上一篇文章中的LeNet-5是第一个广为人知的经典CNN网络,但那是20年前提出的CNN网络,最成功的案例是解决了手写数字识别的问题,当时被广泛应用于邮局/银行的手写邮编/支票数字自动识别系统。但直到2012年之前,在这14年间,CNN网络在图像识别领域的地位逐渐被其他分类模型如SVM取代。其中主要的原因有(事后诸葛亮......):
经过十几年的发展,以上制约CNN网络发展的主要限制因素一个个被解决,结果在2012年的ImageNet竞赛中,继LeNet-5之后的第二个经典CNN网络—AlexNet横空出世。以超出第二名10%以上的top-5准确率,勇夺ImageNet2012分类比赛的冠军,从此, 深度学习 重新回到人们的视野,并一发不可收拾。
下面从一些直观的数据比较1998年的LeNet-5和2012年的AlexNet的区别:
AlexNet网络结构如下图所示:
论文中由于使用了2块GPU,将网络结构布置成了上下两部分,看着很不方便,上图是在网上找的简易版本。
下面总结AlexNet的主要特点:
. 使引入Relu激活函数减轻深度网络难以训练的问题
关于CNN网络的激活函数的讨论,SigAI公众号这篇文章总结的挺好:
另外,下面这篇论文对深度网络难以训练的问题进行了分析:
之前的CNN网络,包括前面著名的LeNet-5,都使用tanh/Sigmoid作为激活函数,这类激活函数具有饱和性,在训练深层网络时会造成梯度消失问题,而AlexNet引入了非饱和的Relu激活函数,有效地缓解了梯度消失问题。
. 解决深度网络的过拟合问题
一方面,近几年来,人们越来越意识到构建庞大的数据集的重要性,于是出现了像ImageNet这样超过1500万张标注图片,2200多种类别的数据集,ILSVRC2012中,AlexNet使用了150万张图片的庞大训练集,使得拥有6000万个参数的AlexNet也没出现严重过拟合问题;
另外,AlexNet在训练时使用了数据增强(data augmentation)策略,相当于进一步扩大了训练数据集;
最后,AlexNet在全连接层部分引入了一个dropout层,同样能有效防止模型出现过拟合。
. 计算能力问题
尽管AlexNet的模型复杂度很大,但其利用了英伟达GPU强大的计算能力,在GPU面前,模型复杂度不是问题。
从模型的设计思路来看,其实AlexNet遵循了LeNet-5的思想,即使用交替的卷积层和池化层用于提取图像的高级语义特征,同时降低特征尺寸。然后使用全连接层/MLP作为分类层。
但是,在细节部分,ALexNet引入了很多新的元素,用于解决以上提到的CNN网络遇到的诸多问题,使得CNN网络开始重新散发光芒。
(一)选题毕业论文(设计)题目应符合本专业的培养目标和教学要求,具有综合性和创新性。本科生要根据自己的实际情况和专业特长,选择适当的论文题目,但所写论文要与本专业所学课程有关。(二)查阅资料、列出论文提纲题目选定后,要在指导教师指导下开展调研和进行实验,搜集、查阅有关资料,进行加工、提炼,然后列出详细的写作提纲。(三)完成初稿根据所列提纲,按指导教师的意见认真完成初稿。(四)定稿初稿须经指导教师审阅,并按其意见和要求进行修改,然后定稿。一般毕业论文题目的选择最好不要太泛,越具体越好,而且老师希望学生能结合自己学过的知识对问题进行分析和解决。不知道你是否确定了选题,确定选题了接下来你需要根据选题去查阅前辈们的相关论文,看看人家是怎么规划论文整体框架的;其次就是需要自己动手收集资料了,进而整理和分析资料得出自己的论文框架;最后就是按照框架去组织论文了。你如果需要什么参考资料和范文我可以提供给你。还有什么不了解的可以直接问我,希望可以帮到你,祝写作过程顺利毕业论文选题的方法:一、尽快确定毕业论文的选题方向 在毕业论文工作布置后,每个人都应遵循选题的基本原则,在较短的时间内把选题的方向确定下来。从毕业论文题目的性质来看,基本上可以分为两大类:一类是社会主义现代化建设实践中提出的理论和实际问题;另一类是专业学科本身发展中存在的基本范畴和基本理论问题。大学生应根据自己的志趣和爱好,尽快从上述两大类中确定一个方向。二、在初步调查研究的基础上选定毕业论文的具体题目在选题的方向确定以后,还要经过一定的调查和研究,来进一步确定选题的范围,以至最后选定具体题目。下面介绍两种常见的选题方法。 浏览捕捉法 :这种方法就是通过对占有的文献资料快速地、大量地阅读,在比较中来确定论文题目地方法。浏览,一般是在资料占有达到一定数量时集中一段时间进行,这样便于对资料作集中的比较和鉴别。浏览的目的是在咀嚼消化已有资料的过程中,提出问题,寻找自己的研究课题。这就需要对收集到的材料作一全面的阅读研究,主要的、次要的、不同角度的、不同观点的都应了解,不能看了一些资料,有了一点看法,就到此为止,急于动笔。也不能“先入为主”,以自己头脑中原有的观点或看了第一篇资料后得到的看法去决定取舍。而应冷静地、客观地对所有资料作认真的分析思考。在浩如烟海,内容丰富的资料中吸取营养,反复思考琢磨许多时候之后,必然会有所发现,这是搞科学研究的人时常会碰到的情形。 浏览捕捉法一般可按以下步骤进行:第一步,广泛地浏览资料。在浏览中要注意勤作笔录,随时记下资料的纲目,记下资料中对自己影响最深刻的观点、论据、论证方法等,记下脑海中涌现的点滴体会。当然,手抄笔录并不等于有言必录,有文必录,而是要做细心的选择,有目的、有重点地摘录,当详则详,当略则略,一些相同的或类似的观点和材料则不必重复摘录,只需记下资料来源及页码就行,以避免浪费时间和精力。第二步,是将阅读所得到的方方面面的内容,进行分类、排列、组合,从中寻找问题、发现问题,材料可按纲目分类,如分成: 系统介绍有关问题研究发展概况的资料; 对某一个问题研究情况的资料; 对同一问题几种不同观点的资料; 对某一问题研究最新的资料和成果等等。第三步,将自己在研究中的体会与资料分别加以比较,找出哪些体会在资料中没有或部分没有;哪些体会虽然资料已有,但自己对此有不同看法;哪些体会和资料是基本一致的;哪些体会是在资料基础上的深化和发挥等等。经过几番深思熟虑的思考过程,就容易萌生自己的想法。把这种想法及时捕捉住,再作进一步的思考,选题的目标也就会渐渐明确起来。希望可以帮到你,有什么不懂的可以问我
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
摘要:文中结合天津地铁1号线改扩建工程,简要介绍了曲线地铁车站施工测量技术特点;施工控制测量及施工放样方法,确定了用精密导线作为施工控制测量线最为适宜关键词:工程测量;地铁;曲线1工程概况天津市地铁1号线西北角车站为原有站改扩建工程,位于北马路芥园道和西马路大丰路交口。全现浇钢筋混凝土箱型地下结构,双轨侧式站台车站起点里程k9+,终点里程k9+总长218 m,箱体最宽处28 m,结构净高 m,主要站段埋深 m,设4个出入口,2座风道,建筑总面积10 666 m2。2施土测量技术特点、难点工程平面位置该车站为全曲线站,地下结构中柱纵轴线、铁道左轨中线、右轨中线均由圆曲线和缓和曲线组成,三条线曲线元素各不相同,即缓和曲线起终点不在同一里程,圆曲线圆心各异,半径分别为800 m, m, m箱体侧墙均为圆曲线,并与同侧轨道中心线同圆心,但由于墙体的里凹和外凸形成多种不同半径的圆弧,平面定位放线作业相当复杂。高程工程箱体结构位于和两种不同坡度的坡度线上,两侧站台板也存在不同坡度的变换,且变坡点不在同一里程工程主体结构和站台板的标高必须由不同的坡度线控制。施工工程设计为明开挖分段施工,施工段最大长度不能超过25 m由于工斯和施工技术要求决定了工程必须多头开挖,点位的坐标和高程需多次向基坑内引测,多头贯通,给施工放线的精度提出了更高的要求。3施土控制测量测量仪器的选烈《地下铁道,轻轨交通测量规范》要求精密导线测量相对点位中误差≤±8 mm;精密水准测量附合路线闭合差≤8mm。设导线平均边长100 m,取II级全站仪,因边长较短设测角中误差mβ=±5",测距中误差ms=2+2 x10-6,佑算导线点相对点误差为:因此使用且级全站仪、DS1水准仪进行控制测量,完全满足地铁的施工测量精度要求。施工平面控制测量西北角车站施工作业面为长220 m,宽20-30 m的带状,因此用精密导线作为平面控制最为适宜,在考虑便于施工放样、点位保护和变形等诸多因素的前提下,在车站的起讫点及中点附近布置了3个精密导线点A,B,C,与已知点GPS515 , GPS550, GPS514组成附合导线,导线平均边长105m,工程位置及导线布置见图1。导线水平角采用II级全站仪6测回测定,边长取5次测量平均值,往返各两测回测定,外业观测成果精度如下:方位角闭合差;fβ==a始+∑(β±180°)-a终=5〃该导线用天津市测绘院提供的计算软件严密平差后,最大点位中误差,最大点间误差 mm,导线全长中误差达到1/180000。施工高程控制测量将精密导线点同时作为施工高程控制点与已知二等水准点JBM-3,JBM-4组成附和水准线路,水准线路总长度约600 m,其中最远点.4距已知水准点240 m高程控制测量采用带有平行玻I}板测微器的DS.水准仪和锢瓦水准尺按二等水准测量技术要求施测实测4个测段最大往返不符值 mm,附合水准路线闭合差 mm,每km水准测量高差偶然中误差4施土放样施工放样平面控制点的建立近井点的测设施工段开挖完毕,在基坑支护结构的压顶梁上选择适当位置建立近井点,并分别从两个地面控制点(GPS点或精密导线点)测定其坐标,两次测定坐标值较差在±10 mm之内,取其中数作为近井点坐标当两个以上施工段同时开挖完毕,可将各段近井点与地面控制点连成附合导线,取平差结果作为近井点的坐标.地下平面控制点的测设首段施工在施工段两端建立地下控制点,并与近井点组成闭合导线确定地下控制点坐标,后续施工布设的地下导线至少应联测一个先期建立的地下控制点当重合点测定的坐标值与原坐标值较差在±10 mm之内时,取其中数作为重合点坐标。 1也下高程控制点的测设高程传递测量采用吊钢尺法,地上地下安置两台DS1水准仪同时读数,观测三测回,测回间变动仪器高度,三测回测定的地下水准点高程较差应小于3 mm。考虑底板混凝土浇筑后的沉降,每个施工段的高程传递应独立进行并连测已建立的地下水准点,计算结构沉降量,同时对地下水准点的高程进行改正地下水准测量使用DS1水准仪、铟瓦、钢尺往返测定。5曲线的测定内业计算放样准备依据曲线要素计算曲线上每隔3m点的坐标(半径800m,3 m弧长以直代曲后的最大误差为 mm可忽略不计)。利用微机Excel表格处理计算软件,将曲线要素及线路曲线计算公式输入微机进行计算,并用手算进行核对无误后,再用CAD软件定点做图,观察曲线形状,量取相关结构尺寸和施工图对照,进行验证.计算曲线放样点在本段弦上的投影长度Si和弓高hi,见图曲线放样将地下控制点坐标、放样点坐标全部输入全站仪,用全站仪坐标放样程序在实地放样诸点,并弹线确定曲线位置检验:在直线A ,B上用钢尺量取S1,S2...,S3...,同时量取该的曲线弓高其值与计算值之差在±5 mm之内可不调整,否则查找原因重新测设。6坡度线的测设结构施工的标高放样采用DS3水准仪,按四等水准测量的精度要求施测,水准仪使用前进行i角检测(水准轴与视准轴夹角),其值必须小于±20〃,否则应进行校正。结构高程的测设除每个施工段的两个结构端点和变坡点必须测设外,余者每隔10m左右测设一点,点与点之间拉小线即可确定结构坡度具体测量方法是,依平面定位测量点确定高程放样点的里程位置,再按设计坡度计算出该点处结构高程依据地下水准点从一端逐个将计算高程测设到标桩酬钢筋上,测设到另一端点后与另一个地下水准点闭合,其闭合差应小于士5 mm否则查找原因重新测设。7地铁西北角车站施土测量效果及体会依设计要求西北角地铁站分为12个施工段,又由于施工条件限制和工斯要求没有按施工段顺序施工,这样共形成5个贯通面,由于采用上述测量方法,最大纵向贯通误差13mm,最大横向贯通误差9 mm,最大高程贯通误差10 mm,经竣工测量,轨道中心线点位中误差仅为8 mm ,测量精度完全满足了规范要求。(1)根据工程规模和精度要求,确定工程测量的控制等级,配置相应的仪器设备,严格按规范要求的相应控制等级技术要求施测,确保控制点的精度对于曲线型地铁站,用精密导线做为施工控制测量线最为适宜。(2)视工程具体情况,制定施工放线方法和验核方法,做到既切实可行,又能满足精度要求。(3)充分利用计算机和软件进行平差计算、放样计算、作图等内业工作,减少内业工作量,提高内业成果的可靠性。(4)所有工程平面位置或高程的放样必须设有多余观测,用以验证放样结果的正确与否。参考文献:[1] GB50308-1999,地下铁道轻轨交通工程测量规范[S].[2] GB 50299-1999,地下铁道施工及验收规范[S].[3] GB 50206-93,工程测量规范[S].
圆锥曲线问题是高中数学教学的重、难点。你知道怎么写有关圆锥曲线的小论文吗?下面我给你分享高中数学圆锥曲线论文,欢迎阅读。
高中数学圆锥曲线论文篇一:高中数学圆锥曲线的教学研究
圆锥曲线问题是高中数学教学的重、难点.每年的高考中,都会涉及圆锥曲线问题,出题形式多样,既有分值较低的选择题和填空题,也有分值很高的大题.但是学生的得分率普遍不高.圆锥曲线教学的综合性和系统性强.这不仅要求学生理解最基本的知识点,提高运算的速度和准确性,还要求学生能够灵活运用数形结合的方法,找到解题的突破口,化简变形,准确解题.本文主要分析研究高中数学圆锥曲线的教学现状及其相应的对策.
一、高中数学圆锥曲线教学现状
1.从教师角度分析
高中数学教学大纲中对圆锥曲线的教学目标、重难点知识的说明非常清楚.大多数教师都明白圆锥曲线的重要性,而且在课堂上讲解圆锥曲线知识点和解题思路的时候很清晰.不过,学生数学基础是有差异的.对于圆锥曲线的内容,有的学生接受起来容易,有的学生接受起来比较困难.这就要求教师在教学过程中要注重培养学生的学习兴趣,不能单凭过去的教学经验.圆锥曲线经常会用到数形结合思想,有的教师在教学时会告诉学生要运用数形结合的方法,但没有清楚地告诉学生是如何想到用这种解题思想的.教师应当让学生知其然,也要让学生知其所以然.很多学生做不到举一反三,就是因为在学习圆锥曲线知识的时候教师看重结果的正确而忽视了解题思路的理解.
考虑到圆锥曲线知识在高考中所占的比重较大,几乎每一年的高考题中都会有所涉及.因而,在教学过程中教师应当有意识地渗透,让学生清楚圆锥曲线知识学习的重要意义;圆锥曲线与向量、概率等其他模块的数学知识有密切的关系.在教学过程中,教师也要重视学生其他模块数学知识的掌握,从宏观角度提高圆锥曲线教学的效率.
2.从学生角度分析
圆锥曲线的学习对学生的数学运算能力、推理能力、逻辑思维能力等各种数学能力的要求都非常高,对于很多学生来说,圆锥曲线学习起来的难度较大.有的学生对这部分知识有畏惧心理,思想上的负担导致学习的困难加大;有的学生学习方法落后,在学习过程中,只是记忆圆锥曲线的相关概念、结论,或者模仿教材和教师的解题思路,但并没有真正理解概念、结论的意义,没有掌握知识之间内在的关联,尤其是综合运用知识的能力不够,不会举一反三.圆锥曲线的题型有很多种,教师在课堂上一般会对每一种题型都进行详细的讲解,但是有的学生没有及时总结或者总结的时候流于形式,导致在考试中遇到圆锥曲线方面的题目失分.
二、提升高中数学圆锥曲线教学效率的措施
1.培养学生学习圆锥曲线的兴趣
众所周知,兴趣是最好的老师.学生只有真正热爱圆锥曲线的学习,才能事半功倍.所以,教师在圆锥曲线的教学中应当运用有效的方法激发学生的学习兴趣.比如在课堂教学中,教师可以创设问题情境作为课堂导入.学生都在新闻上了解过人造地球卫星运转轨道,教师可以以此为切入点引入圆锥曲线的知识.学生发现了圆锥曲线知识在生活中的运用,学习兴趣就会大大提升.
2.教师要重视演示数学知识的形成过程
考试中的选择题和填空题不必要求学生将解题过程详细呈现出来,不管用何种解题方法,只要结果正确就可以.但是对于试卷中的大题,解题过程相当重要,清晰明了的解题过程是得分的关键,尤其是圆锥曲线的大题解题过程更是如此.因而,教师在进行圆锥曲线的教学时,不能只重视结果,而是应当重视从多方面来讲解解题步骤,通过清晰的演示让学生掌握圆锥曲线的知识.比如圆锥曲线中“多动点”的问题,很多学生不知如何理解,这时教师应当进行演示,让学生知道怎样运用参数求解法、怎样画图等.
3.坚持学生的主体地位
教学活动中,教师是引领者,学生是主体,任何情况下学生的主体地位都不能被削弱.当学生学习圆锥曲线的知识遇到问题的时候,教师要认真解答;教学过程中,教师要了解学生的认知规律,鼓励学生探索,让学生带着浓厚的兴趣融入课堂;教师应当多肯定、赞扬学生,提高学生学习的主动性和积极性.有的圆锥曲线的题目,不只有一种解题方法,对于这些题目,教师应当培养学生自主探究的能力,比较不同的解题方法,在考试中运用准确性和解题速度都高的方法.
三、结语
高中圆锥曲线的难度较大,教师在教学的时候要把握好重难点,循序渐进,切忌急于求成,保证学生夯实基础的前提下,提高难度.圆锥曲线教学过程中要因材施教,结合学生的接受能力来规划教学的进度和难易程度,对于学生提出的问题,教师要耐心认真的解答.教师还应注重培养学生的数形结合思想,从而提高圆锥曲线教学的效率.
高中数学圆锥曲线论文篇二:圆锥曲线学习中的思考
【摘 要】 根据教学中遇到的问题,尝试运用数学教育心理学的有关知识分析学生在学习椭圆时的问题和特点,分析产生的可能原因,根据这些特点将其迁移到双曲线的学习过程中。
【关键词】 椭圆;双曲线;相似性质
学生在学习椭圆和双曲线时,教师可能会更多的关注学生在学习中普遍存在的问题,虽然这些问题是导致学生学习困难的因素之一,但我觉得,因为这些问题在学生中比较普遍,也可以认为是他们学习这部分知识时所表现出的一种共性。归纳起来主要有以下几点:
1、对椭圆的第一定义记忆太深刻,甚至有些机械化,以至于对后面将要讲的双曲线第一定义记忆不清,容易忘记“绝对值”的作用,或者说对“双曲线的一支”还是“两支”深感困惑。
2、在推导椭圆的标准方程时,因为用到二次平方,虽然没有任何技巧性,但因为运算量大,学生就感觉难度很大,我曾经统计过将近有一半的学生自己当堂无法推导出结果。
3、对教材中最后要求的标准形式有些困惑,因为二次平方后出现的是整式形式,这应该说是比较好的形式了,为什么还要画蛇添足,写成分式的形式呢?
4、研究椭圆的几何性质时,学生会感觉发现容易,结论漂亮,但记忆困难,变化多端,运用时想不起来,就是想起来了,也不知道该用哪一条性质,不能灵活应用,甚至有的学生感觉太神奇,摸不着。
5、在学了双曲线之后,学生能发现椭圆与双曲线之间的关系比较密切,有关椭圆和双曲线的计算问题在解决过程中也有类似之处,但普遍感觉双曲线比椭圆难度大很多。
我在接受本科教育时虽然学习过一些有关公共教育学和心理学的基本知识,但对教育心理学领域几乎没有接触。2010年在北京师范大学学习,院方给我们新疆班的教师们开了“数学教育心理学”这门课,时间很短,课时紧张,我也学的比较肤浅。但我还是想借助数学教育心理学的有关知识来尝试分析一下以上的问题。
首先,有关椭圆的第一定义与双曲线的第一定义。
“定义”属于概念的教学,“数学教育心理学”中有关“概念”的理解是:概念是指哲学、逻辑学、心理学等许多学科的研究对象。概念通常包括四个方面:概念的名称、定义、例子和属性。由于数学的研究对象是事物的数量关系和空间形式,而这种关系和形式脱离了事物的具体属性,因此,数学概念有与此相对应的特点。学生的认知结构处于发展过程之中,他们的数学认知结构比较具体而简单、数学知识比较贫乏,在学习新的数学知识时,作为“固着点”的已有知识往往很少或者不具备。
比如:学生在初中学习过圆的定义是“平面内到顶点的距离等于定长的点的轨迹”,此时涉及到的定点只有一个,定长就是所谓的“半径”。而椭圆和双曲线的第一定义中涉及到的定点有两个,并且还有“距离之和”与“距离之差的绝对值”的问题。由圆的图形容易联想到椭圆,但双曲线就比较困难。虽然初中学习过反比例函数,但这个内容也是难点,不太容易和双曲线联系起来。其实,这就是所谓的“经验”,它是概念学习的影响因素之一。
其次,有关用二次平方法化简方程。
在推导椭圆和双曲线的标准方程时,“化简”是必须要过的一关,在这一过程中,用到“二次平方法”以达到去除根号的目的。这种方法应该是学生必备的一种数学技能。
数学技能是从数学知识掌握到数学能力形成和发展的中心环节,它分为“智慧技能”和“动作技能”,而“运算技能”是指能正确运用各种概念、公式、法则进行数学运算,做代数变换等。在此过程中正确运用“数学符号语言”也是必不可少的。在数学学习过程中,数学技能的形成非常重要,数学技能以数学知识的学习为载体,通过实际操作获得动作经验而逐渐形成。
根据学生的学习经历,以往接触比较多的是一次方程,比较复杂的二次函数也只是在一个字母中出现了二次方。但椭圆的方程中,x、y的次数都是二次,从形式上看就比较难,学生在心理接受程度上难。加之,学生虽然会用平方法去根式,但局限在一次平方,像这样的二次平方法不太适应,甚至怀疑自己做错了。另外,由于我们学校是自治区重点中学,生源相对来说比较好,教师在授课时对学生的基础和能力估计过高也是一个不容忽视的因素。
最后,椭圆与双曲线的相关性质。
在教学中我发现,因为椭圆和双曲线的第一定义、第二定义都有类似的部分,学生已经能够感觉到二者的几何性质应该也有相似的地方。我也试图用椭圆的几何性质引导学生类比得出双曲线的相关性质,引导学生的思维自发的“迁移”,但对于那些比较简单的、一般的性质学生可以自行推出。比如:椭圆中的特殊三角形、椭圆的焦半径、椭圆的通径等。而对于稍微复杂一些的性质,学生就有些束手无策了。
通过数学教育心理学的学习,我发现数学学习的迁移不是自动发生的,它受制于许多因素,其中最主要的有数学学习材料的因素、数学活动经验的概括水平以及数学学习定势。
1、迁移需要对新旧学习中的经验进行分析、抽象,概括其中共同的经验成分才能实现,因此,数学学习材料在客观上要有相似性。心理学的研究表明,相似程度的大小决定着迁移效果和范围的大小。
例如:椭圆和双曲线的定义中都有两个定点和一个定长,由这些条件推导出的有关椭圆特殊三角形和焦半径公式的相关性质,学生就比较容易类推到双曲线的,还有可能在焦半径的公式中发现:椭圆的焦半径公式只有一个,而双曲线要根据具体情况(左、右支;上、下支)区别对待。
又如:椭圆的几何性质中有一条是:设过椭圆焦点F作直线与椭圆相交P、Q两点,A为椭圆长轴上一个顶点,连结AP和AQ分别交相应于焦点F的椭圆准线于M、N两点,则MF⊥NF;这条性质从叙述上比较长,学生可能直觉上认为推不出双曲线的类似性质。实际上,只要教师给学生一些勇气,鼓励他们大胆猜想,容易得出:设过双曲线焦点F作直线与双曲线相交P、Q两点,A为双曲线长轴上一个顶点,连结AP和AQ分别交相应于焦点F的双曲线准线于M、N两点,则MF⊥NF。再作出图形证明即可。可以说,椭圆和双去想的这条性质相似程度极高。 2、数学学习的迁移是一种学习中习得的数学活动经验对另一种学习的影响,也就是已有经验的具体化与新课题的类化过程或新、旧经验的协调过程。因此,概括水平越低,迁移范围越小,效果越差;反之,迁移的可能性就越大,效果也越好。
例如:在探究椭圆的几何性质中有一条是:以焦点弦PQ为直径的圆必与对应准线相离;学生类比这条性质,可以得到双曲线以焦点弦PQ为直径的圆可能必与对应准线存在着某种关系。而圆与直线的位置关系不外乎有三种:相交、相离、相切。判断圆与直线的位置关系有两种常用的方法:一是用点到直线的距离判断;一种是用方程的根的情况判断。这些知识和技能学生是具备的,因此不难得出双曲线的相关性质,即:以焦点弦PQ为直径的圆必与对应准线相交。
3、定势现象是一种预备性反应或反应的准备,它是在连续活动中发生的。在活动过程中,先前活动经验为后面的活动形成一种准备状态。它使学生倾向于在学习时以一种特定的方式进行反应。由于定势是关于选择活动方向的一种倾向性,因此对迁移来说,定势的影响既可以起促进作用也可以起阻碍作用。
例如:在椭圆的概念中说的是到两定点的距离之和为定长的点的轨迹,而双曲线则是到两定点的距离之差的绝对值为定长的点的轨迹。由于思维定势,容易把“绝对值”忘掉,从而丢失一支双曲线。
鉴于本人所学有限,分析的可能不是很准确,我会在今后的教学中反复思考,逐步改进。
通过以上的分析,我认为:椭圆和双曲线的相关知识有许多共同的切入点,根据学生的学习特点,要抓准这些相似点,教师除了丰富的教学经验外,如果还能运用一定的心理学知识,找到学生学习时的心理活动,可能会带来更好的教学效果。
在全国推进素质教育的今天,在新一轮国家基础教育课程改革实施之际,只关注教师“如何教”的问题显然已经远远不够,于是,对新的教材与学生新的学习方式的研究与探讨就显得十分迫切与必要。只有充分发挥数学教育的功能,全面提高年轻一代的数学素养,每一位数学教师才能为提高全民族素质,造就一代高质量的新型人才贡献自己的一份力量。
参考文献
[1]曹才翰,章建跃.数学教育心理学[M].北京:北京师范大学出版社,2007.
[2]朱文芳.中学生数学学习心理学[M].浙江教育出版社,2005.
[3] ISBN978-7-107-18662-2,数学[S].人民教育出版社,2008.
高中数学圆锥曲线论文篇三:浅谈高考圆锥曲线中的存在性问题
摘 要:在新课标、新考纲和新考试说明的精神指导下,高考数学科解析几何试题与以往大纲课程背景下考查形式和内容,有了显著的变化,这些试题不论在考试评价、命题研究还是高考复习,都成为专家、教师探讨的重点、热点,也是高考命题改革的一块试验田.本文通过对近几年高考数学解析几何试题存在性问题的探究来揭示这些试题是如何贯彻课程标准,反应考试说明的意图,进而思考教师在解析几何的教学与高三复习策略。
关键词:课程标准 数学高考 解析几何 存在性问题 思考
前言
最近几年的高考试题中,存在性问题出现的频率非常高,存在性问题是一种具有开放性和发散性的问题,此类题目的条件和结论不完备,要求学生结合已有的条件进行观察、分析、比较和概括,它对数学思想、数学意识及综合运用数学方法的能力有较高的要求,特别是在解析几何第二问中经常考到“是否存在这样的点”的问题,也就是是否存在定值定点定直线定圆的问题。希望能够为老师的教学、高考复习提供有益的思考.[1]
一、是否存在这样的常数
例1:(2009福建理)已知AB分别为曲线 与轴的左、右两个交点,直线I过点B,且与X轴垂直,S为I上异于点B的一点,连结AS交曲线C于点T.
(Ⅰ)若曲线C为半圆,点T为圆弧AB的三等分点,试求出点S的坐标;
(II)如图,点M是以SB为直径的圆与线段TB的交点,试问:是否存在a,使得O,M,S三点共线?若存在,求出a的值,若不存在,请说明理由.
二、是否存在这样的点
【命题立意】:第二问难度较大,是一个探究性的开放试题,判断是否存在满足题设的定点.解决此题要突破两个关键:一是由图形的几何特征,判断出若定点存在,则必在 轴上,二是,题设要求“以PQ为直径的圆恒过点M”应转化为“ 对满足一定关系的m,k恒成立”,这里一定关系是指l与椭圆相切 . 本题主要考查运算求解能力、推理论证力,考查化归与转化思想、数形结合思想、特殊与一般的思想.本题的亮点是体现代数方法对解决几何问题的作用,同时体现图形的几何性质对代数运算的方向和运算量的减小的作用,在推理论证上,体现不同思维方式引发不同的解题方法,对区分不同数学思维层次的学生有很好的作用.
三、是否存在这样的直线
【命题立意】:第二问是开放性问题,判断满足题设的直线是否存在从逻辑思维的角度考虑,假设直线l存在,则l应满足三个条件① (可求k);②l与椭圆有公共点(可建立k与b的不等关系);③l与OA的距离等于4(可建立k与b的相等关系),而确定一条直线只需两个条
件即可.因此,可利用l满足其中两个条件求出,再检验是否满足第三个条件,从而得出l是否存在.这样,本题有多种不同的解法.本题主要考查运算求解能力、推理论证能力,考查函数与方程思想、数形结合思想、化归与转化思想.本题的亮点是,背景学生熟悉,试题入口宽,可以用不同的想法和解法解决,使不同思维方式的学生都能做题,提供给学生充分展示自己的平台.[3]
四、是否存在这样的圆
【命题立意】:本题属于探究是否存在的问题,主要考查了椭圆的标准方程的确定,直线与椭圆的位置关系直线与圆的位置关系和待定系数法求方程的方法,能够运用解方程组法研究有关参数问题以及方程的根与系数关系
结束语:1.从教学的角度思考:在教学中要扎扎实实地讲好直线、圆、圆锥曲线及其几何性质等基础知识.教学中要学生先通过画图,直观地理解要解决的几何问题的几何意义,再转化为代数问题求解,通过这个过程学生很容易体会数形结合的思想,体会解析几何的方法;在研究圆锥曲线时,弄清楚曲线方程和参变量的几何意义是第一位的,在此基础上,运用代数方程的方法解决几何问题,在解决几何问题之后,要回到几何意义的理解上.几何是解决问题的出发点也是问题解决之后的落脚点,要避免让学生陷入代数的恒等变形而不理解其几何含义.在分析问题、解决问题中要突出几何要素,注重几何要素的代数化,要在几何要素的引导下进行代数的恒等变形,要让几何图形帮助我们思考问题、确定恒等变形的方向、简化计算,体会几何直观给我们带来的好处.
2.从高三复习备考的角度思考:①认真研读《考试大纲》、《考试说明》明确高考对解析几何基础知识、基本技能、基本思想、基本方法的要求,使复习工作有的放矢;②重视解决解析几何问题通法的训练.从试题分析中可以看出,直线方程、圆的方程,圆锥曲线的方程和基本性质(基本量)是重点考查的知识点,一定要熟悉基本方法,而直线与圆锥曲线的位置关系及其引发的各类问题是主观题的考查热点,要通过典型例题的操作、讲解,帮助学生总结解题思路,思考策略和通行通法,此外,要注意解析几何与其他数学内容的交汇,加强知识整体性的认知,锻炼学生在对参数的运算处理和面对繁杂的数学式子变形时应有的沉着心理和坚强毅力;
参考文献:
[1]中华人民共和国教育部制订.普通高中数学课程标准(实验)[M].北京:人民教育出版社2003
[2福建省教育考试院编.2012年普通高等学校招生全国统一考试福建省数学考试说明[M].福建:福建教育出版社2012
[3]王尚志.数学教学研究与案例[M].北京:高等教育出版社2006
本文将对论文 Towards End-to-End Lane Detection: an Instance Segmentation Approach 进行解读。这篇论文是于2018年2月挂在arxiv上的。 文中提出了一种端到端的车道线检测算法,包括LaneNet和H-Net两个网络模型。其中,LaneNet是一种将 语义分割 和 对像素进行向量表示 结合起来的多任务模型,负责对图片中的车道线进行 实例分割 ;H-Net是由卷积层和全连接层组成的网络模型,负责预测转换矩阵H,使用转换矩阵H对属于同一车道线的像素点进行回归(我的理解是对使用坐标y对坐标x进行修正)。 根据论文中的实验结果,该算法在图森的车道线数据集上的准确率为,在NVIDIA 1080 TI上的处理速度为52FPS。 如图1所示,对于同一张输入图片,LaneNet输出实例分割的结果,为每个车道线像素分配一个车道线ID,H-Net输出一个转换矩阵H,使用转换矩阵H对车道线像素进行修正,并对修正的结果拟合出一个三阶的多项式作为预测得到的车道线。 论文中将实例分割任务拆解为 语义分割 和 聚类 两部分,如图2所示,LaneNet中decoder分为两个分支,Embedding branch对像素进行嵌入式表示,训练得到的embedding向量用于聚类,Segmentation branch负责对输入图像进行语义分割(对像素进行二分类,判断像素属于车道线还是背景)。最后将两个分支的结果进行结合得到实例分割的结果。 在设计语义分割模型时,论文主要考虑了以下两个方面: 1.在构建label时,为了处理遮挡问题,论文对被车辆遮挡的车道线和虚线进行了还原; 2. Loss使用 交叉熵 ,为了解决样本分布不均衡的问题(属于车道线的像素远少于属于背景的像素),参考论文 ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation ,使用了boundedinverse class weight对loss进行加权: 其中,p为对应类别在总体样本中出现的概率,c是超参数(ENet论文中是,使得权重的取值区间为[1,50])。 为了区分车道线上的像素属于哪条车道,embedding_branch为每个像素初始化一个embedding向量,并且在设计loss时, 使得属于同一条车道线的像素向量距离很小,属于不同车道线的像素向量距离很大 。 这部分的loss函数是由两部分组成:方差loss(L_var)和距离loss(L_dist): 其中,x_i为像素向量,μ_c为车道线的均值向量,[x]+ = max(0,x) 为了方便在推理时对像素进行聚类,在图4中实例分割loss中设置δ_d > 6*δ_v。 在进行聚类时,首先使用mean shift聚类,使得簇中心沿着密度上升的方向移动,防止将离群点选入相同的簇中;之后对像素向量进行划分:以簇中心为圆心,以2δ_v为半径,选取圆中所有的像素归为同一车道线。重复该步骤,直到将所有的车道线像素分配给对应的车道。 LaneNet是基于 ENet 的encoder-decoder模型,如图5所示,ENet由5个stage组成,其中stage2和stage3基本相同,stage1,2,3属于encoder,stage4,5属于decoder。 如图2所示,在LaneNet中,语义分割和实例分割两个任务 共享stage1和stage2 ,并将stage3和后面的decoder层作为各自的分支(branch)进行训练;其中, 语义分割分支(branch)的输出shape为W*H*2,实例分割分支(branch)的输出shape为W*H*N,W,H分别为原图宽和高,N为embedding vector的维度;两个分支的loss权重相同。 LaneNet的输出是每条车道线的像素集合,还需要根据这些像素点回归出一条车道线。传统的做法是将图片投影到鸟瞰图中,然后使用2阶或者3阶多项式进行拟合。在这种方法中,转换矩阵H只被计算一次,所有的图片使用的是相同的转换矩阵,这会导致地平面(山地,丘陵)变化下的误差。 为了解决这个问题,论文训练了一个可以预测转置矩阵H的神经网络H-Net, 网络的输入是图片 , 输出是转置矩阵H : 由图6可以看出,转置矩阵H只有6个参数,因此H-Net的输出是一个6维的向量。H-Net由6层普通卷积网络和一层全连接网络构成,其网络结构如图7所示: Curve fitting的过程就是通过坐标y去重新预测坐标x的过程:LaneNet和H-Net是分别进行训练的。在论文的实验部分,两个模型的参数配置如下所示: • Dataset : Tusimple • Embedding dimension = 4 • δ_v= • δ_d=3 • Image size = 512*256 • Adam optimizer • Learning rate = 5e-4 • Batch size = 8 • Dataset : Tusimple • 3rd-orderpolynomial • Image size =128*64 • Adam optimizer • Learning rate = 5e-5 • Batch size = 10
车道线检测算法通常分为两种类型:一种是基于基于视觉特征来做语义分割或者实例分割,例如 LaneNet 和 SCNN ;另一种是通过视觉特征来预测车道线所在位置的点,以此来解决 no-visual-clue 问题的模型,比如本文提到的 Ultra-Fast-Lane-Detection 。
offical github : paper : Ultra Fast Structure-aware Deep Lane Detection
下图展示了整个模型的结构,基本可以分为三个部分: Backbone 、 Auxiliary 部分和用于车道线候选点选择的 Group Classification 部分。可以看出,由于整个 pipeline 中参与最终 inference 的部分只进行了下采样而不像分割模型还进行了多轮的上采样,因此模型整体的计算量是相当低的,根据论文给出的结果可以达到 300FPS 。
Backbone 部分采用了较小的 ResNet18 或者 ResNet34 ,下采样到 4X 的部分作为最终的特征,这里其实是较为浅层的特征,一般分割模型要下采样到 16x 或者 32x 。论文里也提到了使用较大的感受野就可以达到不错的检测效果,这样就可以极大的提高模型的推理速度。
Auxiliary 部分对三层浅层特征进行了 concat 和上采样,用来进行实例分割。其目的是在训练过程中增强视觉特征,不参与推理。
Group Classification 部分如下所示,论文称之为 row-based selecting method based on global image features ,即在全局特征上进行行索引来计算候选点,这样的方法将先验假设融入到了车道线检测的任务中。
在分割任务上,最终的特征图的大小是 HxWxC 。分类是要沿着 C 方向的, C 方向的向量代表一个像素位置的特征向量属于哪一个类别;在本方法中,最终的特征图的大小是 hx(w+1)xC 。 h 是要在垂直方向上采样的行的数量( row anchor ), h 文章中使用的 Loss 函数分为三部分,分别是多分类损失 L_cls , 分割损失 L_seg 和车道结构化损失 L_str 。其中 L_cls 和 L_seg 是常用的分类、分割任务中常用的两种损失。 结构损失的目的是利用车道结构的先验知识来约束预测出来的车道线的形状。其中 L_sim 为相似度损失, L_shp 为形状损失。 相似度损失的出发点是同一个车道中,相邻的两个点之间的距离应该尽可能的近,这里使用 L1 范式来进行距离的约束。 形状损失的出发点是基于大多的的车道线都是直线,即使是曲线其大部分也是近似的直线。对于同一条车道线,在相邻 row achor 上的车道线的候选点的位置的选择应该尽可能的相近。理想的状况下它的值应该为 0 。 Loc 函数的含义是第 i 条车道的第 j 个 row anchor 中车道点的期望。 Prob 代表的是第 i 条车道的第 j 个 row anchor 中,第 k 个位置是车道点的概率。因为背景不被计算在内,因此 k 的取值从 1 开始。 论文给出 metric 结果如下所示,其评估硬件应该为 NVIDIA GTX 1080TI 。该方法在保证精度接近的情况下,极大的提升了推理速度,很适合实时检测的任务。 为了测试其真实的推理性能,我在 NVIDIA RTX 3070+CUDA11+ 的环境性进行了测试。模型的 backbone 为 resnet18 ,输入尺寸为 (288, 800, 3) 的情况下, Ultra-Fast-Lane-Detection 的推理性能如下所示,单 batch 推理速度约为 350FPS ,其性能与论文给出的结果基本一致。 本文将对论文 Towards End-to-End Lane Detection: an Instance Segmentation Approach 进行解读。这篇论文是于2018年2月挂在arxiv上的。 文中提出了一种端到端的车道线检测算法,包括LaneNet和H-Net两个网络模型。其中,LaneNet是一种将 语义分割 和 对像素进行向量表示 结合起来的多任务模型,负责对图片中的车道线进行 实例分割 ;H-Net是由卷积层和全连接层组成的网络模型,负责预测转换矩阵H,使用转换矩阵H对属于同一车道线的像素点进行回归(我的理解是对使用坐标y对坐标x进行修正)。 根据论文中的实验结果,该算法在图森的车道线数据集上的准确率为,在NVIDIA 1080 TI上的处理速度为52FPS。 如图1所示,对于同一张输入图片,LaneNet输出实例分割的结果,为每个车道线像素分配一个车道线ID,H-Net输出一个转换矩阵H,使用转换矩阵H对车道线像素进行修正,并对修正的结果拟合出一个三阶的多项式作为预测得到的车道线。 论文中将实例分割任务拆解为 语义分割 和 聚类 两部分,如图2所示,LaneNet中decoder分为两个分支,Embedding branch对像素进行嵌入式表示,训练得到的embedding向量用于聚类,Segmentation branch负责对输入图像进行语义分割(对像素进行二分类,判断像素属于车道线还是背景)。最后将两个分支的结果进行结合得到实例分割的结果。 在设计语义分割模型时,论文主要考虑了以下两个方面: 1.在构建label时,为了处理遮挡问题,论文对被车辆遮挡的车道线和虚线进行了还原; 2. Loss使用 交叉熵 ,为了解决样本分布不均衡的问题(属于车道线的像素远少于属于背景的像素),参考论文 ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation ,使用了boundedinverse class weight对loss进行加权: 其中,p为对应类别在总体样本中出现的概率,c是超参数(ENet论文中是,使得权重的取值区间为[1,50])。 为了区分车道线上的像素属于哪条车道,embedding_branch为每个像素初始化一个embedding向量,并且在设计loss时, 使得属于同一条车道线的像素向量距离很小,属于不同车道线的像素向量距离很大 。 这部分的loss函数是由两部分组成:方差loss(L_var)和距离loss(L_dist): 其中,x_i为像素向量,μ_c为车道线的均值向量,[x]+ = max(0,x) 为了方便在推理时对像素进行聚类,在图4中实例分割loss中设置δ_d > 6*δ_v。 在进行聚类时,首先使用mean shift聚类,使得簇中心沿着密度上升的方向移动,防止将离群点选入相同的簇中;之后对像素向量进行划分:以簇中心为圆心,以2δ_v为半径,选取圆中所有的像素归为同一车道线。重复该步骤,直到将所有的车道线像素分配给对应的车道。 LaneNet是基于 ENet 的encoder-decoder模型,如图5所示,ENet由5个stage组成,其中stage2和stage3基本相同,stage1,2,3属于encoder,stage4,5属于decoder。 如图2所示,在LaneNet中,语义分割和实例分割两个任务 共享stage1和stage2 ,并将stage3和后面的decoder层作为各自的分支(branch)进行训练;其中, 语义分割分支(branch)的输出shape为W*H*2,实例分割分支(branch)的输出shape为W*H*N,W,H分别为原图宽和高,N为embedding vector的维度;两个分支的loss权重相同。 LaneNet的输出是每条车道线的像素集合,还需要根据这些像素点回归出一条车道线。传统的做法是将图片投影到鸟瞰图中,然后使用2阶或者3阶多项式进行拟合。在这种方法中,转换矩阵H只被计算一次,所有的图片使用的是相同的转换矩阵,这会导致地平面(山地,丘陵)变化下的误差。 为了解决这个问题,论文训练了一个可以预测转置矩阵H的神经网络H-Net, 网络的输入是图片 , 输出是转置矩阵H : 由图6可以看出,转置矩阵H只有6个参数,因此H-Net的输出是一个6维的向量。H-Net由6层普通卷积网络和一层全连接网络构成,其网络结构如图7所示: Curve fitting的过程就是通过坐标y去重新预测坐标x的过程:LaneNet和H-Net是分别进行训练的。在论文的实验部分,两个模型的参数配置如下所示: • Dataset : Tusimple • Embedding dimension = 4 • δ_v= • δ_d=3 • Image size = 512*256 • Adam optimizer • Learning rate = 5e-4 • Batch size = 8 • Dataset : Tusimple • 3rd-orderpolynomial • Image size =128*64 • Adam optimizer • Learning rate = 5e-5 • Batch size = 10