• 回答数

    2

  • 浏览数

    218

pinguo0911
首页 > 学术期刊 > 视频车道线检测论文

2个回答 默认排序
  • 默认排序
  • 按时间排序

吃蛋糕的鱼

已采纳

1、<> 2、<> 将pixel分割转换为grid分类的问题。对H*W的图像划分成h*(w+1)的网格,分割时需要处理H*W个点的进行分类,类别数目(C+1);现在只需要处理h*C个点的分类,类别数目(w+1)。 分类损失(交叉熵)+ “平滑”损失(相邻的两条anchor应该相似)+“二阶差分”损失(车道线为直的,斜率一致) 此外,在训练时,加入分割辅助支路,因此还有分割的交叉熵损失。 利用多项式进行道路建模(图中所示多项式系数a,每一条车道线有4个系数,即为3阶多项式)。 s为纵向方向车道线距图像底部的最小距离,h为纵向方向车道线距图像底部的最大距离(所有车道线共享一个h),c为车道线的置信度。 多项式损失的计算:取y坐标,通过多项式计算x坐标,计算MSE损失。如果某个点损失小于预设阈值,令损失为0,为了减少对于已经预测准确的点的关注。

115 评论

宝宝的口红

本文将对论文 Towards End-to-End Lane Detection: an Instance Segmentation Approach 进行解读。这篇论文是于2018年2月挂在arxiv上的。        文中提出了一种端到端的车道线检测算法,包括LaneNet和H-Net两个网络模型。其中,LaneNet是一种将 语义分割 和 对像素进行向量表示 结合起来的多任务模型,负责对图片中的车道线进行 实例分割 ;H-Net是由卷积层和全连接层组成的网络模型,负责预测转换矩阵H,使用转换矩阵H对属于同一车道线的像素点进行回归(我的理解是对使用坐标y对坐标x进行修正)。        根据论文中的实验结果,该算法在图森的车道线数据集上的准确率为,在NVIDIA 1080 TI上的处理速度为52FPS。        如图1所示,对于同一张输入图片,LaneNet输出实例分割的结果,为每个车道线像素分配一个车道线ID,H-Net输出一个转换矩阵H,使用转换矩阵H对车道线像素进行修正,并对修正的结果拟合出一个三阶的多项式作为预测得到的车道线。       论文中将实例分割任务拆解为 语义分割 和 聚类 两部分,如图2所示,LaneNet中decoder分为两个分支,Embedding branch对像素进行嵌入式表示,训练得到的embedding向量用于聚类,Segmentation branch负责对输入图像进行语义分割(对像素进行二分类,判断像素属于车道线还是背景)。最后将两个分支的结果进行结合得到实例分割的结果。 在设计语义分割模型时,论文主要考虑了以下两个方面: 1.在构建label时,为了处理遮挡问题,论文对被车辆遮挡的车道线和虚线进行了还原; 2. Loss使用 交叉熵 ,为了解决样本分布不均衡的问题(属于车道线的像素远少于属于背景的像素),参考论文 ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation  ,使用了boundedinverse class weight对loss进行加权: 其中,p为对应类别在总体样本中出现的概率,c是超参数(ENet论文中是,使得权重的取值区间为[1,50])。        为了区分车道线上的像素属于哪条车道,embedding_branch为每个像素初始化一个embedding向量,并且在设计loss时, 使得属于同一条车道线的像素向量距离很小,属于不同车道线的像素向量距离很大 。 这部分的loss函数是由两部分组成:方差loss(L_var)和距离loss(L_dist): 其中,x_i为像素向量,μ_c为车道线的均值向量,[x]+ = max(0,x)         为了方便在推理时对像素进行聚类,在图4中实例分割loss中设置δ_d > 6*δ_v。         在进行聚类时,首先使用mean shift聚类,使得簇中心沿着密度上升的方向移动,防止将离群点选入相同的簇中;之后对像素向量进行划分:以簇中心为圆心,以2δ_v为半径,选取圆中所有的像素归为同一车道线。重复该步骤,直到将所有的车道线像素分配给对应的车道。        LaneNet是基于 ENet 的encoder-decoder模型,如图5所示,ENet由5个stage组成,其中stage2和stage3基本相同,stage1,2,3属于encoder,stage4,5属于decoder。        如图2所示,在LaneNet中,语义分割和实例分割两个任务 共享stage1和stage2 ,并将stage3和后面的decoder层作为各自的分支(branch)进行训练;其中, 语义分割分支(branch)的输出shape为W*H*2,实例分割分支(branch)的输出shape为W*H*N,W,H分别为原图宽和高,N为embedding vector的维度;两个分支的loss权重相同。         LaneNet的输出是每条车道线的像素集合,还需要根据这些像素点回归出一条车道线。传统的做法是将图片投影到鸟瞰图中,然后使用2阶或者3阶多项式进行拟合。在这种方法中,转换矩阵H只被计算一次,所有的图片使用的是相同的转换矩阵,这会导致地平面(山地,丘陵)变化下的误差。         为了解决这个问题,论文训练了一个可以预测转置矩阵H的神经网络H-Net, 网络的输入是图片 , 输出是转置矩阵H :         由图6可以看出,转置矩阵H只有6个参数,因此H-Net的输出是一个6维的向量。H-Net由6层普通卷积网络和一层全连接网络构成,其网络结构如图7所示: Curve fitting的过程就是通过坐标y去重新预测坐标x的过程:LaneNet和H-Net是分别进行训练的。在论文的实验部分,两个模型的参数配置如下所示: •    Dataset : Tusimple •    Embedding dimension = 4 •    δ_v= •    δ_d=3 •    Image size = 512*256 •    Adam optimizer •    Learning rate = 5e-4 •    Batch size = 8 •    Dataset : Tusimple •    3rd-orderpolynomial •    Image size =128*64 •    Adam optimizer •    Learning rate = 5e-5 •    Batch size = 10

185 评论

相关问答

  • 皮纹检测论文讲解视频

    皮纹是什么机制我不知道,但是我觉得不是伪科学。我儿子就做了一个,我觉得解析的非常对,专家分析的时候我一个劲儿点头,句句在理。和他表现出来的一样,所以我很信服。毕

    linlin0530 6人参与回答 2023-12-12
  • 测绘学报视频

    森林资源调查中SPOT5遥感图像处理方法探讨王照利、黄生、张敏中、马胜利(国家林业局西北林业规划设计院,遥感计算中心,西安710048)本文发表于<陕西林业科技

    Miko米粒 6人参与回答 2023-12-05
  • 视频检测有关的毕业论文

    数字图像处理方面了解的了。

    快乐的精灵王 6人参与回答 2023-12-11
  • 视频目标检测论文开题报告

    你可以到七七计算机毕业论文的毕业设计题目列表中找一份。有完整的论文和源码等,很详细

    千年小猴妖 5人参与回答 2023-12-10
  • 视频检测论文

    就,其实这个问题很好解决。首先,一般学校里的论文基本都是经过查重了的,要么知网要么万方,反正相似度高的话根本都不会给你过。如果这样你还是不放心,你可以自己用检测

    大雪压青松丶 6人参与回答 2023-12-12