视频车道线检测论文

2个回答默认排序

默认排序

按时间排序

吃蛋糕的鱼

已采纳

1、<> 2、<> 将pixel分割转换为grid分类的问题。对H*W的图像划分成h*(w+1)的网格，分割时需要处理H*W个点的进行分类，类别数目(C+1)；现在只需要处理h*C个点的分类，类别数目(w+1)。分类损失（交叉熵）+ “平滑”损失（相邻的两条anchor应该相似）+“二阶差分”损失（车道线为直的，斜率一致）此外，在训练时，加入分割辅助支路，因此还有分割的交叉熵损失。利用多项式进行道路建模（图中所示多项式系数a，每一条车道线有4个系数，即为3阶多项式）。 s为纵向方向车道线距图像底部的最小距离，h为纵向方向车道线距图像底部的最大距离（所有车道线共享一个h），c为车道线的置信度。多项式损失的计算：取y坐标，通过多项式计算x坐标，计算MSE损失。如果某个点损失小于预设阈值，令损失为0，为了减少对于已经预测准确的点的关注。

263 评论 1小时前发布

宝宝的口红

本文将对论文 Towards End-to-End Lane Detection: an Instance Segmentation Approach 进行解读。这篇论文是于2018年2月挂在arxiv上的。文中提出了一种端到端的车道线检测算法，包括LaneNet和H-Net两个网络模型。其中，LaneNet是一种将语义分割和对像素进行向量表示结合起来的多任务模型，负责对图片中的车道线进行实例分割；H-Net是由卷积层和全连接层组成的网络模型，负责预测转换矩阵H，使用转换矩阵H对属于同一车道线的像素点进行回归（我的理解是对使用坐标y对坐标x进行修正）。根据论文中的实验结果，该算法在图森的车道线数据集上的准确率为，在NVIDIA 1080 TI上的处理速度为52FPS。如图1所示，对于同一张输入图片，LaneNet输出实例分割的结果，为每个车道线像素分配一个车道线ID，H-Net输出一个转换矩阵H，使用转换矩阵H对车道线像素进行修正，并对修正的结果拟合出一个三阶的多项式作为预测得到的车道线。论文中将实例分割任务拆解为语义分割和聚类两部分，如图2所示，LaneNet中decoder分为两个分支，Embedding branch对像素进行嵌入式表示，训练得到的embedding向量用于聚类，Segmentation branch负责对输入图像进行语义分割（对像素进行二分类，判断像素属于车道线还是背景）。最后将两个分支的结果进行结合得到实例分割的结果。在设计语义分割模型时，论文主要考虑了以下两个方面： 1.在构建label时，为了处理遮挡问题，论文对被车辆遮挡的车道线和虚线进行了还原； 2. Loss使用交叉熵，为了解决样本分布不均衡的问题（属于车道线的像素远少于属于背景的像素），参考论文 ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation ，使用了boundedinverse class weight对loss进行加权: 其中，p为对应类别在总体样本中出现的概率，c是超参数（ENet论文中是，使得权重的取值区间为[1,50]）。为了区分车道线上的像素属于哪条车道，embedding_branch为每个像素初始化一个embedding向量，并且在设计loss时，使得属于同一条车道线的像素向量距离很小，属于不同车道线的像素向量距离很大。这部分的loss函数是由两部分组成：方差loss(L_var)和距离loss(L_dist)：其中，x_i为像素向量，μ_c为车道线的均值向量，[x]+ = max(0,x) 为了方便在推理时对像素进行聚类，在图4中实例分割loss中设置δ_d > 6*δ_v。在进行聚类时，首先使用mean shift聚类，使得簇中心沿着密度上升的方向移动，防止将离群点选入相同的簇中；之后对像素向量进行划分：以簇中心为圆心，以2δ_v为半径，选取圆中所有的像素归为同一车道线。重复该步骤，直到将所有的车道线像素分配给对应的车道。 LaneNet是基于 ENet 的encoder-decoder模型，如图5所示，ENet由5个stage组成，其中stage2和stage3基本相同，stage1,2,3属于encoder，stage4,5属于decoder。如图2所示，在LaneNet中，语义分割和实例分割两个任务共享stage1和stage2 ，并将stage3和后面的decoder层作为各自的分支(branch)进行训练；其中，语义分割分支(branch)的输出shape为W*H*2，实例分割分支(branch)的输出shape为W*H*N，W,H分别为原图宽和高，N为embedding vector的维度；两个分支的loss权重相同。 LaneNet的输出是每条车道线的像素集合，还需要根据这些像素点回归出一条车道线。传统的做法是将图片投影到鸟瞰图中，然后使用2阶或者3阶多项式进行拟合。在这种方法中，转换矩阵H只被计算一次，所有的图片使用的是相同的转换矩阵，这会导致地平面（山地，丘陵）变化下的误差。为了解决这个问题，论文训练了一个可以预测转置矩阵H的神经网络H-Net，网络的输入是图片，输出是转置矩阵H ：由图6可以看出，转置矩阵H只有6个参数，因此H-Net的输出是一个6维的向量。H-Net由6层普通卷积网络和一层全连接网络构成，其网络结构如图7所示： Curve fitting的过程就是通过坐标y去重新预测坐标x的过程：LaneNet和H-Net是分别进行训练的。在论文的实验部分，两个模型的参数配置如下所示： • Dataset : Tusimple • Embedding dimension = 4 • δ_v= • δ_d=3 • Image size = 512*256 • Adam optimizer • Learning rate = 5e-4 • Batch size = 8 • Dataset : Tusimple • 3rd-orderpolynomial • Image size =128*64 • Adam optimizer • Learning rate = 5e-5 • Batch size = 10

224 评论 11小时前发布

视频车道线检测论文

2个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序