传统的检测方法与单目视觉检测都存在检测精度不高,鲁棒性不够等问题.提出了一种基于立体视觉的道路检测算法,消除了对道路的一般性假设。对三维道路状态能进行快速有效地检测与跟踪.保证行驶的安全性.关键词:立体视觉;道路识别;道路跟踪;扩展卡尔曼滤波
车道线检测算法通常分为两种类型:一种是基于基于视觉特征来做语义分割或者实例分割,例如 LaneNet 和 SCNN ;另一种是通过视觉特征来预测车道线所在位置的点,以此来解决 no-visual-clue 问题的模型,比如本文提到的 Ultra-Fast-Lane-Detection 。
offical github : paper : Ultra Fast Structure-aware Deep Lane Detection
下图展示了整个模型的结构,基本可以分为三个部分: Backbone 、 Auxiliary 部分和用于车道线候选点选择的 Group Classification 部分。可以看出,由于整个 pipeline 中参与最终 inference 的部分只进行了下采样而不像分割模型还进行了多轮的上采样,因此模型整体的计算量是相当低的,根据论文给出的结果可以达到 300FPS 。
Backbone 部分采用了较小的 ResNet18 或者 ResNet34 ,下采样到 4X 的部分作为最终的特征,这里其实是较为浅层的特征,一般分割模型要下采样到 16x 或者 32x 。论文里也提到了使用较大的感受野就可以达到不错的检测效果,这样就可以极大的提高模型的推理速度。
Auxiliary 部分对三层浅层特征进行了 concat 和上采样,用来进行实例分割。其目的是在训练过程中增强视觉特征,不参与推理。
Group Classification 部分如下所示,论文称之为 row-based selecting method based on global image features ,即在全局特征上进行行索引来计算候选点,这样的方法将先验假设融入到了车道线检测的任务中。
在分割任务上,最终的特征图的大小是 HxWxC 。分类是要沿着 C 方向的, C 方向的向量代表一个像素位置的特征向量属于哪一个类别;在本方法中,最终的特征图的大小是 hx(w+1)xC 。 h 是要在垂直方向上采样的行的数量( row anchor ), h 文章中使用的 Loss 函数分为三部分,分别是多分类损失 L_cls , 分割损失 L_seg 和车道结构化损失 L_str 。其中 L_cls 和 L_seg 是常用的分类、分割任务中常用的两种损失。 结构损失的目的是利用车道结构的先验知识来约束预测出来的车道线的形状。其中 L_sim 为相似度损失, L_shp 为形状损失。 相似度损失的出发点是同一个车道中,相邻的两个点之间的距离应该尽可能的近,这里使用 L1 范式来进行距离的约束。 形状损失的出发点是基于大多的的车道线都是直线,即使是曲线其大部分也是近似的直线。对于同一条车道线,在相邻 row achor 上的车道线的候选点的位置的选择应该尽可能的相近。理想的状况下它的值应该为 0 。 Loc 函数的含义是第 i 条车道的第 j 个 row anchor 中车道点的期望。 Prob 代表的是第 i 条车道的第 j 个 row anchor 中,第 k 个位置是车道点的概率。因为背景不被计算在内,因此 k 的取值从 1 开始。 论文给出 metric 结果如下所示,其评估硬件应该为 NVIDIA GTX 1080TI 。该方法在保证精度接近的情况下,极大的提升了推理速度,很适合实时检测的任务。 为了测试其真实的推理性能,我在 NVIDIA RTX 3070+CUDA11+ 的环境性进行了测试。模型的 backbone 为 resnet18 ,输入尺寸为 (288, 800, 3) 的情况下, Ultra-Fast-Lane-Detection 的推理性能如下所示,单 batch 推理速度约为 350FPS ,其性能与论文给出的结果基本一致。 Automatic Pixel-Level Crack Detection on Dam Surface Using Deep Convolutional Network 论文笔记 论文:Automatic Pixel-Level Crack Detection on Dam Surface Using Deep Convolutional Network Received: 大多数坝面裂缝检测只能实现裂缝分类及粗略的定位。像素级语义分割检测可以提供更加精确直观的检测结果。作者提出一种基于深度卷积网络的坝面裂缝检测算法。首先使用无人机进行数据采集,然后对采集到的图像进行预处理(包括裁剪、手动标注),最后对设计好的CDDS 网络结构进行训练、验证和测试。 与ResNet152-based SegNet U-Net FCN 进行了比较。 大坝是水电站的重要水利建筑物。大坝的安全运行对于水电站有着重要的意义。由于结构变形、地震、水流引起的裂缝对大坝坝体产生严重的影响并威胁到水电站的安全运行。因此,对大坝结构的定期健康评估,特别是对大坝裂缝的检测任务变得尤为重要。 根据大坝裂缝的结构特征以及裂缝强度,人们可以对大坝的结构健康进行评估和监测。传统的大坝裂缝的巡检任务通常基于人工进行检测,但是效率低下、耗时费力,浪费了大量的人工成本,因此对裂缝的自动高效检测是非常必要的。 基于计算机视觉的裂缝检测算法得到了广泛的研究。这些方法大多采用传统的图像处理技术和机器学习方法,以识别出一些简单的结构损伤。这些方法利用手工提取的特征从图像中提取特征,然后评估提取的特征是否表示缺陷。然而,上述方法的结果不可避免地受到主观因素的影响 卷积神经网络(CNN)在图像分类和识别领域取得很大的进步,基于CNN的裂缝检测算法也展示出更优异的表现。大坝裂缝的特点: 修补痕迹、噪声大、背景纹理复杂、非结构化的、分布不均匀、裂缝位置随机、背景模糊等缺点 提出了一种像素级的大坝表面裂缝检测方法,利用深卷积网络进行特征提取。利用浅卷积层的定位特征和深卷积层的抽象特征,进行 多尺度卷积级联融合和多维损失值计算 ,实现裂纹缺陷像素级分割,并以高精度、高效率等优点解决了坝面明显裂缝检测问题,消除了可能存在的安全隐患,确保了坝面安全。实验结果表明,该方法对大坝表面像素级裂缝的检测是最优的。 语义分割 PSPNet [42],ICNet [43], Deeplabv3[44],UNet [45] and SegNet [46] 语义分割网络通常分为编码网络和解码网络。 编码网络: 卷积层:用于提取输入图像的特征 池化层:减小feature map的规模,减轻计算负担。 解码网络: 反卷积层(反褶积层):上采样还原feature map大小与输入图像相同,并输出预测结果。 编解码网络结构高度对称:同时利用稀疏feature map和稠密feature map。 为了融合sparse 和 dense feature ,采用跳跃模块以连接编解码网络。编码网络: 15 卷积层:3*3 步长1 4 池化层: 2*2 步长2 解码网络: 15 反卷积层 1*1 4池化层 采用dropout和BN防止过拟合。 Skip branch 4个,1*1卷积和反卷积 每个branch计算 branch loss,4个branch loss级联为总损失的一部分。 Skip branch 的输入输出图像大小不变。卷积核的通道数必须等于输入张量的通道数。降采样 取矩阵最大值 卷积核大小 2*2 步长为2。反褶积也叫做转置卷积 通过上采样还原feature map与输入图像大小相同。 上采样方法:反褶积法、 插值法 反褶积法:对张量进行zero-padding填充最外层,再用反褶积核进行反褶积,修剪第一行和最后一行。1000副5472*3648图像使用LEAR软件手动标记。 得到504张数据集,404用于训练,50用于验证,50用于测试。 在Linux系统上使用TensorFlow构建的 在配置了8 GB GPU的HP工作站上执行培训、验证和测试 利用Anaconda建立了CDDS网络的虚拟python环境评价指标: Precision精度表示在所有预测破裂的样本中,样本的基本真实性也被破解的概率。 Recall召回表明在所有标记为开裂的样本中,样本被预测为开裂的概率。当正负样本数量存在较大差距时,仅使用精确性或召回率来评估性能是不合理的。TPR表示所有标记为裂纹的样本中被正确预测为裂纹的概率。TNR代表以标签为背景的所有样本中被正确预测为背景的概率.F-measure考虑到查全率和查准率的综合影响,F-测度是一个综合指标。IoU是目标检测领域中常用的评价定位精度的方法。IoU表示预测结果与地面真实值的交集与联合的交集的比率。大坝表面裂缝图像分为背景和裂缝两类。背景像素的数目远大于裂纹像素的数目。通常情况下,我们会同时计算背景arrears和裂缝arrears,然后以两张arrears的平均数作为最终arrears。IoU值是由背景像素决定的,不能准确表达裂纹的定位精度。使用三种学习速率10^4,10^5,10^6 使用softmax函数计算概率 使用Dice loss计算网络损失。 裂缝骨架提取:快速细化算法 调用OpenCV库,进行计算。 计算裂缝面积及长度宽度。使用其他裂缝数据集进行补充验证 ,在测试数据集上,提出的CDDS网络的裂纹IOU和F测度分别达到和 略。 推荐下计算机视觉这个领域,依据学术范标准评价体系得出的近年来最重要的9篇论文吧: (对于英语阅读有困难的同学,访问后可以使用翻译功能) 一、Deep Residual Learning for Image Recognition 摘要:Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. We provide comprehensive empirical evidence showing that these residual networks are easier to optimize, and can gain accuracy from considerably increased depth. On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers—8× deeper than VGG nets [40] but still having lower complexity. An ensemble of these residual nets achieves error on the ImageNet test set. This result won the 1st place on the ILSVRC 2015 classification task. We also present analysis on CIFAR-10 with 100 and 1000 layers. The depth of representations is of central importance for many visual recognition tasks. Solely due to our extremely deep representations, we obtain a 28% relative improvement on the COCO object detection dataset. Deep residual nets are foundations of our submissions to ILSVRC & COCO 2015 competitions1, where we also won the 1st places on the tasks of ImageNet detection, ImageNet localization, COCO detection, and COCO segmentation. 全文链接: 文献全文 - 学术范 () 二、Very Deep Convolutional Networks for Large-Scale Image Recognition 摘要:In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main contribution is a thorough evaluation of networks of increasing depth using an architecture with very small (3x3) convolution filters, which shows that a significant improvement on the prior-art configurations can be achieved by pushing the depth to 16-19 weight layers. These findings were the basis of our ImageNet Challenge 2014 submission, where our team secured the first and the second places in the localisation and classification tracks respectively. We also show that our representations generalise well to other datasets, where they achieve state-of-the-art results. We have made our two best-performing ConvNet models publicly available to facilitate further research on the use of deep visual representations in computer vision. 全文链接: 文献全文 - 学术范 () 三、U-Net: Convolutional Networks for Biomedical Image Segmentation 摘要:There is large consent that successful training of deep networks requires many thousand annotated training samples. In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotated samples more efficiently. The architecture consists of a contracting path to capture context and a symmetric expanding path that enables precise localization. We show that such a network can be trained end-to-end from very few images and outperforms the prior best method (a sliding-window convolutional network) on the ISBI challenge for segmentation of neuronal structures in electron microscopic stacks. Using the same network trained on transmitted light microscopy images (phase contrast and DIC) we won the ISBI cell tracking challenge 2015 in these categories by a large margin. Moreover, the network is fast. Segmentation of a 512x512 image takes less than a second on a recent GPU. The full implementation (based on Caffe) and the trained networks are available at . 全文链接: 文献全文 - 学术范 () 四、Microsoft COCO: Common Objects in Context 摘要:We present a new dataset with the goal of advancing the state-of-the-art in object recognition by placing the question of object recognition in the context of the broader question of scene understanding. This is achieved by gathering images of complex everyday scenes containing common objects in their natural context. Objects are labeled using per-instance segmentations to aid in precise object localization. Our dataset contains photos of 91 objects types that would be easily recognizable by a 4 year old. With a total of million labeled instances in 328k images, the creation of our dataset drew upon extensive crowd worker involvement via novel user interfaces for category detection, instance spotting and instance segmentation. We present a detailed statistical analysis of the dataset in comparison to PASCAL, ImageNet, and SUN. Finally, we provide baseline performance analysis for bounding box and segmentation detection results using a Deformable Parts Model. 全文链接: 文献全文 - 学术范 () 五、Rethinking the Inception Architecture for Computer Vision 摘要:Convolutional networks are at the core of most state of-the-art computer vision solutions for a wide variety of tasks. Since 2014 very deep convolutional networks started to become mainstream, yielding substantial gains in various benchmarks. Although increased model size and computational cost tend to translate to immediate quality gains for most tasks (as long as enough labeled data is provided for training), computational efficiency and low parameter count are still enabling factors for various use cases such as mobile vision and big-data scenarios. Here we are exploring ways to scale up networks in ways that aim at utilizing the added computation as efficiently as possible by suitably factorized convolutions and aggressive regularization. We benchmark our methods on the ILSVRC 2012 classification challenge validation set demonstrate substantial gains over the state of the art: 21:2% top-1 and 5:6% top-5 error for single frame evaluation using a network with a computational cost of 5 billion multiply-adds per inference and with using less than 25 million parameters. With an ensemble of 4 models and multi-crop evaluation, we report 3:5% top-5 error and 17:3% top-1 error on the validation set and 3:6% top-5 error on the official test set. 全文链接: 文献全文 - 学术范 () 六、Mask R-CNN 摘要:We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition. Mask R-CNN is simple to train and adds only a small overhead to Faster R-CNN, running at 5 fps. Moreover, Mask R-CNN is easy to generalize to other tasks, ., allowing us to estimate human poses in the same framework. We show top results in all three tracks of the COCO suite of challenges, including instance segmentation, bounding-box object detection, and person keypoint detection. Without tricks, Mask R-CNN outperforms all existing, single-model entries on every task, including the COCO 2016 challenge winners. We hope our simple and effective approach will serve as a solid baseline and help ease future research in instance-level recognition. Code will be made available. 全文链接: 文献全文 - 学术范 () 七、Feature Pyramid Networks for Object Detection 摘要:Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But pyramid representations have been avoided in recent object detectors that are based on deep convolutional networks, partially because they are slow to compute and memory intensive. In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. A top-down architecture with lateral connections is developed for building high-level semantic feature maps at all scales. This architecture, called a Feature Pyramid Network (FPN), shows significant improvement as a generic feature extractor in several applications. Using a basic Faster R-CNN system, our method achieves state-of-the-art single-model results on the COCO detection benchmark without bells and whistles, surpassing all existing single-model entries including those from the COCO 2016 challenge winners. In addition, our method can run at 5 FPS on a GPU and thus is a practical and accurate solution to multi-scale object detection. Code will be made publicly available. 全文链接: 文献全文 - 学术范 () 八、ORB: An efficient alternative to SIFT or SURF 摘要:Feature matching is at the base of many computer vision problems, such as object recognition or structure from motion. Current methods rely on costly descriptors for detection and matching. In this paper, we propose a very fast binary descriptor based on BRIEF, called ORB, which is rotation invariant and resistant to noise. We demonstrate through experiments how ORB is at two orders of magnitude faster than SIFT, while performing as well in many situations. The efficiency is tested on several real-world applications, including object detection and patch-tracking on a smart phone. 全文链接: 文献全文 - 学术范 () 九、DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs 摘要:In this work we address the task of semantic image segmentation with Deep Learning and make three main contributions that are experimentally shown to have substantial practical merit. First , we highlight convolution with upsampled filters, or ‘atrous convolution’, as a powerful tool in dense prediction tasks. Atrous convolution allows us to explicitly control the resolution at which feature responses are computed within Deep Convolutional Neural Networks. It also allows us to effectively enlarge the field of view of filters to incorporate larger context without increasing the number of parameters or the amount of computation. Second , we propose atrous spatial pyramid pooling (ASPP) to robustly segment objects at multiple scales. ASPP probes an incoming convolutional feature layer with filters at multiple sampling rates and effective fields-of-views, thus capturing objects as well as image context at multiple scales. Third , we improve the localization of object boundaries by combining methods from DCNNs and probabilistic graphical models. The commonly deployed combination of max-pooling and downsampling in DCNNs achieves invariance but has a toll on localization accuracy. We overcome this by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF), which is shown both qualitatively and quantitatively to improve localization performance. Our proposed “DeepLab” system sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching percent mIOU in the test set, and advances the results on three other datasets: PASCAL-Context, PASCAL-Person-Part, and Cityscapes. All of our code is made publicly available online. 全文链接: 文献全文 - 学术范 () 希望对你有帮助! 计算机视觉技术自20世纪70年代产生以来就得到了全世界的广泛关注。下面是我整理了计算机视觉技术论文,有兴趣的亲可以来阅读一下! 计算机视觉技术的应用研究 摘 要 文章在介绍计算机视觉技术相关内容的基础上,对该技术在工业、农业、林业和农产品检测这四个领域的具体应用进行简要分析。 关键词 计算机;视觉技术;应用研究 中图分类号:TP212 文献标识码:A 文章编号:1671-7597(2013)16-0114-01 计算机视觉技术自20世纪70年代产生以来就得到了全世界的广泛关注。作为一种多学科综合应用下的新技术,随着专家对其研究会的不断深入,其应用领域也越来越广,给人们的生产生活带来了极大方便。 1 计算机视觉技术 计算机视觉技术是在计算机技术应用下发展起来的一种新技术,主要用来研究计算机模拟生物的宏观或外显功能。该技术在应用过程中会涉及到计算机科学、神经生物学、人工智能、模式识别以及图像处理等多个学科,多学科技术的综合运用使得计算机具有了“感知”周围世界的能力,这也正是该技术发挥作用的核心所在。计算机视觉技术的特点就在于,首先,它能在不接触被测者的前提下完成对被测者的检测;其次,该技术应用的领域和检测的对象非常广,能在敏感器件的应用下,完成对人类难以观察到的超声波、微波和红外线等的检测;最后,该技术还突破了人在视觉观察上长时间工作的限制,能对检测对象进行长时间观察。 2 计算机视觉技术在各领域的应用分析 随着计算机视觉技术研究的不断加深,该技术的应用领域也越来越广,下面,本文就选取工业、农业、林业、农产品检测、电力系统自动化及图书馆工作这6个方面对计算机视觉技术的应用进行简要分析。 在工业领域中的应用 工业生产对产品的质量要求极高,计算机视觉技术在工业上的应用主要集中在以下3方面:1)产品形状和尺寸的检测上。对制造业而言,产品的形状和尺寸是否合格直接影响到产品在实际应用过程中作用的发挥。计算机视觉技术的应用能对产品进行二维和三维等几何特征的检测,如产品的圆度、位置及形状等。2)产品零部件缺失情况的检测。在生产线运行过程中,计算机视觉技术能准确检测出产品在生产过程中是否存在铆钉、螺丝钉等零部件的缺失以及产品内部是否在生产过程中掺进杂质等。3)产品表面质量的检测。为了从各个方面保证产品的合格性,对其进行表面质量的检测也是一个极其重要的环节。计算机视觉技术实现了对产品表面的纹理、粗糙度、划痕、裂纹等各方面的有效检测。 在农业生产领域中的应用 该技术在农业领域的应用主要集中在以下两方面:1)对病虫害的预测预报。预测预报作用发挥的关键环节是建立起计算机视觉技术对所有昆虫的识别体系。对昆虫图像识别系统进行数字化建模所使用的方法主要以下2种,一种是运用数学形态学的方法对害虫的边缘进行检测,进而提取害虫的特征;第二种是从昆虫的二值化图像中提取出昆虫的周长、面积和复杂度等基本信息,并对这些信息建立害虫的模板库以实现对昆虫的模糊决策分析。2)对农作物生长的监测。常用的方法就是运用计算机视觉技术下的非接触式监测系统对农作物生长环境下的光照、温度、湿度、风速、营养液浓度等相关因素进行连续地监测,进而判断出农作物长势。 在林业生产中的应用 该技术在林业生产中的应用主要集中在农药喷洒和林木球果采集这两方面。就林业的农药喷洒而言,常规的农药喷洒方式易造成农药的大量流失,不仅达不到防止林业有害生物的目的,还浪费了大量的人力、物力和财力。计算机视觉技术的应用能通过对施药目标图像进行实时分析,得出具体的施药量和准确的施药位置,该技术指导下的施药工作极大发挥了农药的效果。就林木球果采集而言,该采集工作的操作难度一直都很大,我国当前使用的方法主要是人工使用专业工具下的采集以及机械设备运用下的高空作业车采集和摇振采种机采集,这两种方式都存在一定的安全性和效率问题。计算机视觉技术的应用能通过对需要进行采集的林木球果进行图像采集来得出球果所处的具体位置,再结合专业机械手的使用完成球果采集。该技术不仅节省了大量劳动力,还极大提高了采摘效率。 在农产品检测中的应用 农产品在生产过程中受自然环境的影响比较大,所以农产品不仅会产生质量上的差异,还会造成颜色、大小、形状等外观上的极大不同。由于农产品在出售时大多要进行产品等级的划分,所以将计算机视觉技术运用到对其颜色和外形尺寸的检测上,有效达到了对农产品进行检测的目的。通过对外观大小尺寸的检测,不仅提高了对农产品进行分门别类地等级划分的效率,还在很大程度上减少了对产品的损坏;通过对西瓜等农产品进行颜色上的检测,能准确判断其是否成熟,有效避免了人工操作下的失误。 在电力系统自动化中的应用 计算机视觉技术在电力系统自动化应用的表现当前主要表现在以下2个方面:1)在人机界面中的应用。人机界面在运行过程中更加强调人的主体地位,实现了用户对各种效应通道和感觉通道的运用。具体来讲,计算机视觉技术在用户向计算机的输入方面,效应通道实现了手动为主向手、足、口、身体等的转变;在计算机向用户的输出方面,感觉通道实现了视觉为主向触觉、嗅觉、听觉等的转变。2)在电厂煤粉锅炉火焰检测中的应用。对煤粉锅炉火焰的检测既能有效判断锅炉的运行状况,又能在很大程度上实现电厂的安全性运营。由于煤的负荷变化和种类变化会在使着火位置发生移动,所以为了保证炉膛火焰检测的准确性,必须弥补之前单纯应用火焰检测器只能判断有无火焰开关量信号的弊端。计算机视觉技术的应用,就在弥补火焰检测器应用弊端的基础上,实现了对火焰形状的进一步检测。 在图书馆工作中的应用 随着当前数字图书馆和自动化管理系统的建立,计算机技术在图书馆方面的应用越来越广泛。当前计算机视觉技术在图书馆方面的应用主要集中在古籍修补和书刊剔旧这两方面。就古籍修补而言,古籍图书等在收藏的过程中,受温度、湿度、光照等的影响,极易导致纸张变黄、变脆以及虫洞等现象的出现。在进行修补时,依靠计算机视觉技术开展具体的修补工作,能在很大程度上提高修补工作的效率。就书刊剔旧而言,由于图书馆藏书众多,对那些使用率低且较为陈旧的文献资料进行及时地剔除,能实现图书资源的及时更新。计算机视觉技术在该方面的应用,极大地保证了工作的准确性和效率性。 3 结束语 通过以上对计算机视觉技术在工业、农业、林业、农产品检测、电力系统自动化及图书馆工作这6个方面的研究可以看出,随着计算机技术的进一步发展以及计算机与各专业学科的不断渗透,该技术的发展前景和应用领域都将更加广阔。 参考文献 [1]郑加强.基于计算机视觉的雾滴尺寸检测技术[J].南京林业大学学报,2009(09). [2]沈明彼.计算机视觉技术在社会各领域应用的发展与展望[J].农业机械学报,2012(03). 点击下页还有更多>>>计算机视觉技术论文 本文将对论文 Towards End-to-End Lane Detection: an Instance Segmentation Approach 进行解读。这篇论文是于2018年2月挂在arxiv上的。 文中提出了一种端到端的车道线检测算法,包括LaneNet和H-Net两个网络模型。其中,LaneNet是一种将 语义分割 和 对像素进行向量表示 结合起来的多任务模型,负责对图片中的车道线进行 实例分割 ;H-Net是由卷积层和全连接层组成的网络模型,负责预测转换矩阵H,使用转换矩阵H对属于同一车道线的像素点进行回归(我的理解是对使用坐标y对坐标x进行修正)。 根据论文中的实验结果,该算法在图森的车道线数据集上的准确率为,在NVIDIA 1080 TI上的处理速度为52FPS。 如图1所示,对于同一张输入图片,LaneNet输出实例分割的结果,为每个车道线像素分配一个车道线ID,H-Net输出一个转换矩阵H,使用转换矩阵H对车道线像素进行修正,并对修正的结果拟合出一个三阶的多项式作为预测得到的车道线。 论文中将实例分割任务拆解为 语义分割 和 聚类 两部分,如图2所示,LaneNet中decoder分为两个分支,Embedding branch对像素进行嵌入式表示,训练得到的embedding向量用于聚类,Segmentation branch负责对输入图像进行语义分割(对像素进行二分类,判断像素属于车道线还是背景)。最后将两个分支的结果进行结合得到实例分割的结果。 在设计语义分割模型时,论文主要考虑了以下两个方面: 1.在构建label时,为了处理遮挡问题,论文对被车辆遮挡的车道线和虚线进行了还原; 2. Loss使用 交叉熵 ,为了解决样本分布不均衡的问题(属于车道线的像素远少于属于背景的像素),参考论文 ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation ,使用了boundedinverse class weight对loss进行加权: 其中,p为对应类别在总体样本中出现的概率,c是超参数(ENet论文中是,使得权重的取值区间为[1,50])。 为了区分车道线上的像素属于哪条车道,embedding_branch为每个像素初始化一个embedding向量,并且在设计loss时, 使得属于同一条车道线的像素向量距离很小,属于不同车道线的像素向量距离很大 。 这部分的loss函数是由两部分组成:方差loss(L_var)和距离loss(L_dist): 其中,x_i为像素向量,μ_c为车道线的均值向量,[x]+ = max(0,x) 为了方便在推理时对像素进行聚类,在图4中实例分割loss中设置δ_d > 6*δ_v。 在进行聚类时,首先使用mean shift聚类,使得簇中心沿着密度上升的方向移动,防止将离群点选入相同的簇中;之后对像素向量进行划分:以簇中心为圆心,以2δ_v为半径,选取圆中所有的像素归为同一车道线。重复该步骤,直到将所有的车道线像素分配给对应的车道。 LaneNet是基于 ENet 的encoder-decoder模型,如图5所示,ENet由5个stage组成,其中stage2和stage3基本相同,stage1,2,3属于encoder,stage4,5属于decoder。 如图2所示,在LaneNet中,语义分割和实例分割两个任务 共享stage1和stage2 ,并将stage3和后面的decoder层作为各自的分支(branch)进行训练;其中, 语义分割分支(branch)的输出shape为W*H*2,实例分割分支(branch)的输出shape为W*H*N,W,H分别为原图宽和高,N为embedding vector的维度;两个分支的loss权重相同。 LaneNet的输出是每条车道线的像素集合,还需要根据这些像素点回归出一条车道线。传统的做法是将图片投影到鸟瞰图中,然后使用2阶或者3阶多项式进行拟合。在这种方法中,转换矩阵H只被计算一次,所有的图片使用的是相同的转换矩阵,这会导致地平面(山地,丘陵)变化下的误差。 为了解决这个问题,论文训练了一个可以预测转置矩阵H的神经网络H-Net, 网络的输入是图片 , 输出是转置矩阵H : 由图6可以看出,转置矩阵H只有6个参数,因此H-Net的输出是一个6维的向量。H-Net由6层普通卷积网络和一层全连接网络构成,其网络结构如图7所示: Curve fitting的过程就是通过坐标y去重新预测坐标x的过程:LaneNet和H-Net是分别进行训练的。在论文的实验部分,两个模型的参数配置如下所示: • Dataset : Tusimple • Embedding dimension = 4 • δ_v= • δ_d=3 • Image size = 512*256 • Adam optimizer • Learning rate = 5e-4 • Batch size = 8 • Dataset : Tusimple • 3rd-orderpolynomial • Image size =128*64 • Adam optimizer • Learning rate = 5e-5 • Batch size = 10 假设有一条直线如下图: 在 笛卡儿平面坐标系 统中的斜率参数与截距参数为 (k,b) ; 对于 每个平面空间的像素点坐标(x,y) , 随着 角度θ 的取值不同,都会 得到r值 , (%+++%要点.B)而对于 任意一条直线 来说,在 极坐标空间 它的 (r,θ) 都是 固定不变的 , 则对于 边缘图像 的 每个平面空间坐标点 可绘制 极坐标的曲线 如图所示: OpenCV关于 霍夫直线变换 提供了两个相关API函数, 一个 是在霍夫空间求取 直线两个极坐标的参数 , 需要开发者自己转换到平面坐标空间计算直线; 另外 一个则会 直接返回平面空间直线/线段的两个点坐标信息 。 返回极坐标参数的API函数如下: 使用该API实现直线检测: 以上的这个API函数需要对得到的每对 极坐标参数(r,θ) 做 计算 , 使其 变换 到 平面空间 ( x0 = r * cosθ ; y0 = r * sinθ ), 接着通过对 x0 和 y0 添加 偏移量 并进行计算,得到直线的 两个点 ; 然后 绘制直线 。 另外一个 API函数则比较简单, 它 省去了 开发者自己把极坐标变换为直线坐标的 过程 , 直接返回 每个线段/直线对应的 两个点坐标 , 其API函数与参数的解释具体如下: 使用该API实现图像直线检测: 运动目标的检测的其主要目的是 获取目标对象的运动参数(位置、速度、加速度等)及运动轨迹 ,通过进一步分析处理,实现对目标行为更高层级上的理解。 运动目标检测技术目的是 从序列图像中将变化区域从背景图像中提取出来 ,常用于视频监视、图像压缩、三维重构、异常检测等。 运动目标检测主流方法有帧差法、背景差法、光流法等。光流法源于 仿生学 思想,更贴近于直觉,大量昆虫的视觉机理便是基于光流法。 二十世纪五十年代心理学家Gibson在他的著作“The Perception of Visual World”中首次提出了以心理学实验为基础的光流法基本概念,而直到八十年代才由Horn、Kanade、Lucash和Schunck创造性地将灰度与二维速度场相联系,引入光流约束方程的算法,对光流计算做了奠基性的工作。 光流(optical flow):由于目标对象或者摄像机的移动造成的图像对象在连续两帧图像中的移动。 通俗说,对于一个图片序列,把每张图像每个像素在连续帧之间的运动速度和方向( 某像素点在连续两帧上的位移矢量 )找出来就是光流场。 第t帧的时A点的位置是(x1, y1),第t+1帧时A点位置是(x2,y2),则像素点A的位移矢量:(ux, vy) = (x2, y2) - (x1,y1) 如何知道第t+1帧的时候A点的位置涉及到不同的光流计算方法,主要有四种:基于梯度的方法、基于匹配的方法、基于能量的方法、基于相位的方法。 光流法依赖于三个假设: 根据所形成的光流场中 二维矢量的疏密程度 ,光流法可分为稠密光流与稀疏光流。 稀疏光流只对有 明显特征的组点 (如角点)进行跟踪,计算开销小。 (1)calcOpticalFlowPyrLK 基于金字塔LK光流算法,计算某些点集的稀疏光流。 参考论文《Pyramidal Implementation of the Lucas Kanade Feature TrackerDescription of the algorithm》 (2)calcOpticalFlowFarneback 基于Gunnar Farneback 的算法计算稠密光流。 参考论文《Two-Frame Motion Estimation Based on PolynomialExpansion》 (3)CalcOpticalFlowBM 通过块匹配的方法来计算光流 (4)CalcOpticalFlowHS 基于Horn-Schunck 的算法计算稠密光流。 参考论文《Determining Optical Flow》 (5)calcOpticalFlowSF 论文《SimpleFlow: A Non-iterative, Sublinear Optical FlowAlgo》的实现 cvCanndy检测边缘并二值化图像,然后cvHoughLines2可以检测直线,在知道了直线的数据后,计算线之间的距离不是很简单吗,具体的代码只有参见网络上的代码了,比较简单,祝顺利 深度嵌入聚类算法研究 基于机器视觉的行人重识别算法的分析与实现 基于动力学模型的属性网络重叠社团发现 基于Spring-Boot框架的一体化运维监控应用的研究与实现 Android系统中基于手写密码与笔迹信息的综合认证技术研究 公交线路准点预测方法研究 基于深度学习的医学图像分割算法研究 基于CNN的高速公路流量预测 服务器安全防护与管理综合平台实现 JavaScript全栈视频播放系统设计与实现快速行人检测算法的研发 基于数据挖掘的药物分子筛选方法研究 基于消息队列的自定义审批流程管理系统设计与实现 基于CRF的初等数学命名实体识别 基于多尺度 CNN的图片语义分割研究 基于图像分割技术的连通区域提取算法的研究 基于背景因素推理的目标关系识别算法研究与实现 基于智能移动设备的非接触式人机交互系统设计与实现 分布式数据库物理查询计划调度优化算法研究 基于遮挡的人脸特征提取算法研究与实现 表情识别应用系统的设计与实现 基于CloudSim的云计算与大数据系统的可靠性仿真研究 多源数据库数据采集系统设计与实现 基于Android和WiFi的无线自组织网络P2P通信系统设计与实现 矩阵分解中的流形结构学习研究 基于无监督的OSN恶意账号检测 深度学习在基于视频的人体动作识别上的应用 用户评分的隐式成分信息的研究 线性规划求解算法的实现与应用 基于freeRTOS的嵌入式操作系统分析与实验设计 基于深度强化学习的信息检索的研究与实现 CPM语言编译链接系统的实现 基于SSD的Pascal Voc数据集目标检测设计与实现 复杂网络关键节点识别算法比较研究 基于对抗网络和知识表示的可视问答 基于FPGA实现存储器及虚拟存储器管理 匿名可信身份共享区块链的设计与实现 基于图像的场景分类算法的设计与实现 恶意APK静态检测技术研究与实现 车辆再识别技术研究 写过好多次了。需要的话Q我 其中这些有开题报告 1. 用单片机进行温度的控制及LCD显示系统的设计 2. 基于MultiSim 8的高频电路仿真技术 3. 简易数字电压表的设计 4. 虚拟信号发生器设计及远程实现 5. 智能物业管理器的设计 6. 信号高精度测频方法设计 7. 三相电机的保护控制系统的分析与研究 8. 温度监控系统设计 9. 数字式温度计的设计 10. 全自动节水灌溉系统--硬件部分 11. 电子时钟的设计 12. 全自动电压表的设计 13. 脉冲调宽型伺服放大器的设计 14. 基于虚拟仪器技术的数字滤波及频率测试 15. 基于无线传输技术的室温控制系统设计——温度控制器硬件设计 16. 温度箱模拟控制系统 17. 基于无线传输技术的室温控制系统设计——温度控制器软件设计 18. 基于微控制器的电容器储能放电系统设计 19. 基于机器视觉的构件表面缺陷特征提取 20. 基于单片机的语音提示测温系统的研究 21. 基于单片机的步进电机的控制 22. 单片机的数字钟设计 23. 基于单片机的数字电压表的设计 24. 基于单片机的交流调功器设计 25. 基于SPI通信方式的多通道信号采集器设计 26. 基于LabVIEW虚拟频谱分析仪的设计 27. 功率因数校正器的设计 28. 高精度电容电感测量系统设计 29. 电表智能管理装置的设计 30. 基于Labview的虚拟数字钟设计 31. 超声波测距语音提示系统的研究 32. 斩控式交流电子调压器设计 33. 基于单片机的脉象信号采集系统设计 34. 基于单片机的简易智能小车设计 35. 基于FPGA的18路智力竞赛电子抢答器设计 36. 基于EDA技术的智力竞赛抢答器的设计 37. 基于EDA技术的数字电子钟设计 38. 基于EDA的计算器的设计 39. 基于DDS的频率特性测试仪设计 40. 基于CPLD直流电机控制系统的设计 41. 单色显示屏的设计 42. 扩音电话机的设计 43. 基于单片机的低频信号发生器设计 44. 35KV变电所及配电线路的设计 45. 10kV变电所及低压配电系统的设计 46. 6Kv变电所及低压配电系统的设计 47. 多功能充电器的硬件开发 48. 镍镉电池智能充电器的设计 49. 基于MCS-51单片机的变色灯控制系统设计与实现 50. 智能住宅的功能设计与实现原理研究 51. 用IC卡实现门禁管理系统 52. 变电站综合自动化系统研究 53. 单片机步进电机转速控制器的设计 54. 无刷直流电机数字控制系统的研究与设计 55. 液位控制系统研究与设计 56. 智能红外遥控暖风机设计 57. 基于单片机的多点无线温度监控系统 58. 蔬菜公司恒温库微机监控系统 59. 数字触发提升机控制系统 60. 仓储用多点温湿度测量系统 61. 矿井提升机装置的设计 62. 中频电源的设计 63. 数字PWM直流调速系统的设计 64. 基于ARM的嵌入式温度控制系统的设计 65. 锅炉控制系统的研究与设计 66. 动力电池充电系统设计 67. 多电量采集系统的设计与实现 68. PWM及单片机在按摩机中的应用 69. IC卡预付费煤气表的设计 70. 基于单片机的电子音乐门铃的设计 71. 新型出租车计价器控制电路的设计 72. 单片机太阳能热水器测控仪的设计 73. LED点阵显示屏-软件设计 74. 双容液位串级控制系统的设计与研究 75. 三电平Buck直流变换器主电路的研究 76. 基于PROTEUS软件的实验板仿真 77. 基于16位单片机的串口数据采集 78. 电机学课程CAI课件开发 79. 单片机教学实验板——软件设计 80. 63A三极交流接触器设计 81. 总线式智能PID控制仪 82. 自动售报机的设计 83. 断路器的设计 84. 基于MATLAB的水轮发电机调速系统仿真 85. 数控缠绕机树脂含量自控系统的设计 86. 软胶囊的单片机温度控制(硬件设计) 87. 空调温度控制单元的设计 88. 基于人工神经网络对谐波鉴幅 89. 基于单片机的鱼用投饵机自动控制系统的设计 90. 锅炉汽包水位控制系统 91. 基于单片机的玻璃管加热控制系统设计 92. 基于AT89C51单片机的号音自动播放器设计 93. 基于单片机的普通铣床数控化设计 94. 基于AT89C51单片机的电源切换控制器的设计 95. 基于51单片机的液晶显示器设计 96. 超声波测距仪的设计及其在倒车技术上的应用 97. 智能多路数据采集系统设计 98. 公交车报站系统的设计 99. 基于RS485总线的远程双向数据通信系统的设计 100. 宾馆客房环境检测系统 101. 智能充电器的设计与制作 102. 基于单片机的户式中央空调器温度测控系统设计 103. 基于单片机的乳粉包装称重控制系统设计 104. 基于单片机的定量物料自动配比系统 105. 基于单片机的液位检测 106. 基于单片机的水位控制系统设计 107. 基于VDMOS调速实验系统主电路模板的设计与开发 108. 基于IGBT-IPM的调速实验系统驱动模板的设计与开发 109. HEF4752为核心的交流调速系统控制电路模板的设计与开发 110. 基于87C196MC交流调速实验系统软件的设计与开发 111. 87C196MC单片机最小系统单板电路模板的设计与开发 112. 电子密码锁控制电路设计 113. 基于单片机的数字式温度计设计 114. 列车测速报警系统 115. 基于单片机的步进电机控制系统 116. 语音控制小汽车控制系统设计 117. 智能型客车超载检测系统的设计 118. 直流机组电动机设计 119. 单片机控制交通灯设计 120. 中型电弧炉单片机控制系统设计 121. 中频淬火电气控制系统设计 122. 新型洗浴器设计 123. 新型电磁开水炉设计 124. 基于电流型逆变器的中频冶炼电气设计 125. 6KW电磁采暖炉电气设计 126. 基于CD4017电平显示器 127. 多路智力抢答器设计 128. 智能型充电器的电源和显示的设计 129. 基于单片机的温度测量系统的设计 130. 龙门刨床的可逆直流调速系统的设计 131. 音频信号分析仪 132. 基于单片机的机械通风控制器设计 133. 论电气设计中低压交流接触器的使用 134. 论人工智能的现状与发展方向 135. 浅论配电系统的保护与选择 136. 浅论扬州帝一电器的供电系统 137. 浅谈光纤光缆和通信电缆 138. 浅谈数据通信及其应用前景 139. 浅谈塑料光纤传光原理 140. 浅析数字信号的载波传输 141. 浅析通信原理中的增量控制 142. 太阳能热水器水温水位测控仪分析 143. 电气设备的漏电保护及接地 144. 论“人工智能”中的知识获取技术 145. 论PLC应用及使用中应注意的问题 146. 论传感器使用中的抗干扰技术 147. 论电测技术中的抗干扰问题 148. 论高频电路的频谱线性搬移 149. 论高频反馈控制电路 150. 论工厂导线和电缆截面的选择 151. 论工厂供电系统的运行及管理 152. 论供电系统的防雷、接地保护及电气安全 153. 论交流变频调速系统 154. 论人工智能中的知识表示技术 155. 论双闭环无静差调速系统 156. 论特殊应用类型的传感器 157. 论无损探伤的特点 158. 论在线检测 159. 论专家系统 160. 论自动测试系统设计的几个问题 161. 浅析时分复用的基本原理 162. 试论配电系统设计方案的比较 163. 试论特殊条件下交流接触器的选用 164. 自动选台立体声调频收音机 165. 基于立体声调频收音机的研究 166. 基于环绕立体声转接器的设计 167. 基于红外线报警系统的研究 168. 多种变化彩灯 169. 单片机音乐演奏控制器设计 170. 单目视觉车道偏离报警系统 171. 基于单片机的波形发生器设计 172. 智能毫伏表的设计 173. 微机型高压电网继电保护系统的设计 174. 基于单片机mega16L的煤气报警器的设计 175. 串行显示的步进电机单片机控制系统 176. 编码发射与接收报警系统设计:看护机 177. 编码发射接收报警设计:爱情鸟 178. 红外快速检测人体温度装置的设计与研制 179. 用单片机控制的多功能门铃 180. 电气控制线路的设计原则 181. 电气设备的选择与校验 182. 浅论10KV供电系统的继电保护的设计方案 183. 智能编码电控锁设计 184. 自行车里程,速度计的设计 185. 等精度频率计的设计 186. 基于嵌入式系统的原油含水分析仪的硬件与人机界面设计 187. 数字电子钟的设计与制作 188. 温度报警器的电路设计与制作 189. 数字电子钟的电路设计 190. 鸡舍电子智能补光器的设计 191. 电子密码锁的电路设计与制作 192. 单片机控制电梯系统的设计 193. 常用电器维修方法综述 194. 控制式智能计热表的设计 195. 无线射频识别系统发射接收硬件电路的设计 196. 基于单片机PIC16F877的环境监测系统的设计 197. 基于ADE7758的电能监测系统的设计 198. 基于单片机的水温控制系统 199. 基于单片机的鸡雏恒温孵化器的设计 200. 自动存包柜的设计 201. 空调器微电脑控制系统 202. 全自动洗衣机控制器 203. 小功率不间断电源(UPS)中变换器的原理与设计 204. 智能温度巡检仪的研制 205. 保险箱遥控密码锁 206. 基于蓝牙技术的心电动态监护系统的研究 207. 低成本智能住宅监控系统的设计 208. 大型发电厂的继电保护配置 209. 直流操作电源监控系统的研究 210. 悬挂运动控制系统 211. 气体泄漏超声检测系统的设计 212. FC-TCR型无功补偿装置控制器的设计 213. 150MHz频段窄带调频无线接收机 214. 数字显示式电子体温计 215. 基于单片机的病床呼叫控制系统 216. 基于单片微型计算机的多路室内火灾报警器 217. 基于单片微型计算机的语音播出的作息时间控制器 218. 交通信号灯控制电路的设计 219. 单片机控制的全自动洗衣机毕业设计论文 220. 单片机脉搏测量仪 221. 红外报警器设计与实现 小方框 长方形 三角形 5 4 7 82041计算机视觉检测论文
车道线检测硕士论文
opencv视觉检测论文
机器视觉识别论文题目