自然场景检测最新论文

2个回答默认排序

默认排序

按时间排序

shishan786

已采纳

之前也是为论文苦恼了半天，网上的范文和能搜到的资料，大都不全面，一般能有个正文就不错了，而且抄袭的东西肯定不行的，关键是没有数据和分析部分，我好不容易搞出来一篇，结果还过不了审。还好后来找到文方网，直接让专业人士帮忙，效率很高，核心的部分帮我搞定了，也给了很多参考文献资料。哎，专业的事还是要找专业的人来做啊，建议有问题参考下文方网吧下面是之前文方网王老师发给我的题目，分享给大家：基于深度学习的无人机地面小目标算法研究基于视觉的智能汽车面向前方车辆的运动轨迹预测技术研究模拟射击训练弹着点检测定位技术研究基于深度卷积神经网络的空中目标识别算法的研究基于可见光图像的飞行器多目标识别及位置估计无人驾驶车辆手势指令识别研究与实现车载毫米波雷达目标检测技术研究基于多传感融合的四足机器人建图方法中老年人群跌倒风险评估的数据采集系统基于深度学习的视觉SLAM闭环检测方法研究真实图片比较视觉搜索任务的年龄效应及对策研究室内复杂场景下的视觉SLAM系统构建与研究基于双目内窥镜的软组织图像三维重建学习资源画面色彩表征影响学习注意的研究毫米波雷达与机器视觉双模探测关键技术的研究语义地图及其关键技术研究多重影响因素下的语音识别系统研究基于卷积神经网络的自主空中加油识别测量技术研究基于视觉语义的深度估计、实例分割与重建重复视觉危险刺激——本能恐惧反应的“二态型”调控机制研究低成本视觉下的三维物体识别与位姿估计面向非规则目标的3D视觉引导抓取方法及系统研究基于物体识别地理配准的跨视频行人检测定位技术研究基于结构光的非刚体目标快速三维重建关键技术研究基于机器视觉的动物交互行为与认知状态分析系统关于单目视觉实时定位与建图中的优化算法研究动态场景下无人机SLAM在智慧城市中的关键技术研究面向视觉SLAM的联合特征匹配和跟踪算法研究基于深度学习的显著物体检测基于平面波的三维超声成像方法与灵长类动物脑成像应用研究基于物体检测和地理匹配的室内融合定位技术研究基于多模态信息融合的人体动作识别方法研究基于视觉惯性里程计的SLAM系统研究基于语义信息的图像/点云配准与三维重建基于种子点选取的点云分割算法研究基于深度学习的场景文字检测与识别方法研究基于运动上下文信息学习的室内视频烟雾预警算法研究基于深度学习的垃圾分类系统设计与实现面向手机部件的目标区域检测算法的设计与实现电路板自动光照检测系统的设计与实现基于机器视觉的工件识别与定位系统的设计与实现基于深度学习的物件识别定位系统的设计与实现基于视觉四旋翼无人机编队系统设计及实现基于视觉惯导融合的四旋翼自主导航系统设计与实现面向城市智能汽车的认知地图车道层生成系统基于深度学习的智能化无人机视觉系统的设计与仿真基于知识库的视觉问答技术研究基于深度学习的火灾视频实时智能检测研究结构化道路车道线检测方法研究基于机器视觉的带式输送机动态煤量计量研究基于深度学习的小目标检测算法研究基于三维激光与视觉信息融合的地点检索算法研究动态环境下仿人机器人视觉定位与运动规划方法研究瓷砖铺贴机器人瓷砖空间定位系统研究城市街景影像中行人车辆检测实现基于无线信号的身份识别技术研究基于移动机器人的目标检测方法研究基于深度学习的机器人三维环境对象感知基于特征表示的扩展目标跟踪技术研究基于深度学习的目标检测方法研究基于深度学习的复杂背景下目标检测与跟踪动态扩展目标的高精度特征定位跟踪技术研究掩模缺陷检测仪的图像处理系统设计复杂场景下相关滤波跟踪算法研究基于多层级联网络的多光谱图像显著性检测研究基于深度结构特征表示学习的视觉跟踪研究基于深度网络的显著目标检测方法研究基于深度学习的电气设备检测方法研究复杂交通场景下的视频目标检测基于多图学习的多模态图像显著性检测算法研究基于面部视频的非接触式心率检测研究单幅图像协同显著性检测方法研究轻量级人脸关键点检测算法研究基于决策树和最佳特征选择的神经网络钓鱼网站检测研究基于深度学习的场景文本检测方法研究 RGB-D图像显著及协同显著区域检测算法研究多模态融合的RGB-D图像显著目标检测研究基于协同排序模型的RGBT显著性检测研究基于最小障碍距离的视觉跟踪研究基于协同图学习的RGB-T图像显著性检测研究基于图学习与标签传播优化模型的图像协同显著性目标检测姿态和遮挡鲁棒的人脸关键点检测算法研究基于多模态和多任务学习的显著目标检测方法研究基于深度学习的交通场景视觉显著性区域目标检测基于生物视觉机制的视频显著目标检测算法研究基于场景结构的视觉显著性计算方法研究精神分裂症患者初级视觉网络的磁共振研究基于fMRI与TMS技术研究腹侧视觉通路中结构优势效应的加工脑机接口游戏神经可塑性研究基于YOLOV3算法的FL-YOLO多目标检测系统基于深度与宽度神经网络显著性检测方法研究基于深度学习的零件识别系统设计与研究基于对抗神经网络的图像超分辨算法研究基于深度学习复杂场景下停车管理视觉算法的研究与实现镍电解状态视觉检测与分析方法研究跨界训练对提升舞者静态平衡能力的理论与方法研究施工现场人员类型识别方法的研究与实现基于深度学习的自然场景文字检测方法研究基于嵌入式的交通标志识别器的设计基于视觉感知特性与图像特征的图像质量评价

149 评论 1小时前发布

安居客jismkll

论文：LipNet:END-TO-END SENTENCE-LEVEL LIPREADING 本人在对相关领域的内容进行调研时，由于缺乏指导，在中文网站上也很少见到有对Lipreading相关的文章进行详尽分析，因此也耗费了不少时间精力。这里对领域内的一篇Sentence Level的开山之作（文中自称）进行分析，介绍文章中的重点。在这篇文章之前，大多数Lipreading的工作集中在字母、单词、数字或者短语的识别上，具有一定的局限性。而这篇文章虽然使用的数据中的句式有限定，词汇量也比较小，但是不妨碍它是在语句的尺度上进行的识别，且取得了相当不错的成果。首先介绍数据集。GRID数据集是一个Sentence-level的数据集，比较包含三万多条数据。每一个数据是一条视频，视频内容是一个人说出一条固定的句子，并对应一条文本标签，文本标签对每个单词的起始时间和终止时间都进行标注。句子的句式是进行了限制的，并不是具有逻辑性的自然语句，即：也就是说，每一条语句都是由6个固定类型的单词组成，上标表示了数据集中这种单词类型的种类数量，比如表示这个位置为一个颜色单词（如blue），而数据集中一共有4种颜色单词。另外需要了解的是，数据集的视频一共有34个文件夹，对应了对34个不同的人所录制的视频。每一个文件夹包含上千个视频数据，都是对同一个人录制的。而在后期实验时，作者会采用两种不同的方式进行训练和测试：（1）用其中30个人的视频进行训练，而用另外4个人的视频进行测试，即Unseen Speakers;（2）从34个人的视频中，各随机抽取255个视频作为测试数据，其它的作为训练数据；首先会按照先前在数据集部分的末尾所介绍分组方式将数据拆分为两种训练集和测试集。然后使用已有的面部识别检测器，将视频的每一帧都处理为大小的仅包含嘴部的帧。最后再将每一帧进行标准化。（1）分别使用常规的图像序列和水平翻转的图像序列进行训练；（2）由于数据集提供了每一个单词的起始和终止时间，因此可以使用每一个单词所对应的图像帧序列来训练模型；（3）随机删除或复制某些帧，概率设置为0.05；介绍完了数据的组织方式以后，大家也都知道了这是一个Seq2seq的问题，与语音识别的套路极其相似，因此Lipreading的套路很大程度上就是将CV的套路和机器翻译的套路进行整合。这篇文章的模型结构也没什么特别的，文中的废话比较多，总结起来其实就是用3D卷积对图像帧进行特征提取,然后使用两层双向GRU作为Encoder-Decoder，输出一个预测值，最后再用全连接层输出预测的概率。总体上模型的结构并不复杂，也有一些可以改进的地方。此外，损失函数函数值得注意。本文使用的是CTC损失函数，这个损失函数是一个比较经典的用于语音识别相关问题的损失函数，避免了帧与字符进行对齐标注。具体地可以参考这篇文章。指标WER和CER分别为word error rate 和 character error rate，即单词错误率和字符错误率，固然是越低越好。指标分为了两栏：Unseen Speakers和 Overlapped Speakers，对应于在数据集部分介绍的两种数据划分方式下的测试结果。可以看到，LipNet在GRID数据集上的各项指标都达到了当时的最好。后续的很多工作在GRID数据集上的WER已经来到1.0%~2.0%，但是在例如LRS数据集上的表现，远无法达到GRID数据集上的效果，因为GRID数据集中的句式单一，且人脸正对着镜头，只能作为一项基础研究，Lipreading在自然场景下的sentence-level的识别，仍然有很长的路要走。水平有限，欢迎大家批评指正。有问题可以共同探讨。

101 评论 6小时前发布

自然场景检测最新论文

2个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序