视觉检测论文

2个回答默认排序

默认排序

按时间排序

又肥又馋的兔子

已采纳

之前也是为论文苦恼了半天，网上的范文和能搜到的资料，大都不全面，一般能有个正文就不错了，而且抄袭的东西肯定不行的，关键是没有数据和分析部分，我好不容易搞出来一篇，结果还过不了审。还好后来找到文方网，直接让专业人士帮忙，效率很高，核心的部分帮我搞定了，也给了很多参考文献资料。哎，专业的事还是要找专业的人来做啊，建议有问题参考下文方网吧下面是之前文方网王老师发给我的题目，分享给大家：基于深度学习的无人机地面小目标算法研究基于视觉的智能汽车面向前方车辆的运动轨迹预测技术研究模拟射击训练弹着点检测定位技术研究基于深度卷积神经网络的空中目标识别算法的研究基于可见光图像的飞行器多目标识别及位置估计无人驾驶车辆手势指令识别研究与实现车载毫米波雷达目标检测技术研究基于多传感融合的四足机器人建图方法中老年人群跌倒风险评估的数据采集系统基于深度学习的视觉SLAM闭环检测方法研究真实图片比较视觉搜索任务的年龄效应及对策研究室内复杂场景下的视觉SLAM系统构建与研究基于双目内窥镜的软组织图像三维重建学习资源画面色彩表征影响学习注意的研究毫米波雷达与机器视觉双模探测关键技术的研究语义地图及其关键技术研究多重影响因素下的语音识别系统研究基于卷积神经网络的自主空中加油识别测量技术研究基于视觉语义的深度估计、实例分割与重建重复视觉危险刺激——本能恐惧反应的“二态型”调控机制研究低成本视觉下的三维物体识别与位姿估计面向非规则目标的3D视觉引导抓取方法及系统研究基于物体识别地理配准的跨视频行人检测定位技术研究基于结构光的非刚体目标快速三维重建关键技术研究基于机器视觉的动物交互行为与认知状态分析系统关于单目视觉实时定位与建图中的优化算法研究动态场景下无人机SLAM在智慧城市中的关键技术研究面向视觉SLAM的联合特征匹配和跟踪算法研究基于深度学习的显著物体检测基于平面波的三维超声成像方法与灵长类动物脑成像应用研究基于物体检测和地理匹配的室内融合定位技术研究基于多模态信息融合的人体动作识别方法研究基于视觉惯性里程计的SLAM系统研究基于语义信息的图像/点云配准与三维重建基于种子点选取的点云分割算法研究基于深度学习的场景文字检测与识别方法研究基于运动上下文信息学习的室内视频烟雾预警算法研究基于深度学习的垃圾分类系统设计与实现面向手机部件的目标区域检测算法的设计与实现电路板自动光照检测系统的设计与实现基于机器视觉的工件识别与定位系统的设计与实现基于深度学习的物件识别定位系统的设计与实现基于视觉四旋翼无人机编队系统设计及实现基于视觉惯导融合的四旋翼自主导航系统设计与实现面向城市智能汽车的认知地图车道层生成系统基于深度学习的智能化无人机视觉系统的设计与仿真基于知识库的视觉问答技术研究基于深度学习的火灾视频实时智能检测研究结构化道路车道线检测方法研究基于机器视觉的带式输送机动态煤量计量研究基于深度学习的小目标检测算法研究基于三维激光与视觉信息融合的地点检索算法研究动态环境下仿人机器人视觉定位与运动规划方法研究瓷砖铺贴机器人瓷砖空间定位系统研究城市街景影像中行人车辆检测实现基于无线信号的身份识别技术研究基于移动机器人的目标检测方法研究基于深度学习的机器人三维环境对象感知基于特征表示的扩展目标跟踪技术研究基于深度学习的目标检测方法研究基于深度学习的复杂背景下目标检测与跟踪动态扩展目标的高精度特征定位跟踪技术研究掩模缺陷检测仪的图像处理系统设计复杂场景下相关滤波跟踪算法研究基于多层级联网络的多光谱图像显著性检测研究基于深度结构特征表示学习的视觉跟踪研究基于深度网络的显著目标检测方法研究基于深度学习的电气设备检测方法研究复杂交通场景下的视频目标检测基于多图学习的多模态图像显著性检测算法研究基于面部视频的非接触式心率检测研究单幅图像协同显著性检测方法研究轻量级人脸关键点检测算法研究基于决策树和最佳特征选择的神经网络钓鱼网站检测研究基于深度学习的场景文本检测方法研究 RGB-D图像显著及协同显著区域检测算法研究多模态融合的RGB-D图像显著目标检测研究基于协同排序模型的RGBT显著性检测研究基于最小障碍距离的视觉跟踪研究基于协同图学习的RGB-T图像显著性检测研究基于图学习与标签传播优化模型的图像协同显著性目标检测姿态和遮挡鲁棒的人脸关键点检测算法研究基于多模态和多任务学习的显著目标检测方法研究基于深度学习的交通场景视觉显著性区域目标检测基于生物视觉机制的视频显著目标检测算法研究基于场景结构的视觉显著性计算方法研究精神分裂症患者初级视觉网络的磁共振研究基于fMRI与TMS技术研究腹侧视觉通路中结构优势效应的加工脑机接口游戏神经可塑性研究基于YOLOV3算法的FL-YOLO多目标检测系统基于深度与宽度神经网络显著性检测方法研究基于深度学习的零件识别系统设计与研究基于对抗神经网络的图像超分辨算法研究基于深度学习复杂场景下停车管理视觉算法的研究与实现镍电解状态视觉检测与分析方法研究跨界训练对提升舞者静态平衡能力的理论与方法研究施工现场人员类型识别方法的研究与实现基于深度学习的自然场景文字检测方法研究基于嵌入式的交通标志识别器的设计基于视觉感知特性与图像特征的图像质量评价

172 评论 1小时前发布

慵懒安静的阳光

视觉关系识别/检测任务不仅需要识别出图像中的物体以及他们的位置（detection），还要识别物体之间的关系（relationship）。例子如下图所示，输入为一张图片，输出为objects和bounding boxes，以及objects之间的关系，如。

视觉关系识别是图像理解的基础，可以应用在

挑战：

这篇文章将整理与视觉关系相关的论文，并作简要的介绍。论文列表：

第一篇是比较经典的论文，提出了一个数据集VRD和一个结合语言先验的关系预测模型。

Visual Phrases只有13个类型，Scene Graph 有两万多关系，但是它平均每个对象只有大约2个谓词关系。除了这三个数据集，还有有名的 VIsual Genome 大数据集，包含99658张图片，19237个关系，标注了物体类型，位置，属性和物体间的关系（场景图），还有caption，qa。虽然数据量大了，但是数据集的标注还是会有一些没有被标注的，毕竟组合多。

思考：论文利用了语言先验word embedding，对预测起到了很大的帮助，但是先验知识可能会使得关系预测倾向于频繁的关系，而忽略了视觉方面的信息。一个解决方案是先预训练视觉模型。然而，真正合理的融合先验的方式我觉得不是简单的乘法（先验可能会误导），是一个思考的点。

**Motivation: **这篇论文的启发是来源于知识图谱中，使用转移向量（translation vector）来表示实体之间的关系（见 Trans系列的知识表示）。在视觉关系中，通过将对象的视觉特征映射到低维的关系空间中，然后用对象间的转移向量来表示对象之间的关系，比如person+ride=bike。如下图所示：

所以为了让能够接近，即相似，loss函数为

在实验中，单从在VRD数据集上的predicate预测，与上一篇论文Lu对比是没有提升的（44<47），这是这篇论文中没有说明的，是我从两篇论文的实验数据中发现的。这篇论文在另外两个任务上效果比Lu的好些，我觉得有可能是用了Faster RCNN的缘故。除了这三个任务的实验对比，还加了图像检索，zero-shot关系检测（没有Lu的好），特征重要性分析的实验。实验也表明了关系检测任务对目标检测任务的准确率的提升，不过其实很少。

更多相关的可参考原论文。

思考：论文用TransE来表示关系空间中对象与predicate的关系，如何映射到关系空间，更好的表达对象的联系，甚至predicate间的关系，是值得研究的一个点。（比如结合语言先验等，因为我觉的它的效果其实应该比不上加了语言先验的）

这篇论文跟上一篇论文类似，都是将中的subject和object映射到一个空间中，他们间的关系表示为 .上一篇是基于知识图谱embedding的TransE（NIPS2013，Translating embeddings for modeling multi-relational data），而这一篇是基于TransD（ACL2015，Knowledge graph embedding via dynamic mapping matrix）。这是一个研究的方向，怎么将object，relationship很好的在embedding空间中表示。论文的整个框架如图：

思考：这也是篇关于投射对象和关系到另一空间的论文，不过任务稍有不同，效果也比上一篇好些。同上，embedding也是可研究的一个方向。

这篇论文使用场景图scene graph来建模图片中对象以及它们的关系，任务是生成场景图：

这篇论文的亮点就是利用上下文信息以及消息传递，迭代更新以更好地预测关系。这是一个在场景图层级上的新的预测关系的方式，其消息传递方法等都是可以改进的地方，甚至结合embedding。

这篇论文的主要贡献是使用因式分解的方法来得到信息先验（a factorization scheme that yields highly informative priors），也就是关系的先验分布，即两个object间的predicate分布。这个分布是通过张量分解的方法得到，具体是：（1）张量构建Tensorize ：关系张量 , i, j是对象，k是关系，表示为关系k的矩阵的堆叠，每一个值对象i, j在数据集中有关系k的次数。张量表示可以反映objects间的内在联系，关系分布等。

最后BP训练SG网络，θ设为. 在实验中，论文对比了Lu的Visual Relationship Detection with Language Priors，和Xu的Scene Graph Generation by Iterative Message Passing，都有较好的提升。

思考：这篇论文通过张量分解的方式来得到关系的先验分布，与论文Visual Relationship Detection with Language Priors用到的语言先验有着异曲同工之处，都是用predicate的先验分布来调整网络预测的关系，提升zero shot能力。不过我认为这种直接相乘的调整方式是比较粗糙的，需要更好的方式来融合先验分布与视觉上预测的分布。

这是一篇用场景上下文信息和实体间的关系来改进目标检测的论文，举个被错误检测的例子说明上下文的作用：

这篇论文做的任务不是关系预测，而是利用关系来消歧关系中的相同类的对象，其实是根据关系元组，来定位对象的位置。比如下图中需要确定人踢球是图中的哪个人，在什么位置。

论文首先用attention到对象object/subject，然后用predicate的卷积核来进行注意力的shift，同时object和subject需要结合。

这又是李飞飞团队做的工作（他们团队做了很多relationship相关的工作，语言先验那篇，迭代消息传递那篇等），做的是语句生成图像，利用了场景图表示语句中对象间的关系/联系，一个很有趣的研究，应该是第一个使用场景图的图像生成尝试了。

Sentence一般包含多个对象，以及对象间关系的描述，是比较复杂的，从上图也可以看出，直接从语句到图像效果是很差的。但是当我们把语句解析为场景图，然后再生成图像，可以更好的生成图像表示对象间的关系。具体做法大致是根据场景图做布局预测 (layout prediction) 预测对象的位置，最后结合噪声，用生成网络生成图像。具体细节这里就不啰嗦了，列一下最终效果吧。

可以看出，对象的位置基本位于正确的位置，不过生成的图像质量不是很高，所以还是有很大的改进空间的。

这篇论文是Arxiv上今年7月份的论文，利用图像中的对象间的关系和对象属性，做QA任务。关系挖掘根据图像和问题得到一系列相关的fact——关系，对象属性，然后再attention到需要的fact上，联合视觉特征最后得到最终answer。

思考：这种提取fact的方法为QA提供了高层的语义信息，也符合人的思维方式。相比于我之前调研过的方法（一文带你了解VQA ），可以认为这是知识的补充，之前的方法有的是只有类，属性信息，或者是额外的文本形式的知识，本论文的方法多了关系的检测，且用一个网络来提取高层语义用于QA，相比直接做数据增强更具解释性。不过论文没有用到那个bottom-up attention，这是我觉得可以改进的地方。

至此，有关VIsual Ralationship的相关问题，方法大家应该有个大致的了解和收获。有什么问题和想法欢迎一起交流学习。

111 评论 12小时前发布

视觉检测论文

2个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序