布料的视觉检测论文

2个回答默认排序

默认排序

按时间排序

Lena睡美梦

已采纳

视觉关系识别/检测任务不仅需要识别出图像中的物体以及他们的位置（detection），还要识别物体之间的关系（relationship）。例子如下图所示，输入为一张图片，输出为objects和bounding boxes，以及objects之间的关系，如。

视觉关系识别是图像理解的基础，可以应用在

挑战：

这篇文章将整理与视觉关系相关的论文，并作简要的介绍。论文列表：

第一篇是比较经典的论文，提出了一个数据集VRD和一个结合语言先验的关系预测模型。

Visual Phrases只有13个类型，Scene Graph 有两万多关系，但是它平均每个对象只有大约2个谓词关系。除了这三个数据集，还有有名的 VIsual Genome 大数据集，包含99658张图片，19237个关系，标注了物体类型，位置，属性和物体间的关系（场景图），还有caption，qa。虽然数据量大了，但是数据集的标注还是会有一些没有被标注的，毕竟组合多。

思考：论文利用了语言先验word embedding，对预测起到了很大的帮助，但是先验知识可能会使得关系预测倾向于频繁的关系，而忽略了视觉方面的信息。一个解决方案是先预训练视觉模型。然而，真正合理的融合先验的方式我觉得不是简单的乘法（先验可能会误导），是一个思考的点。

**Motivation: **这篇论文的启发是来源于知识图谱中，使用转移向量（translation vector）来表示实体之间的关系（见 Trans系列的知识表示）。在视觉关系中，通过将对象的视觉特征映射到低维的关系空间中，然后用对象间的转移向量来表示对象之间的关系，比如person+ride=bike。如下图所示：

所以为了让能够接近，即相似，loss函数为

在实验中，单从在VRD数据集上的predicate预测，与上一篇论文Lu对比是没有提升的（44<47），这是这篇论文中没有说明的，是我从两篇论文的实验数据中发现的。这篇论文在另外两个任务上效果比Lu的好些，我觉得有可能是用了Faster RCNN的缘故。除了这三个任务的实验对比，还加了图像检索，zero-shot关系检测（没有Lu的好），特征重要性分析的实验。实验也表明了关系检测任务对目标检测任务的准确率的提升，不过其实很少。

更多相关的可参考原论文。

思考：论文用TransE来表示关系空间中对象与predicate的关系，如何映射到关系空间，更好的表达对象的联系，甚至predicate间的关系，是值得研究的一个点。（比如结合语言先验等，因为我觉的它的效果其实应该比不上加了语言先验的）

这篇论文跟上一篇论文类似，都是将中的subject和object映射到一个空间中，他们间的关系表示为 .上一篇是基于知识图谱embedding的TransE（NIPS2013，Translating embeddings for modeling multi-relational data），而这一篇是基于TransD（ACL2015，Knowledge graph embedding via dynamic mapping matrix）。这是一个研究的方向，怎么将object，relationship很好的在embedding空间中表示。论文的整个框架如图：

思考：这也是篇关于投射对象和关系到另一空间的论文，不过任务稍有不同，效果也比上一篇好些。同上，embedding也是可研究的一个方向。

这篇论文使用场景图scene graph来建模图片中对象以及它们的关系，任务是生成场景图：

这篇论文的亮点就是利用上下文信息以及消息传递，迭代更新以更好地预测关系。这是一个在场景图层级上的新的预测关系的方式，其消息传递方法等都是可以改进的地方，甚至结合embedding。

这篇论文的主要贡献是使用因式分解的方法来得到信息先验（a factorization scheme that yields highly informative priors），也就是关系的先验分布，即两个object间的predicate分布。这个分布是通过张量分解的方法得到，具体是：（1）张量构建Tensorize ：关系张量 , i, j是对象，k是关系，表示为关系k的矩阵的堆叠，每一个值对象i, j在数据集中有关系k的次数。张量表示可以反映objects间的内在联系，关系分布等。

最后BP训练SG网络，θ设为. 在实验中，论文对比了Lu的Visual Relationship Detection with Language Priors，和Xu的Scene Graph Generation by Iterative Message Passing，都有较好的提升。

思考：这篇论文通过张量分解的方式来得到关系的先验分布，与论文Visual Relationship Detection with Language Priors用到的语言先验有着异曲同工之处，都是用predicate的先验分布来调整网络预测的关系，提升zero shot能力。不过我认为这种直接相乘的调整方式是比较粗糙的，需要更好的方式来融合先验分布与视觉上预测的分布。

这是一篇用场景上下文信息和实体间的关系来改进目标检测的论文，举个被错误检测的例子说明上下文的作用：

这篇论文做的任务不是关系预测，而是利用关系来消歧关系中的相同类的对象，其实是根据关系元组，来定位对象的位置。比如下图中需要确定人踢球是图中的哪个人，在什么位置。

论文首先用attention到对象object/subject，然后用predicate的卷积核来进行注意力的shift，同时object和subject需要结合。

这又是李飞飞团队做的工作（他们团队做了很多relationship相关的工作，语言先验那篇，迭代消息传递那篇等），做的是语句生成图像，利用了场景图表示语句中对象间的关系/联系，一个很有趣的研究，应该是第一个使用场景图的图像生成尝试了。

Sentence一般包含多个对象，以及对象间关系的描述，是比较复杂的，从上图也可以看出，直接从语句到图像效果是很差的。但是当我们把语句解析为场景图，然后再生成图像，可以更好的生成图像表示对象间的关系。具体做法大致是根据场景图做布局预测 (layout prediction) 预测对象的位置，最后结合噪声，用生成网络生成图像。具体细节这里就不啰嗦了，列一下最终效果吧。

可以看出，对象的位置基本位于正确的位置，不过生成的图像质量不是很高，所以还是有很大的改进空间的。

这篇论文是Arxiv上今年7月份的论文，利用图像中的对象间的关系和对象属性，做QA任务。关系挖掘根据图像和问题得到一系列相关的fact——关系，对象属性，然后再attention到需要的fact上，联合视觉特征最后得到最终answer。

思考：这种提取fact的方法为QA提供了高层的语义信息，也符合人的思维方式。相比于我之前调研过的方法（一文带你了解VQA ），可以认为这是知识的补充，之前的方法有的是只有类，属性信息，或者是额外的文本形式的知识，本论文的方法多了关系的检测，且用一个网络来提取高层语义用于QA，相比直接做数据增强更具解释性。不过论文没有用到那个bottom-up attention，这是我觉得可以改进的地方。

至此，有关VIsual Ralationship的相关问题，方法大家应该有个大致的了解和收获。有什么问题和想法欢迎一起交流学习。

348 评论 2小时前发布

乐乐媚娘

视觉传达学术论文篇二视觉经验与视觉传达设计 [摘要]观者的视觉经验对视觉信息的准确传达起着重要的作用。设计者应根据观者的视觉经验充分调动其视觉心理的能动反应,使其“所看”与“所知”同时发生感觉,从而积极主动地参与到设计作品的理解和感悟之中,让观者通过欣赏与设计者的审美体验相沟通,以此达到信息传达的目的。 [关键词]视觉传达;视觉经验;视觉心理在现代设计中,视觉传达设计的主要功能是调动所有平面的因素,达到视觉传达准确的目的,同时给观众以视觉心理满足。当今,视觉传达的方式变得越来越复杂和发达,设计师在视觉传达设计中,应充分考虑受众群体的视觉心理,清醒地认识到信息接受者不是机械的、被动的受纳器,而是一个具有积极主动的内驱力的主体,只有在充分理解和掌握有关视觉心理的知识之后,才能更好地在更大的范围内发挥各种现代制作技术的优势。其中,观者的视觉经验对视觉信息的准确传达起着重要的作用。设计者应根据观者的视觉经验充分调动观者视觉心理的能动反应,使其“所看”与“所知”同时发生感觉,从而积极主动地参与到设计作品的理解和感悟之中,让观者通过欣赏与设计者的审美体验相沟通,以此来达到信息传达的目的。一、视知觉与视觉经验视知觉有时会受到视觉生理机能和生活文化经验积淀的同时作用。人的感觉并非先天固有的功能,没有体验过的东西可能无法感受到,而丰富的生活经验又有可能使某种感觉功能格外发达。视觉所感受到的不仅是眼前所见的信息,过去积累的信息也会参与影响。而且,由于生活环境、视觉经验、生活体验及专业知识的不同,对同一形式的认知会出现差异,这种差异来自生活和社会 ,与先天的个性差异有所不同。正如阿恩海姆在《艺术与视知觉》一书中指出:“眼前所得到的经验,从来都不是凭空出现的,它是从一个人毕生所获取的无数经验当中发展出来的最新经验。因此,新的经验图式,总是与过去所知觉到的各种形状的记忆痕迹相联系。” 1.生理机能上的视觉体验英国著名的视觉心理学家格利高里告诉我们:“对物体的视觉包含了许多信息来源。这些信息来源超出了我们注视一个物体时眼睛所接受的信息。它通常包括由过去经验所产生的对物体的认识。这种经验不限于视觉,可能还包括其他感觉。例如触觉、味觉、嗅觉,或者还有温度觉和痛觉。”由于生活经验的参与,视知觉还具有一种能动作用,“知觉不是简单的被刺激模式觉得的,而是对有效的资料能动地寻找最好的解释”。我们能从倒立的金字塔形上“看出”不稳定感,是来自对实物的印象。我们有了在斜面上的物体会滑落的生活经验,才能在看斜线时感觉到动感。在色彩构成中,白色分量“轻”,黑色分量“重”,红色使人兴奋、刺激,蓝色给人以沉静感,这些感觉同生活中对实物的感受经验也是大致吻合的。再如,我们能从以频闪式样制造的霓虹灯广告牌上看到字母、图案、花边等不停地移动,但实际上仅仅是灯光的时亮时灭,它们自身并没有运动。由于灯光迅速地相继在相距不太远的位置上出现时,会在人们的大脑皮层中产生某种生理短路,神经兴奋就从一个点迅速传向另一个点,与这样一个生理过程相对应的心理经验就是我们看到的同一个光点的位移。正如鲁道夫·阿恩海姆所说:“我们在不动的式样中感受到的‘运动’,就是大脑在对知觉刺激进行组织时激起的生理活动的心理对应物。这种运动性质就是视觉经验的性质,或者说,它与视觉经验密不可分……事实上,一切视觉现实都是视觉的活动造成的。只有视觉的活动,才能赋予视觉对象以表现性,也只有具有表现性的视觉对象,才可能成为艺术创造的媒介。” 因此,在视知觉的能动反应中,有着生理机能基础,虽有智性的成分,但又不同于理性判断。由于感知与经验上的相通,这种“所看”与“所知”同时发生感觉,密不可分。 2.文化经验的视觉体验 (1)个人文化经验的视觉体验。人的感觉能力一部分是先天的功能,也有一部分来自生活的体验和积累。不同的阅历和体验会导致感觉上的差异,专业素质的差别也会影响艺术感受。人们在观看理解物体时,并不满足于把看到的东西“组织”成一种视觉意象,还要进一步把这个直接看到的形象与另一个形象联系起来。由于很多视象都是模棱两可的,可以按照各种不同的结构式样对其加以组织,所以在生活中就会出现有趣的现象:专家和外行人会看到不同的东西,不同的专家从中看到的东西也不相同。例如,美术中的三维空间感来源于生活与专业训练,没有受过美术专业训练的人,不可能在石膏像上看出诸多的“素描关系”。对于红色,观者会联想到革命或恐怖暴力,还有喜庆,这都取决于观者的阅历与体验。“只要头脑中预先形成了所观察目标的意象,不管在多么复杂变换的形状中,都能够将这些意象认出来,知觉对象能从以往的视觉经验中得到填充或补足。” 同样的道理,设计中各种不同的表现形式也不可能让所有的人都有所感悟,对于同一设计作品,感受会有简单与丰富之分,体会也会有高下之别。一个人的现时观察,总会受到以往所见、所闻、所知的影响,积累越多,感受就越丰富。这种潜在的经验图式对观察的影响,在设计活动中同样无时、无处不在。熟悉几何抽象画家蒙德里安绘画的观者一眼就能从服装设计大师依夫·圣·洛朗设计的时装中看出两者之间的联系,而不了解蒙德里安画风的观者则可能只是将它看成大格子式样。过去的视知觉经验和知识修养有助于人们正确地观察面前的对象,也可以妨碍正确地观察,这取决于观者视知觉经验和知识修养的正确程度及水平高低,还有他们与观察对象的关系如何。 (2)集体文化经验的视觉体验。在人的视觉心理中具备一种推论倾向,可以使不连贯的、有缺口的图形尽可能在视觉心理上得到弥补,格式塔心理学家称之为视知觉的“完结效应”。能否在视觉的“完结效应”中正确地“填补空白”是与观者的阅历、感悟、想象有关系的。大量事实表明,对色彩、形状的把握能力会随着观看者所在的物种、文化集团和受训练的不同而不同。这就是说,一个集团能理解的,另一个集团的成员就可能无法理解、把握、比较和记住它们。观者对对象越熟悉,填补的空白就越准确。正如贡布里希所说:“由于我们是生活在一个熟悉的环境中,我们见到的事物总是与我们的预期相符,所以视觉的节省也就越来越增加了。”对此, 社会学家BenedictAnderson也提出了“想象的共同体”这一概念,他认为现代民族国家的形成,源自在地球上不同地方的人类对身为一个命运共同体的集体想象。系统的印刷语言、普及的新媒介(主要是报纸)以及共同的“受难经验”,乃促成“想象共同体”的要素。不经意间,我们的脑海中早已先入为主地为许多未曾谋面的事物定了性,想当然地认为它理应如此。这样一种知觉,其直感性是非常强的,它不是在一件物体和它的用处之间作某种联想,也不是对于某种东西的实际用途的理解,而是对一件因未经实际使用而看不到其功能的物体在视知觉中的直接“补足”或“完结”。在视觉传达中,任何一种图形或符号的意义都会随着时间和地区的变化而变化。博厄斯在其《原始艺术》中提到:不同部落的美洲印地安人所赋予的某些基本图案的各种意义在很大程度上取决于他们不同的文化背景。文化背景的变化会引起人们对纹样的意义作出不同的解释,这种不同的解释反过来又会作用于纹样,使纹样发生进一步的变化。例如, 中国古人素来喜欢莲花,它象征着高洁,出污泥而不染,尤其深得中国文人的喜爱。在佛教传入中国后,莲花更成了清净、圣洁、吉祥的象征,成为吉祥纹样“暗八宝”之一,各种艺术品中到处可以看到莲花的图案,与佛教有关的建筑和建筑物的柱、柱础、砖、瓦等也都有用莲花作纹饰的。而在日本,莲花的意义却大相径庭,它是祭奠的象征。基于这一点,设计师应充分考虑到观者所属集团的文化背景,在设计内容和对象的选择上应具有针对性,否则将导致观者视觉经验的认识混乱。二、视觉经验与视觉传达对象好的设计作品需要知己知彼。所谓知己,就是有从视觉主体方面了解人的视觉功能、研究感知过程的真实状态;所谓知彼,就是从视觉的对象方面认识形式的相对关系。对设计而言,不仅仅是解决传播方式和传播速度问题 ,更重要的是要传播有效的信息。传播有效、准确、可靠的信息是设计信息传播的首要法则,它是设计成功的重要保证。传播的对象是人和人群结构而成的受众群体。设计元素是否能引起观者视觉经验的共鸣,取决于刺激物的结构所拥有的力量与它唤起的有关记忆痕迹的力量相互作用的结果。在视觉传达中,设计是以单一的或连续的作品形式与受众进行对话,如何选择对话的焦点是传播成功与否的关键。观众通过与设计作品的接触(视感、听感、动感等途径),接受某种信息,随即他会以自己的生活经验和审美经验、以社会公众的标准、以生活本身作参照来检验这信息,从而对它作出准确与否、可靠与否的判断,决定是否接受该设计信息,并且以自己的态度影响身边的人们对该设计信息的态度。因而,将视觉传达设计的视觉表现置于特定文化背景中来感染受众的精神世界的确是一个不错的选择。我们可以将东西方文化做一个比较。由于地域环境和人文环境不同,所以东西方形成了不同的文化价值观和不同的心理结构与审美心理,这种差异在视觉传达设计中有突出的表现。例如:中国人有对万物祈福的心理,并由此形成了特有的吉祥文化,希望事物朝着美好的方向发展 ,标志设计中有吉祥的寓意就容易被受众接受。中国联通公司的标志设计(见图?)就是针对人们吉祥如意的心理期待,标志中的“中国红”是蕴含着中国人几千年情结的颜色,无形中又增加了企业形象的亲和力,进一步拉近了与观者的距离。联通标志还采用中国古代盘长纹样的“同心结”图案,造型中的四个方形有四通八达、事事如意之意;六个圆形有路路相通、处处顺畅之意;标志中的十个空穴则有圆圆满满、十全十美之意。总之,无论从对称性还是偶数的讲究来说,该图案都洋溢着古老东方民族流传已久的吉祥气息。正是基于对中国吉祥文化的认同,我们才拥有了许多喜闻乐见的、充满吉祥意味的晶牌名称,如恒源祥、金利来、金六福、万利达、永乐、旺旺、福满多等。同样,外国品牌进入中国市场也要入乡随俗,进行语言文字的文化适应,品牌的翻译要符合中国人的心理,如可口可乐、百事可乐、喜来登、吉百利、都乐等正是注意了这一点。当然,中国的吉祥用语包含着特定的民族文化内涵,在中国乃至全世界的华人圈内是老少皆知的,不需做过多的解释大家都心领神会。而其他文化背景的人们却因为风俗习惯、宗教信仰、思维方式等方面的不同,对事物的联想就会有很大差异,因此中国的某些吉祥物在一些西方国家就会引起误读。如白象、金龙、孔雀、喜鹊等品牌在国外就缺乏认同基础,这是由于白象在英美国家被视为中看不中用的东西,龙在西方许多国家被视为恶魔与灾难的化身,孔雀在英、德、法等国被视为淫祸之鸟,喜鹊在英语里是指爱唠叨、饶舌的人,所以凡是出口商品用象、龙、孔雀、喜鹊等作为商标名称的都要音译或做其他处理,从而避免引起观者的误解与反感。相同的视觉符号放在不同的文化背景中,它所表达的意思也不同,只有当知道在特定文化背景或特定阶段里使用的普通平凡的习俗化的程式时,人们才能把视觉符号的信息译释出来。如十字图形,在宗教中象征着上帝,在医疗中表示看护和更深层次的人类救护之爱,在数字中则理解为数据运用的加号。因此,设计者在为国际流通的商品设计时,要注意各地审美观念和价值观念的差异性,切忌把本国消费者的审美偏好和价值观念强加给目标市场国的消费者,以免造成沟通障碍。在相同的文化背景和地理环境下,民族化、地域化的图形语言是人们了解和熟悉的,不需要任何解释,便于直接解读。设计师可用一种同构的思维方式,将图形语言折射到另一种与其有着某种联系的相通之处的事物上,并造成一种心理暗示,引导人们去联想、想象。心理预设因素显示,人的理解活动发生之前,存在某种根据生活经验而形成的心理期待,它事先设定了理解对象的应有面貌,这种心理定势常常在审视符号时将理解重心导向理解者本人所期待的方向。如,熟悉中国传统文化的观者,能很容易地从图2中领悟出书法、太极、砚台、篆刻、碑拓、章法之间的玄妙。当然,视觉传达设计在体现民族化、地域化的同时,还应利用传统的、地域的图形语言优势来表现现代的精神观念,用解构的民族化图形与现代设计思想相结合,创造一种既有传统文化元素又具现代意识的形象,以独特的个性参与世界文化的发展。香港著名设计师靳埭强的作品就具有浓厚的东方文化色彩。他的构图结构稳健,画面清丽,色泽时而欢悦,时而雅致,立意隽永而弥满禅机。在作品中我们时时发现设计家对简约空灵的水墨语言精妙的阐释,还不时可见中国传统文人智慧与现代商业文明的和谐对话。如图3,设计中既有水墨、笛子等极具中国传统文化意蕴的视觉元素,又有西方设计的构成形式,简洁而意味深长。综上所述,如果一幅画、一个图形、一种抽象的形式可以唤起观赏者丰富的审美感受,那是视觉“调动”了观者以往的生活体验和视觉经验并由专业知识参与的结果。因此,设计作品要想具有强大的感染力,设计者必须与观赏者所处的环境条件相适应,以观者的共有经验为根据,充分考虑到观赏者视觉心理的能动反应,与观赏者一道,把与传达信息有关的知、情、意等心理联系起来并统一到“一种经验”中,从而形成互动。看了“视觉传达学术论文”的人还看： 1. 视觉传达专业论文 2. 视觉传达教学改革毕业论文 3. 视觉传达开题报告范文 4. 艺术设计中的视觉形象设计及其重要性研究论文 5. 2017高考视觉传达设计专业解读

132 评论 8小时前发布

布料的视觉检测论文

2个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序