注意机制研究论文
注意机制研究论文
论文:
题目:《A Contextualized Temporal Attention Mechanism for Sequential Recommendation》
地址:
序列推荐任务很少使用时间和上下文信息对h(h就是rnn,gru等序列建模网络输出的状态)进行加权,www这篇论文融合了上下文和时间信息的加权信号,一起看看吧,虽然笔者觉得这篇论文非常笨重。。
这篇论文的背景其实可以放在sequence recommendation任务中去看待,根据历史记录中用户的先后行为来预测用户的偏好对于现代推荐系统而言具有挑战性且至关重要。现有的大多数序列推荐算法都将重点放在顺序动作之间的传递结构上,但是在对历史事件对当前预测的影响进行建模时,很大程度上会忽略时间和上下文信息。
论文认为,过去事件对用户当前动作的影响应随时间推移以及在不同背景下发生变化。因此,我们提出了一个基于上下文和时间的注意机制,该机制可以学会权衡历史行为对行为的影响,不仅影响行为是什么,而且还影响行为发生的时间和方式。更具体地说,为了动态地校准自注意机制的相对输入依存关系,我们设计了多个参数化的核函数来学习各种时间动态,然后使用上下文信息来确定对每个输入遵循哪些weight kernel函数。
上面的说法可能有点晦涩难懂,下面结合一张图来描述一下
以上图中所示的在线购物场景为例:系统获得了一系列用户行为记录,并且需要推荐下一组商品。 我们应该注意,在此场景中,我们假设这些交互行为不是彼此独立的, 这更好地反映了推荐系统只能访问脱机数据和部分用户行为记录的情况。好了,接着看上图中的场景,用户在过去的一段时间内点击来网球拍,手机,运动鞋,智能手环,然后在昨天一直在浏览手机,那么这个时候我们需要预估用户的下一次点击,这个时候的用户正想买一个手表,那么这个时候系统是给用户推荐运动手表呢,还是推荐电子手表呢,因为用户过去的浏览有运动类的物品和智能设备的物品。
按照时间的分段性来看:长期的历史记录表明用户对购物体育相关产品感兴趣。 现在,用户正在寻找手表,该系统可以推荐一些运动手表。 从本质上讲,长期的用户历史记录通常可能会携带稀少但至关重要的用户偏好信息,影响着现在的意图,而最近的交互操作应该会更能代表用户在将来的意图。
按上下文细分:由于用户仔细浏览几个智能手机(比平均时间间隔短得多的时间间隔),因此可以认为这些物品跟当前用户的偏爱非常相关,因此智能手表可能比传统手表更受青睐。 通常,用户浏览日志的某些时间段可能看起来是异构的,这个时间段里面充满了用户的短期兴趣偏好,用户在这个时间点上会以重复的方式专注于一小部分同类物品。
很容易理解,时间因素可以理解为用户的长期兴趣偏好,即使在很遥远的历史,也会对现在的兴趣产生影响,上下文偏好可以理解为用户的短期兴趣偏好,也就是用户在近期浏览的物品表征了用户现在的短期意图。说白了就是对用户进行长短期兴趣建模。
本来不想说这三个问题的,无奈部分论文说的太抽象了,或许是越抽象越容易中稿?
说实话这篇论文在解释时间跟上下文关系的时候说的太晦涩难懂了,笔者看的也是很头疼,比如下面这段话:
首先,我们看第一个问题,我的理解就是用self-attention进行序列建模,第二个就是确定时间因素和上下文因素的影响,第三个就是综合考虑时间和上下文的影响。
还是直接看模型吧,扯一堆什么因果关系看得头大:
用户空间 U ,大小为U;物品空间 V ,大小为V。
用户的历史行为序列为{ },其中 ={( , ), ( , ) , ... },其中 用户u的交互时间, 代表交互的物品。
模型的输入为包括窗口大小为L的用户历史记录:{ ( ) i: 0 -> L},当前需要推荐的时间戳 ,输入序列的embedding X表示:
同时将输入序列的时间信息使用时间戳差来表示:
模型整体上分为三个部分:content-based attention,temporal kernels和contextualized mixture
三层模型可以表示为:
其中, 根据content X来计算每个输入的权重,输出权重序列α ∈ ; 将时间信息 T 通过K temporal kernels计算每个输入的temporal权重β ∈ ; 从 X 中提取context信息,并结合前两个阶段获得的α 和β 来计算得到最终的contextualized temporal权重γ ∈ 。
最终被推荐的物品的表示为:
其中,F-out是一个feed-forward层。
这里用到的是self-attention机制,具体的细节不在赘述,只需要知道结果输出就行:
其中 表示最后一个物品的输入embedding,其实就是用最后一个物品的embedding作为key,self-attention最后一层的状态 作为query来计算 的。
基于观察:用户随意浏览的物品对短期的影响会急剧下降,但是在长期来说仍有着重要的作用。用户仔细浏览过的物品对用户短期的兴趣有着重要的作用。
所以,文章提出了很多temporal kernels来建模这种时间变化,不同的kernel函数 : → 如下所示:
(1) = ,假设一个用户操作的影响会随着时间指数下降,但是永远不会消失。
(2) ,假设一个用户操作的影响会随着时间而减弱,最终可以忽略不计。
(3) -alT + b,假设一个用户操作的影响会随着时间线性下降,之后的softmax操作会将某个时间段内的影响置为0。
(4) 假设一个用户操作的影响不受时间影响。
根据K个kernal函数{ },我们可以将 T 转为K个temporal权重集合:
作为下一阶段的输入。
这一阶段的目标是基于提取到的context信息融合前两个阶段获得的content和temporal信息。
使用Bidirectional RNN结构来获得context信息。从输入序列embedding表示X中,我们可以计算得到循环隐藏层的状态:
其中,⊕是拼接操作,C_attr是可选择的context特征(可以是特定推荐系统中每个行为的属性,表示行为发生时的上下文),本文中只使用了Bi-RNN的输出作为context特征。
行为i的context特征需要映射为一个长度为K的权重向量,每一个元素 都是这个行为经过 后的结果,使用feed forwaed层Fγ将它们映射到概率空间 ,然后经过softmax操作得到概率分布:
最后将context和temporal信息进行融合:
其中, ,
其中,r是每一个item的分数,对于给定的用户,通过softmax层对item分数进行归一化,该层会在item表上产生概率分布,也就是进行多分类的意思。
其中Ns是根据频率进行负采样的负样本。
计算机视觉中的注意力机制研究
写在前面的话:本文来自于本人的一次课程作业综述,当时还是写了很久的,不想交上去就完了,所以发上来留个纪念。
将注意力机制用在计算机视觉任务上,可以有效捕捉图片中有用的区域,从而提升整体网络性能。计算机视觉领域的注意力机制主要分为两类:(1) self-attention;(2) scale attention。这两类注意力从不同的角度进行图片内容理。本文将分别就这两种注意力机制进行说明,并列举相关的文献。
注意力是人类大脑固有的一种信号处理机制。人类大脑通过快速从视觉信号中选择出需要重点关注的区域,也就是通常所说的注意力焦点,然后重点处理这些区域的细节信息。通过注意力机制可以利用有限的大脑资源从大量的信息中筛选出有价值的信息。注意力机制最初被用在深度学习任务上是在机器语言翻译领域,将源语言翻译成目标语言,目标语言中的词并非与源语言的所有词都同等相关,而是仅与特定的几个词有相关性。因此,注意力机制可以将这个词的注意力分配到这些最相关的词上。之后,[1]中提出自注意力机制 (self-attention),并将其用于Transformer模块中,极大提升了翻译模型的精度和并行性。与传统的注意力机制不同,self-attention的查询(query)和键(key)属于同一个域,计算的是同一条语句(或同一张图片)中不同位置之间的注意力分配,从而提取该语句(或图片)的特征。
[2]首先将self-attention用于视觉任务中,提出了non-local network,来捕获图片(或视频)中的长程依赖(long-range dependency)。Self-attention机制在视觉任务,如语义分割[3],生成对抗网络[4]中取得了巨大的成功。它解决了卷积神经网络的局部视野域问题,使得每个位置都可以获得全局的视野域。不过,由于在视觉任务中,像素数极多,利用所有位置来计算每个位置的attention会导致巨大的计算和显存开销;另一方面,由于self-attention简单将图像当成一个序列进行处理,没有考虑不同位置之间的相对位置关系,使得所得到的attention丧失了图像的结构信息。之后对于self-attention的一个改进方向就是,在self-attention中加入相对位置信息或绝对位置信息编码。
除了self-attention,视觉任务中另一类注意力机制为scale attention。与self-attention不同,scale attention基于每个位置本身的响应。就分类任务而言,每个位置的响应越大,则其对于最终的分类结果影响越大,那么这个位置本身的重要性就越强。根据响应大小有选择地对特征图进行强化或抑制,就可以在空间(或其他维度)上达到分配attention的目的。[5]所提出的SENet,就相当于channel-wise的attention。类似的还有GENet[6],CBAM[7]等,GENet将SENet中的channel-wise attention扩展到了spatial上,CBAM设计了串行的两个模块,分别进行channel-wise attention和spatial-wise attention的计算。另一篇工作residual attention network[8]也属于这一类attention,与SENet系列不同之处在于,本文采用bottom-up top-down形式得到spatial attention,再将其以残差的形式作用回原来的特征。这一类注意力机制仅仅基于图像中每个位置本身,对显著区域进行增强,非显著区域进行抑制,比self-attention机制更接近与人类视觉系统的注意力机制。
普通卷积将特征图的每个位置作为中心点,对该位置及其周围的位置进行加权求和,得到新的特征图上该位置对应的滤波结果,对于边缘,必要时可以用0进行填充。这一操作可以有效提取图片的局部信息。随着网络加深,卷积层不断堆叠,每个位置的视野域也越来越大,网络提取到的特征也逐渐由一些low-level的特征,如颜色、纹理,转变到一些high-level的结构信息。但是,简单通过加深网络来获取全局视野域,所带来的计算开销是很大的,并且,更深的网络会带来更大的优化难度。
Self-attention操作[2]可以有效地捕获不同位置之间的long-range dependency,每个位置的特征都由所有位置的加权求和得到,这里的权重就是attention weight。由此,每个位置都可以获取全局的视野域,并且不会造成特征图的退化(分辨率降低),这对于一些密集的预测任务,如语义分割、目标检测等,具有很大的优势。
图1展示了self-attention的网络结构。给定输入X,将两个1x1卷积分别作用于X上,得到的两个特征利用f(⋅)得到相关性矩阵,图中展示的f(⋅)为矩阵乘法。最后将相关性矩阵作用在原特征经过1x1卷积变换后的特征上。
公式(1)展示了第i个位置的相应的计算方法,其中f(⋅)为相关性函数,g(⋅)为变换函数,x_i为输入第i个位置的特征,y_i为第i个位置的输出特征,C(x)为归一化因子,一般采用总位置的个数。
由于self-attention可以有效捕获图片(或视频)中的长距离依赖,从而在不影响特征分辨率的同时获取全局的视野域,在视觉任务上引入self-attention,可以带来较大的性能提升。
论文[2]将self-attention用在视频动作识别任务上,如图2,对于视频中动作的识别,可能会跨越多帧,需要建立多帧视频之间的联系,self-attention的这种长距离依赖的特征就能有效建立多帧不同位置之间的联系。
论文[2]将self-attention用在分割任务上。由于孤立预测每个位置的类别很容易导致分错,分割任务需要结合每个位置的上下文对该位置进行分类。文章定义了所谓物体上下文(object context),即每个位置所属于的类别构成的集合,即为这个位置所属于的object context。 Object context是由不同位置的特征相似度来定义的,也就是self-attention过程中的相似度矩阵,将相似度矩阵与原特征进行相乘,即可将object context作用于该特征图。由此,文章提出了Object Context Network(OCNet),如图3。其中,base-OC为基本的self-attention模块,pyramid-OC和ASP-OC分别将self-attention与PSP模块和ASPP模块结合,在提取object context的同时,利用不同倍率的pooling操作或不同ratio的dilated convolution获取多尺度的特征,最大程度的利用context信息对原图进行分割。不过,本文虽然提出object context为每个像素及所有其他与其属于同一类的像素构成的集合,在实际操作的时候却并不是这样计算每个位置的object context的,特征上的相似性并不一定代表属于同一位置。因此,用object context来给self-attention新的解释,在说服力上还是存在一定问题的。
Scale attention是另一种注意力机制,与self-attention不同,scale attention是只基于key context的,对图像中的显著性区域进行增强,其他区域相应的进行抑制,从而使得输出的特征具有更强的区分性。这一类注意力机制的代表工作包括,residual attention network[8],squeeze-and-excite network[5],gather-and-excite network[6]以及CBAM[7]。
[8]提出,在分类网络中,网络深层比浅层更关注于被分类的物体,也就是图片的主体内容,这是因为,深层网络具有更大的视野域,可以看到更广的范围;而浅层网络只能看到每个位置及其邻域。因此,如果将网络较深层的信息作为一种mask,作用在较浅层的特征上,就能更好的增强浅层特征中对于最终分类结果有帮助的特征,抑制不相关的特征。如图5所示,将attention作为mask作用在原来特征上,得到的输出就会更加集中在对分类有帮助的区域上。
因此,文章提出一种bottom-up top-down的前向传播方法来得到图片的attention map,并且将其作用在原来的特征上,使得输出的特征有更强的区分度。图6展示了这种attention的计算方式。由于更大的视野域可以看到更多的内容,从而获得更多的attention信息,因此,作者设计了一条支路,通过快速下采样和上采样来提前获得更大的视野域,将输出的特征进行归一化后作用在原有的特征上,将作用后的特征以残差的形式加到原来的特征上,就完成了一次对原有特征的注意力增强。文章还提出了一个堆叠的网络结构,即residual attention network,中间多次采用这种attention模块进行快速下采样和上采样。
这篇文章在视觉领域开前向传播的注意力机制的先河,之后的注意力机制都是采用这种前向传播过程中得到的attention进行增强,并且一般为了优化方便,都会以残差的方式进行。
Squeeze-and-excite是另一类scale attention。与residual attention不同,squeeze-and-excite通过global pooling来获得全局的视野域,并将其作为一种指导的信息,也就是attention信息,作用到原来的特征上。
[5]提出了squeeze-and-excite network(SENet),提出了channel-wise的scale attention。特征图的每个通道对应一种滤波器的滤波结果,即图片的某种特定模式的特征。对于最终的分类结果,这些模式的重要性是不同的,有些模式更重要,因此其全局的响应更大;有些模式不相关,其全局的响应较小。通过对不同通道的特征根据其全局响应值,进行响应的增强或抑制,就可以起到在channel上进行注意力分配的作用。其网络结构如图7所示,首先对输入特征进行global pooling,即为squeeze阶段,对得到的特征进行线性变换,即为excite阶段,最后将变换后的向量通过广播,乘到原来的特征图上,就完成了对不同通道的增强或抑制。SENet在2017年的ImageNet2017的分类比赛上获得了冠军,比之前的工作有了较大的性能提升。
[6]进一步探索了squeeze-and-excite在更细的粒度上的表现,提出了gather-excite操作。SENet将每个通道的特征图通过global pooling得到一个值,本文采用了不同步长的pooling(2x,4x,8x,global),然后利用上采样将pooling后的特征插值恢复到原来大小,最后作用在原来特征图上,具体操作如图8所示。不过,实验结果显示,global pooling的性能最好,将特征区间划分得更细致虽然增加了参数,但是反而会带来性能的下降。
[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.
[2] Wang X, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7794-7803.
[3] Yuan Y, Wang J. Ocnet: Object context network for scene parsing[J]. arXiv preprint arXiv:1809.00916, 2018.
[4] Zhang H, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[J]. arXiv preprint arXiv:1805.08318, 2018.
[5] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7132-7141.
[6] Hu J, Shen L, Albanie S, et al. Gather-Excite: Exploiting feature context in convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2018: 9401-9411.
[7] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19.
[8] Wang F, Jiang M, Qian C, et al. Residual attention network for image classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3156-3164.
什么是注意研究的新进展?
早在1890年,著名心理学家詹姆斯就说过,注意是心理学的中心课题。在现代认知心理学中,它也是信息加工理论框架的中心概念。但是,自本世纪20年代以后,统治心理学近半个世纪的行为主义却把注意看成是心灵主义的概念,认为科学心理学中不应该有注意的地位。因此,长期以来,注意一直得不到很好研究。直到认知心理学兴起以后,研究者才开始关注注意的问题。近几年来,选择性注意的机制一直是注意研究的重要课题之一。
��在选择性注意机制的研究中,长期争论的问题与目标信息的选择发生在哪个阶段有关。�研究者曾提出两个形成鲜明对照的模型,�一个是Broadbent于1958年提出的早期选择模型,另一个是Deutsch�和Deutsch于1963年提出的晚期选择模型。这两个模型主要试图揭示注意过滤器在信息加工系统中的具体位置问题。
��值得注意的是,Kahneman(1973)避开了注意选择机制在信息加工系统中的具体位置问题,而从心理资源分配的角度来解释注意,提出了注意的资源分配理论。Neisser(1967�)也曾从淡化注意位置的思想出发,�关注注意与知觉操作的联系,�提出了注意加工的两阶段说。�受Neisser的影响,Treisman和Gelade(1980�)根据知觉的特征分析说,提出了一个影响较大的注意新理论——特征整合论(featureintegration�theory)[1]。可以说,�上述这三方面工作在某种程度上淡化了有关选择机制位置的争论。
��长期以来,研究者普遍接受的选择性注意机制实际上只包括兴奋机制。然而,近年来的一些工作表明,抑制(inhibition)也是选择性注意的一个重要机制[2—4]。用Tipper的话说,对有关信息的成功选择也需要对无关信息的抑制[4]。这样,�选择性注意机制不仅包括目标激活(�target��activation�),�还包括分心信息抑制(�distractor�inhibition)。
��围绕分心信息抑制所进行的一系列研究,一方面由于直接探讨人们对分心信息的加工过程,这样也就涉及到选择性注意情境下的信息表征水平问题,因此它复兴了曾经被淡化了的有关选择性注意机制作用位置的争论。另一方面,这些研究也填补了认知心理学中很少研究抑制过程这一空白。
��2�负启动范式与选择性注意
��传统的选择性注意机制研究主要是在双耳分听任务中进行的,有关分心信息抑制的研究则主要使用负启动范式(negative��primingparadigms)[3.4]。
��1966年,Dalrymple-Alford和Budayr发表了一篇题为《对Stroop色词测验某些方面的考察》的论文,该论文被认为是具有创新性的。在这之后,Neill使用Stroop色词任务的变式进行实验[3]。因为首次关注无关信息一旦完成选择性注意过程后命运如何的问题,该研究被认为具有开拓性。Neill对两种条件下的实验进行了比较。一种条件下,�当前刺激颜色与先前刺激词并不匹配,但是,另一种条件下,二者是匹配的。例如,先向被试呈现用红色墨水印刷的GREEN(绿),�紧接着再向被试呈现用绿色墨水印刷的BLUE(蓝)。Neill要求被试说出Stroop�刺激的颜色。他发现,在后一种条件的实验中,被试的颜色命名完成得特别困难。Neill认为一定是起干扰作用的Stroop刺激词(如GREEN一词)受到了抑制。其逻辑是,如果被抑制的词后来变得与任务有关,例如后来的刺激是用绿色墨水印刷的,那么,被试对后来的刺激的颜色命名要相对困难。Tipper将上面这种现象命名为负启动[4],�并且与同事们一起使用选择性注意任务进行了一系列系统性的实验研究。这些实验一般由启动和探测两种显示组成,这两种显示中均包含目标和分心信息,指导语要求被试对目标进行反应,同时不要理会分心信息。此外,他们设计了实验和控制两种条件,实验条件下,探测显示中的目标和启动显示中的分心信息相匹配,而控制条件下,探测与启动两种显示中的刺激没有任何关系。最后,通过与控制条件相比,被试在实验条件下对探测目标反应的延迟来测量负启动效应。
��到目前为止,研究者们已经在不同实验材料(如字母,图片,词,数字,Stroop色词和不熟悉形状)和不同任务(如识别,计数,定位和归类等)中观察到这种负启动效应[2,4~9]。这样,自80年代中期以来,负启动效应作为一种实验技术在选择性注意机制的研究中得到了广泛的应用。事实上,Tipper等人已经把负启动效应的获得看成是人类信息加工过程中存在抑制加工成份的证据。
��自八十年代中期以来,有关负启动效应与分心信息抑制的实验探讨主要集中在以下四个方面。
��2.1�负启动效应与扩散抑制
��Tipper曾经向被试呈现两个上下放置的普通物体的线条画,其中一个为分心信息,它以绿色呈现,另一个为目标,它以红色呈现[4]。�如果探测显示中的目标与启动显示中的分心信息相匹配,那么,与相继呈现无关图片相比,被试对探测目标的反应时要长。然而,更加有趣的是,当探测显示的目标与启动显示中被忽视的分心信息虽然不是同一个刺激,但在语义上有联系,比如相继呈现绿色的狗图片和红色的猫图片时,与相继呈现无关图片相比,被试对探测目标的反应时也要长。为说明这一发现,Tipper�提出了一种类似于扩散激活的扩散抑制(spreadinginhibition)机制,因为对分心信息的抑制显然扩散到了与该分心信息相邻近的语义节点。但是,还存在着这样一种可能的解释,即这种负启动可能是因为有语义联系的两个图片在结构上相似而产生的。如果这种解释成立的话,那么,所观察到的负启动效应就应该归功于分心信息特征(而不是范畴)水平上的抑制,因而也就支持了早期选择模型。为了排除这种可能性,Tipper和Driver在符号范围内进行实验,如猫以图片的形式呈现,而狗以词的形式呈现,结果仍然观察到负启动[6]。�因此,负启动完全可以在范畴或语义水平上发生,这事实上支持了晚期选择模型。
��2.2�抑制的机制、性质与分类
��在对负启动机制的解释上,多数意见认为,负启动的机制与抑制有关。但是,在抑制的对象是什么这一问题上,则存在着相当大的争论。这种争论集中在抑制的是分心信息本身(特性或位置)还是对分心信息所作的反应[5]。换句话说,�是潜在地参与竞争的分心信息表征受到抑制,还是心理表征与反应间的转化过程,即反应准备的表征受到抑制,抑或是反应系统本身受到抑制。目前的研究表明,不是反应本身,而是一些更中心的表征——刺激的表征或反应准备的表征,受到了抑制[5]。
��研究者已经在许多实验情境中观察到了基本的抑制机制。问题是,抑制是瞬时的、易受破坏的或脆弱的,还是相对长的、不易受破坏的过程?这就涉及到了抑制的性质问题。有关抑制时间进程的研究提出了两种非常不同的观点,一种观点认为抑制是瞬时的过程,其逻辑是,在被试对目标刺激进行选择和反应期间,分心信息的内部表征受到抑制,因此减慢了被试对紧接着呈现的具有受抑制表征的刺激的反应。而一旦被试成功地完成了对目标的选择和反应,抑制就没有存在的必要了,换句话说,抑制在其不被需要时很可能快速衰退。例如,Neill和Westberry在�Stroop�色词任务中发现,�当启动刺激和探测刺激间隔(�ISI�)为1020ms时,存在负启动,�但间隔为2020ms�时则不存在负启动[10]。然而,另一种观点认为,抑制并不总是很快衰退,因此存在长时抑制的可能性。例如,Tipper等人使用识别和定位任务发现,与分心信息相联系的负启动能持续将近7秒的时间[2]。
��此外,比长时抑制这一实验发现更令人吃惊的是,Tipper等人还发现,负启动效应不受可预期的、无关的插入作业的影响,这说明抑制过程是不易被破坏的[2]。
��到目前为止,研究文献中所涉及到的分心信息抑制主要包括特性抑制和位置抑制[2]。前者主要是在识别任务中发现的,�它一般要求被试对目标是什么作出反应。后者则主要是在定位任务中发现的,该任务往往要求被试对目标所出现的位置而不是目标是什么作出反应。事实上,测量这两种抑制的实验程序之间有很大的差别,尤其是在实验要求的反应形式方面。特性抑制的测量往往要求言语反应,典型形式是命名。而位置抑制的测量往往要求被试完成按键这种操作反应。最近,研究者已经证实,这两种抑制引起的负启动效应,在不同反应形式的实验间具有普遍性[7,8]。
��来自灵长类的神经生理学资料和来自人类作业的证据都表明,刺激的特性和位置可能是分开来进行表征的。例如,1982年,神经生理学家Ungerleider和Mishkin在单细胞记录和损伤研究的基础上提出,存在两个皮层视觉系统,即顶枕系统和颞枕系统,前者编码空间关系,后者则对特性进行编码。那么,位置抑制和特性抑制是否代表不同的支承系统?换句话说,是否存在着两个独立的抑制系统?到目前为止,神经生理学研究和行为资料都支持肯定的回答。例如,Tipper等人证明,二年级儿童尽管未能显示出对分心信息特性的抑制,但是,这些儿童的确显示了对分心信息位置的抑制[11,12]。Connelly和Hasher则发现,�老年组被试不仅象年青组被试一样显示了位置抑制,而且在抑制量上与年青组被试无明显差异,但是,在年青组被试中发现的特性抑制,在老年组被试中则没有发现[8]。�上述位置抑制和特性抑制之间实验分离的结果说明,在人的毕生发展中,位置抑制和特性抑制可能是彼此独立的两种机制,它们具有不同的发展的时间进程,空间位置抑制很可能是一种“最早获得最晚衰退(first-in/last-out)”的过程。
��除了研究得较多的分心信息抑制外,文献中还涉及到了另外一种抑制机制,即返回抑制(inhibition�of�return),Tipper等人将其称作受注意刺激重复(attended�repetition)[12]。�它是指被试对先前在同一位置上曾经重复出现过的目标反应减慢。有人认为,返回抑制机制在维持空间选择性方面起着重要的作用——它能使被试倾向于不返回到已经提取过目标信息的位置。而前面提到的分心信息位置抑制则可能使注意远离分心信息最近曾经出现过的位置。返回抑制实际上是一种目标位置抑制,如果它与分心信息位置抑制协同起作用的话,那么,观察者会倾向于从新的位置提取信息。目前,返回抑制机制问题已引起了一些研究者的关注[8,13]。
��2.3�干扰与抑制之间的关系
��Tipper等人使用Stroop任务变式研究儿童与成年人在负启动上的个别差异时发现,那些显示出较大负启动效应的被试(Tipper等人认为这些被试抑制无关信息的能力强),同时显示了较少的来自分心信息的干扰效应[11]。在其它探查负启动个别差异的研究中,也获得了类似的干扰量与负启动量间的负相关。一些研究者认为,抑制机制的一个可能的作用是减少潜在的来自分心信息的干扰[9,�14]�。�此外,�Neumann�和DeSchepper发现,那些总的说来反应得较快的被试,显示的负启动效应也较强[5]。因此,当被试完成选择性注意任务时,�高效率的分心信息抑制可能促使被试快速地把注意集中在目标项目,并对它作出反应。
��然而,有趣的是,还可能存在一种截然相反的逻辑,即人对分心信息的抑制,恰恰是因为这些分心信息干扰人们对当前目标进行选择和反应。按照这种逻辑,干扰和负启动之间应该有较强的正相关,而不是负相关。Neill和Lissner就提供了这种正相关的实验证据,他们在一个字母匹配任务中发现,那些引起更高干扰水平的条件也产生更大的负启动量[15]。正相关的更进一步的证据则来自刺激——反应一致/不一致设计[16]。刺激——反应一致设计是指,在定位任务中,指导语告诉被试,如果目标在左(或右)侧出现,那么就相应地按左(或右)键。而在刺激——反应不一致设计中,则要求被试作与目标刺激出现位置相反的按键反应,即刺激在左侧出现按右键,刺激在右面出现按左键。刺激——反应不一致设计的逻辑是,这种不一致设计与高水平的类Stroop干扰相联系,如果发现不一致设计时负启动量增大,则说明与干扰增强相联系的条件同样也和负启动量的提高相关联,因此干扰量与负启动量存在正相关。结果发现,不一致设计时的确观察到了较大的负启动量。
��到目前为止,也有证据表明,干扰和负启动是彼此相互独立的两个过程[9,17]。总之,干扰与抑制的关系问题尚未解决,因此需作进一步的研究。
��2.4�负启动反转
��1977年,Neill在实验中发现,当使用宽松指导语,�即指导语不强调准确时,负启动消失,�而出现正启动,�这种现象被称作负启动反转(reversals�of�negative�priming)[3]。后来,他和Westberry�再次发现,当指导语强调速度而不是准确时,负启动要反转为正启动[10]。Neumann和DeSchepper也获得了同样的结果[5]。为什么当对速度的强调超过对准确的强调时负启动反转为正启动呢?一种解释是:过分强调速度将导致被试没有足够的时间来抑制最初被激活的无关记忆结构,一旦这样的无关记忆结构后来变得与任务有关,正启动效应就有可能出现,即观察到反转[18]。显然,强调速度时观察到的负启动反转支持这样一种观点,即存在着一个分布广泛、所有刺激(包括分心信息)均自动激活的最初阶段,接着是一个抑制性的收缩(narrowing�down�)过程[8]。这样,这种强调速度时所观察到的负启动反转在很大程度上支持了激活——抑制模型(activation-inhibition�model)[3,6]。该模型认为,在自动激活之后,与任务无关的、将被忽视的对象的内部表征受到主动抑制。这个模型虽然属于晚期选择模型,但它又不同于晚期选择模型中一度流行的被动衰退模型(passive�decay�model)。这是因为,�在被动衰退模型中,选择性注意机制并不直接对未受到注意的刺激起作用。更确切地说,在该模型中,来自未受到注意客体的无关刺激被动地衰退了,而有关客体表征的激活水平则得到维持甚至加强。
��到目前为止,多数有关负启动效应与分心信息抑制的研究并没有涉及到负启动反转的问题。但是,这并不意味着研究者有意避开这种反转问题。事实上,观察负启动反转出现的条件,对研究和探讨选择性注意机制问题有着不可低估的意义和价值。这一点从上面的叙述中是不难发现的。因此,今后的一个研究方向应该是进一步观察负启动反转出现的各种条件。
论文精读02- SDNET:基于SWIN的多分支单幅图像去雨
SDNET: MULTI-BRANCH FOR SINGLE IMAGE DERAINING
USING SWIN
最近,流行的transformer具有全局计算特性,可以进一步促进图像去雨任务的发展。本文首次将Swim-transformer引入图像去雨领域,研究了Swim-transformer在图像去雨领域的性能和潜力。具体来说,我们对Swim-transformer的基本模块进行了改进,设计了一个三分支模型来实现单幅图像的去雨。前者实现了基本的雨型特征提取,而后者融合不同的特征进一步提取和处理图像特征。此外,我们还采用jump connection来融合深层特征和浅层特征。实验表明,现有的公共数据集存在图像重复和背景相对均匀的问题。因此,我们提出了一个新的数据集Rain3000来验证我们的模型。
Transformer[28]最初是自然语言处理(NLP)领域的一个模型,用于并行处理单词向量,以加速模型推理。它的全局计算特性适用于远距离传递特征。这正是计算机视觉领域中卷积运算所不擅长的。Dosovitskiy等人[29]将图像分割成16x16个图像块,将不同的图像块作为不同的词输入到transformer中,提高了图像分类的精度。近年来,人们从深度[30]、多尺度[31]等角度应用transformer来完成相关任务。然而,Transformer也有不可忽视的缺点,例如计算量与图像大小之间存在二次关系,这限制了它的应用环境。Liu等人[32]提出的Swin-transformer使用滑动窗口使模型具有线性计算复杂度,通过跨窗口连接改善了窗口间的信息交换,最终提高了模型在图像分类、目标检测和实例分割等方面的性能。
本文提出了一种新的图像去雨网络SDNet,它是利用Swim-transformer强大的特征表示能力构建的端到端去雨网络。具体地说,我们改进了Swim-transformer的基本模块,重新设计了一个双分支模型,实现了单图像去雨。前者实现了基本的雨型特征提取,后者融合了不同分支的特征。此外,我们采用jump connection来融合深度特征和浅层特征,以提高网络模型的性能。
本文贡献如下:
最近有大量的研究工作将transformer引入CV域,并取得了良好的效果。具体来说,Dosovitskiy等人[29]将图像分成16X16个图像块,然后将其拉伸成一维向量,然后送入网络中完成图像分类任务。Chen等人[38]提出了一种基于卷积运算的transformer与Unet相结合的TransUnet方法,实现医学图像的分割。蒋等[39]设计了与对抗生成网络结构相同的图像生成transformer。transformer中的self-attention导致模型计算直线增长,导致transformer不能在低计算能力的硬件上运行。Liu[32]提出了一种利用滑动窗口方法使网络计算线性增长并加速网络推理的方法。我们的方法是基于这种方法来实现一个单一的图像去雨任务的融合特征。
本文的方法是基于这种方法[32]来实现一个单一的图像去雨任务,融合不同分支的特征、深度特征和浅层特征。
Transformer是一个功能强大的网络模块,可以取代CNN操作。但其中的Muti-Head Attention导致模型的计算量迅速增加,导致transformer模型无法在许多底层硬件中测试和使用,注意力的数学表达式如下:
本文使用一个简单而强大的前馈网络作为主干,如图2所示。SDnet网络基本上由三个多分支融合模块组成,称为MSwt,一个多分支模块MSwt-m和两个基本block模块。此外,还增加了跳转连接,目的是融合深特征和浅特征,以提高网络去雨的性能。
为了更灵活地构建网络,提出了Basic-block的概念,并设计了两个三分支特征融合块。如图4和图5所示,与后者相比,前者有一个用于融合特征的附加基本块。数学表达式如下:
其中F(·)表示基本块的操作。x表示模块Mswt的输入。这种设计的思想来源于自我注意中的多头注意机制。通过学习F1、F2、F3,可以自适应地学习不同的特征。将输入映射到不同的子空间,分别提取不同的特征。与自我注意不同的是,我们对提取的特征求和,而不是级联操作。通过F4融合增加的特征,实现进一步的特征提取。由于设计思想来源于多头注意机制,多分支具有与该机制相同的特点,即在一定范围内,分支越多,模型性能越好。为了平衡模型的规模和模型的性能,我们选择了三个分支进行特征提取。
虽然transformer可以保持特征在长距离传播,但是仍然需要在网络中结合深特征和浅特征,为此我们设计了一个没有特征融合的Mswt模块,我们称之为Mswt-m,如图5所示,其数学表达式如下:
F1、F2、F3将输入映射到三个不同的空间进行特征提取,对提取的特征求和,然后与第二个Mswt模块的输出求和,再经过一个基本块,实现深度特征和浅层特征的融合,如图2中的小跳跃连接所示,而图2中相对较长的跳跃连接则考虑了主要特征中包含的丰富的空间和纹理信息,有助于完成深度特征中缺失的纹理信息。
其中,O为雨图像,B为对应标签。是绝对差(SAD)之和,用于计算相似预测图像和标签之间的像素损失,如等式6所示。SSIM(结构相似性)是结构相似性,最初用作评估两个图像内容的结构相似性的度量。Ren等人[41]证明了SSIM作为损失函数在图像降额任务中的有效性的负面作用,其数学表达式如等式7所示。尽管使用该损失函数可以获得高SSIM度量,但图像仍然存在失真和低峰值信噪比(PSNR)。identity loss(等式8)由CycleGAN[42]导出,CycleGAN[42]用于约束生成图像的颜色丢失,这里我们使用它来约束图像去雨后的图像样式,这减少了图像失真,提高了网络性能。α , β , λ 是SAD损失、SSIM损失和identity loss的系数。在本文中,分别设置为0.2、4和1。
实验使用Tesla V100 16G GPU进行训练,使用Pytorch框架1.7.0和(Adam)[43],初始学习率为5× 10−4,减少到5× 10−5和5× 10−6当训练迭代次数分别为总迭代次数的3/5和4/5时。输入模型的图像大小设置为231×231. batch size为5。
我们提出了一个全新的数据集用于网络训练和消融实验。该数据集是从ImageNet中随机抽取的10万幅图像,保证了图像的多样性。从Efficientderain[12]降雨模式数据集中随机选择一到四种降雨模式,并添加到选定的图像中。我们最终选择了3000张合成图像作为训练集,400张作为测试集。我们把这个数据集命名为Rain3000。此外,我们还使用公开的数据集Rain100L和Rain100H[44]来验证SDnet模型。两个公开的数据集都包含1800个训练图像和200个测试图像。
使用SSIM和PSNR作为评价指标,这两种指标已被广泛用于评价预测图像的质量。PSNR是根据两幅图像之间的像素误差来计算的,误差越小,值越大,图像越相似,除雨效果越好。相反,图像去雨的效果越差
首先,本文提出了一种基于Swin-transformer的三分支端到端除雨网络,它充分利用了Swin-transformer强大的学习能力,用一种改进的Swin-transformer代替卷积运算,并设计了一个多分支模块来融合不同空间域的信息,使用跳转连接来融合深特征和浅特征。此外,我们提出了一个新的数据集,由3000个训练对和400个测试对组成。该数据集是基于ImageNet生成的,具有丰富的背景和雨型组合,便于模型的推广。我们提出的模型在数据集Rain3000和公共数据集Rain100L、Rain100H上都达到了最佳性能。我们的工作还有些不足。例如,在参数数目相同的情况下,哪种方法更适合于并行或串行的图像去噪任务还没有详细探讨。以及是否可以使用多个不同大小的滑动窗口来实现窗口间的进一步信息交换,以提高网络降容的性能。此外,我们正在使用更简单的前馈网络,更复杂的网络仍然值得研究
求范文——机制类毕业论文
这个可以吗
今年暑假,学院为了使我们更多了解机电产品、设备,提高对机电工程制造技术的认识,加深机电在工业各领域应用的感性认识,开阔视野,了解相关设备及技术资料,熟悉典型零件的加工工艺,特意安排了我们到几个拥有较多类型的机电一体化设备,生产技术较先进的工厂进行生产操作实习.
为期23天的生产实习,我们先后去过了杭州通用机床厂,杭州机密机床加工工厂,上海阀门加工工厂,上海大众汽车厂以及杭州发动机厂等大型工厂,了解这些工厂的生产情况,与本专业有关的各种知识,各厂工人的工作情况等等。第一次亲身感受了所学知识与实际的应用,传感器在空调设备的应用了,电子技术在机械制造工业的应用了,精密机械制造在机器制造的应用了,等等理论与实际的相结合,让我们大开眼界,也是对以前所学知识的一个初审.通过这次生产实习,进一步巩固和深化所学的理论知识,弥补以前单一理论教学的不足,为后续专业课学习和毕业设计打好基础.
杭州通用机床厂
7月3日,我们来到实习的第一站,隶属杭州机床集团的杭州通用机床厂.该厂主要以生产M-级磨床7130H,7132H,是目前国内比较大型的机床制造厂之一.在实习中我们首先听取了一系列关于实习过程中的安全事项和需注意的项目,在机械工程类实习中,安全问题始终是摆在第一位的.然后通过该厂总设计师的总体介绍.粗略了解了该厂的产品类型和工厂概况.也使我们明白了在该厂的实习目的和实习重点.
在接下来的一端时间,我们分三组陆续在通机车间,专机车间和加工车间进行生产实习.在通机车间,该车间负责人带我们参观了他们的生产装配流水线,并为我们详细讲解了平面磨床个主要零部件的加工装配工艺和整机的动力驱动问题以及内部液压系统的一系列构造.我最感兴趣的应该是该平面磨床的液压系统,共分为供油机构,执行机构,辅助机构和控制机构.从不同的角度出发,可以把液压系统分成不同的形式.按油液的循环方式,液压系统可分为开式系统和闭式系统。开式系统是指液压泵从油箱吸油,油经各种控制阀后,驱动液压执行元件,回油再经过换向阀回油箱。这种系统结构较为简单,可以发挥油箱的散热、沉淀杂质作用,但因油液常与空气接触,使空气易于渗入系统,导致机构运动不平稳等后果。开式系统油箱大,油泵自吸性能好。闭式系统中,液压泵的进油管直接与执行元件的回油管相连,工作液体在系统的管路中进行封闭循环。其结构紧凑,与空气接触机会少,空气不易渗入系统,故传动较平稳,但闭式系统较开式系统复杂,因无油箱,油液的散热和过滤条件较差。为补偿系统中的泄漏,通常需要一个小流量的补油泵和油箱.由于闭式系统在技术要求和成本上比较高,考虑到经济性的问题,所以该平面磨床采取开始系统,外加一个吸震器来平衡系统. 现代工程机械几乎都采用了液压系统,并且与电子系统、计算机控制技术结合,成为现代工程机械的重要组成部分,怎样设计好液压系统,是提高我国机械制造业水平的一项关键技术.在专机车间,对专用磨床的三组导轨,两个拖板等特殊结构和送料机构及其加工范围有了进一步的加深学习,比向老师傅讨教了动力驱动的原理问题,获益非浅.在加工车间,对龙门刨床,牛头刨床等有了更多的确切的感性认知,听老师傅们把机床的五大部件:床身,立柱,磨头,拖板,工作台细细道来,如孢丁解牛般地,它们的加工工艺,加工特点在不知不觉间嵌们我们的脑袋.
在通机工厂的实习,了解了目前制造业的基本情况,只是由于机械行业特有的技术操作熟练性和其具有的较大风险性,很遗憾地,不能多做一些具体实践的操作,但是观察了一台机床的各个零件的生产加工过程及其装配过程,使许多自己从书本上学的知识鲜活了起来,明白了本专业在一些技术制造上的具体应用.
杭州精密机床厂
7月8日我们到了同属杭州机床集团的杭州精密机床厂,顾名思义,杭州精密机床厂是生产一些加工精度较高,技术要求高的机床设备的大型工厂,主要加工的是机床内部的一些精度等级较高的小部件或者一些高精度的机床,如M级,MM级平面磨床.由于加工要求较高,所以机器也比较精密,所以有些也要在恒温这个环境下伺候它们呢.这样才能保证机床的工作性能,进而保证加工零件的加工精度要求.
在听了工人师傅的讲解后,明白了一般零件的加工过程如下:
胚料---划线---刨床(工艺上留加工余量)--粗车--热处理,调质--车床半精加工--磨--齿轮加工--淬火(齿面)--磨面
齿轮零件加工工艺:
粗车--热处理--精车--磨内孔--磨芯,轴端面--磨另一端面--滚齿--钳齿--剃齿--铡键槽--钳工--完工
精机公司有三个用于加工磨头体的加工中心和几台数控机床,数控机床的体积小,价格相对比较便宜,加工比较方便,加工中心有一个刀床和多个工作台同时对多个工作面进行加工,不仅避免了由于基准不重合产生的误差,提高了加工精度,而且也大大提高了加工效率,但是加工中心体积大,价格昂贵,而且对环境要求较高,这就提高了产品的成本,一般选择加工经济性较高的零件或者精度要求高的关键零件.
在精机公司的实习中,极大地丰富了自己关于零件加工工艺的知识,拓展了自己的知识面.在这次实习中,感触最深的是了解了数控机床在机械制造业中的重要性,它是电子信息技术和传统机械加工技术结合的产物,它集现代精密机械、计算机、通信、液压气动、光电等多学科技术为一体,具有高效率、高精度、高自动化和高柔性等特点,是尖端工业所不可缺少的生产设备.目前我国绝大部分数控机床都是出自国外先进制造商,无论在数量上,精度,性能指标上,中国制造业都远远落后于发达国家,需要我们奋起直追.
上海阀门厂&上海大众汽车生产有限公司
接下来的日子我们乘车去了上海,因为时间比较紧迫,所以这次上海之行应该以参观为主,在上海阀门厂的时间比较短,也很难获得比较理想的实习效果,在上海大众汽车有限公司的参观,多少令我们了解了机械制造业的发展方向,我想,这也是本次上海之行最大的收获.
就目前来言,汽车等一系列高新技术的运用开看,如何将电子技术与机械技术更好的结合,实现机电一体化,将是日后一端时间机械发展的重中之重
杭州发动机厂
我们此次实习的最后一站是杭州发动机厂,该厂建于1958年,是由杭州动力厂和汽车修配厂等合并而成,该厂参与生产了浙江省第一辆重型染油机,第一辆拖拉机,第一辆大客车以及第一部无轨电车,曾在92年被列为国家重点大型企业,浙江省机械100强的美誉,现在该厂拥有员工1800人,具有2000多台专业机器,该厂的X6130柴油机,WD615柴油机,STAIR型柴油机都在浙江省内市场上占有主流地位,年产值达10多忆元,是浙江省内重点发动机生产基地.
在此次实习中,在杭州发动机厂的时间最长,历时12天,分别介绍了X6130柴油缸体的加工工艺(分为面加工和孔加工),凸轮轴孔的加工,数控设备的加工特点,分类及具体运用,曲轴的加工工序以及发动机的具体工作原理.在最后一天,我们还参观了其铸造部,参观了其铸造生产过程.在该厂的实习中,深刻明白了数控机床的生产中发挥的切实作用,以及目前社会对数控机床及数控人才的急需,而在一些重要数控产品,如量大面广的数控车床、铣床、高速高精高性能数控机床等的需求上,决不能过于依赖进口.
历时将近一个月的实习结束,该次实习,真正到达机械制造业的第一前线,了解了我国目前制造业的发展状况也粗步了解了机械制造也的发展趋势.在新的世纪里,科学技术必将以更快的速度发展,更快更紧密得融合到各个领域中,而这一切都将大大拓宽机械制造业的发展方向.
它的发展 趋势可以归结为“四个化”:柔性化、灵捷化、智能化、信息化.即使工艺装备与工艺路线能适用于生产各种产品的需要,能适用于迅速更换工艺、更换产品的需要,使其与环境协调的柔性,使生产推向市场的时间最短且使得企业生产制造灵活多变的灵捷化,还有使制造过程物耗,人耗大大降低,高自动化生产,追求人的智能于机器只能高度结合的智能化以及主要使信息借助于物质和能量的力量生产出价值的信息化.
当然机械制造业的四个发展趋势不是单独的,它们是有机的结合在一起的,是相互依赖,相互促进的。同时由于科学技术的不断进步,也将会使它出现新的发展方向。前面我们看到的是机械制造行业其自身线上的发展。然而,作为社会发展的一个部分,它也将和其它的行业更广泛的结合。21世纪机械制造业的重要性表现在它的全球化、网络化、虚拟化、智能化以及环保协调的绿色制造等。它将使人类不仅要摆脱繁重的体力劳动,而且要从繁琐的计算、分析等脑力劳动中解放出来,以便有更多的精力从事高层次的创造性劳动,智能化促进柔性化,它使生产系统具有更完善的判断与适应能力。当然这一切还需要我们大家进一步的努力。
上一篇:自主课堂研究论文
下一篇:上外论文格式