renee的天空
写在前面的话:本文来自于本人的一次课程作业综述,当时还是写了很久的,不想交上去就完了,所以发上来留个纪念。 将注意力机制用在计算机视觉任务上,可以有效捕捉图片中有用的区域,从而提升整体网络性能。计算机视觉领域的注意力机制主要分为两类:(1) self-attention;(2) scale attention。这两类注意力从不同的角度进行图片内容理。本文将分别就这两种注意力机制进行说明,并列举相关的文献。 注意力是人类大脑固有的一种信号处理机制。人类大脑通过快速从视觉信号中选择出需要重点关注的区域,也就是通常所说的注意力焦点,然后重点处理这些区域的细节信息。通过注意力机制可以利用有限的大脑资源从大量的信息中筛选出有价值的信息。注意力机制最初被用在深度学习任务上是在机器语言翻译领域,将源语言翻译成目标语言,目标语言中的词并非与源语言的所有词都同等相关,而是仅与特定的几个词有相关性。因此,注意力机制可以将这个词的注意力分配到这些最相关的词上。之后,[1]中提出自注意力机制 (self-attention),并将其用于Transformer模块中,极大提升了翻译模型的精度和并行性。与传统的注意力机制不同,self-attention的查询(query)和键(key)属于同一个域,计算的是同一条语句(或同一张图片)中不同位置之间的注意力分配,从而提取该语句(或图片)的特征。 [2]首先将self-attention用于视觉任务中,提出了non-local network,来捕获图片(或视频)中的长程依赖(long-range dependency)。Self-attention机制在视觉任务,如语义分割[3],生成对抗网络[4]中取得了巨大的成功。它解决了卷积神经网络的局部视野域问题,使得每个位置都可以获得全局的视野域。不过,由于在视觉任务中,像素数极多,利用所有位置来计算每个位置的attention会导致巨大的计算和显存开销;另一方面,由于self-attention简单将图像当成一个序列进行处理,没有考虑不同位置之间的相对位置关系,使得所得到的attention丧失了图像的结构信息。之后对于self-attention的一个改进方向就是,在self-attention中加入相对位置信息或绝对位置信息编码。 除了self-attention,视觉任务中另一类注意力机制为scale attention。与self-attention不同,scale attention基于每个位置本身的响应。就分类任务而言,每个位置的响应越大,则其对于最终的分类结果影响越大,那么这个位置本身的重要性就越强。根据响应大小有选择地对特征图进行强化或抑制,就可以在空间(或其他维度)上达到分配attention的目的。[5]所提出的SENet,就相当于channel-wise的attention。类似的还有GENet[6],CBAM[7]等,GENet将SENet中的channel-wise attention扩展到了spatial上,CBAM设计了串行的两个模块,分别进行channel-wise attention和spatial-wise attention的计算。另一篇工作residual attention network[8]也属于这一类attention,与SENet系列不同之处在于,本文采用bottom-up top-down形式得到spatial attention,再将其以残差的形式作用回原来的特征。这一类注意力机制仅仅基于图像中每个位置本身,对显著区域进行增强,非显著区域进行抑制,比self-attention机制更接近与人类视觉系统的注意力机制。 普通卷积将特征图的每个位置作为中心点,对该位置及其周围的位置进行加权求和,得到新的特征图上该位置对应的滤波结果,对于边缘,必要时可以用0进行填充。这一操作可以有效提取图片的局部信息。随着网络加深,卷积层不断堆叠,每个位置的视野域也越来越大,网络提取到的特征也逐渐由一些low-level的特征,如颜色、纹理,转变到一些high-level的结构信息。但是,简单通过加深网络来获取全局视野域,所带来的计算开销是很大的,并且,更深的网络会带来更大的优化难度。 Self-attention操作[2]可以有效地捕获不同位置之间的long-range dependency,每个位置的特征都由所有位置的加权求和得到,这里的权重就是attention weight。由此,每个位置都可以获取全局的视野域,并且不会造成特征图的退化(分辨率降低),这对于一些密集的预测任务,如语义分割、目标检测等,具有很大的优势。 图1展示了self-attention的网络结构。给定输入X,将两个1x1卷积分别作用于X上,得到的两个特征利用f(⋅)得到相关性矩阵,图中展示的f(⋅)为矩阵乘法。最后将相关性矩阵作用在原特征经过1x1卷积变换后的特征上。 公式(1)展示了第i个位置的相应的计算方法,其中f(⋅)为相关性函数,g(⋅)为变换函数,x_i为输入第i个位置的特征,y_i为第i个位置的输出特征,C(x)为归一化因子,一般采用总位置的个数。 由于self-attention可以有效捕获图片(或视频)中的长距离依赖,从而在不影响特征分辨率的同时获取全局的视野域,在视觉任务上引入self-attention,可以带来较大的性能提升。 论文[2]将self-attention用在视频动作识别任务上,如图2,对于视频中动作的识别,可能会跨越多帧,需要建立多帧视频之间的联系,self-attention的这种长距离依赖的特征就能有效建立多帧不同位置之间的联系。 论文[2]将self-attention用在分割任务上。由于孤立预测每个位置的类别很容易导致分错,分割任务需要结合每个位置的上下文对该位置进行分类。文章定义了所谓物体上下文(object context),即每个位置所属于的类别构成的集合,即为这个位置所属于的object context。 Object context是由不同位置的特征相似度来定义的,也就是self-attention过程中的相似度矩阵,将相似度矩阵与原特征进行相乘,即可将object context作用于该特征图。由此,文章提出了Object Context Network(OCNet),如图3。其中,base-OC为基本的self-attention模块,pyramid-OC和ASP-OC分别将self-attention与PSP模块和ASPP模块结合,在提取object context的同时,利用不同倍率的pooling操作或不同ratio的dilated convolution获取多尺度的特征,最大程度的利用context信息对原图进行分割。不过,本文虽然提出object context为每个像素及所有其他与其属于同一类的像素构成的集合,在实际操作的时候却并不是这样计算每个位置的object context的,特征上的相似性并不一定代表属于同一位置。因此,用object context来给self-attention新的解释,在说服力上还是存在一定问题的。 Scale attention是另一种注意力机制,与self-attention不同,scale attention是只基于key context的,对图像中的显著性区域进行增强,其他区域相应的进行抑制,从而使得输出的特征具有更强的区分性。这一类注意力机制的代表工作包括,residual attention network[8],squeeze-and-excite network[5],gather-and-excite network[6]以及CBAM[7]。 [8]提出,在分类网络中,网络深层比浅层更关注于被分类的物体,也就是图片的主体内容,这是因为,深层网络具有更大的视野域,可以看到更广的范围;而浅层网络只能看到每个位置及其邻域。因此,如果将网络较深层的信息作为一种mask,作用在较浅层的特征上,就能更好的增强浅层特征中对于最终分类结果有帮助的特征,抑制不相关的特征。如图5所示,将attention作为mask作用在原来特征上,得到的输出就会更加集中在对分类有帮助的区域上。 因此,文章提出一种bottom-up top-down的前向传播方法来得到图片的attention map,并且将其作用在原来的特征上,使得输出的特征有更强的区分度。图6展示了这种attention的计算方式。由于更大的视野域可以看到更多的内容,从而获得更多的attention信息,因此,作者设计了一条支路,通过快速下采样和上采样来提前获得更大的视野域,将输出的特征进行归一化后作用在原有的特征上,将作用后的特征以残差的形式加到原来的特征上,就完成了一次对原有特征的注意力增强。文章还提出了一个堆叠的网络结构,即residual attention network,中间多次采用这种attention模块进行快速下采样和上采样。 这篇文章在视觉领域开前向传播的注意力机制的先河,之后的注意力机制都是采用这种前向传播过程中得到的attention进行增强,并且一般为了优化方便,都会以残差的方式进行。 Squeeze-and-excite是另一类scale attention。与residual attention不同,squeeze-and-excite通过global pooling来获得全局的视野域,并将其作为一种指导的信息,也就是attention信息,作用到原来的特征上。 [5]提出了squeeze-and-excite network(SENet),提出了channel-wise的scale attention。特征图的每个通道对应一种滤波器的滤波结果,即图片的某种特定模式的特征。对于最终的分类结果,这些模式的重要性是不同的,有些模式更重要,因此其全局的响应更大;有些模式不相关,其全局的响应较小。通过对不同通道的特征根据其全局响应值,进行响应的增强或抑制,就可以起到在channel上进行注意力分配的作用。其网络结构如图7所示,首先对输入特征进行global pooling,即为squeeze阶段,对得到的特征进行线性变换,即为excite阶段,最后将变换后的向量通过广播,乘到原来的特征图上,就完成了对不同通道的增强或抑制。SENet在2017年的ImageNet2017的分类比赛上获得了冠军,比之前的工作有了较大的性能提升。 [6]进一步探索了squeeze-and-excite在更细的粒度上的表现,提出了gather-excite操作。SENet将每个通道的特征图通过global pooling得到一个值,本文采用了不同步长的pooling(2x,4x,8x,global),然后利用上采样将pooling后的特征插值恢复到原来大小,最后作用在原来特征图上,具体操作如图8所示。不过,实验结果显示,global pooling的性能最好,将特征区间划分得更细致虽然增加了参数,但是反而会带来性能的下降。 [1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008. [2] Wang X, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7794-7803. [3] Yuan Y, Wang J. Ocnet: Object context network for scene parsing[J]. arXiv preprint arXiv:, 2018. [4] Zhang H, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[J]. arXiv preprint arXiv:, 2018. [5] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7132-7141. [6] Hu J, Shen L, Albanie S, et al. Gather-Excite: Exploiting feature context in convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2018: 9401-9411. [7] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19. [8] Wang F, Jiang M, Qian C, et al. Residual attention network for image classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3156-3164.
进击的银酱
论文: Coordinate Attention for Efficient Mobile Network Design
目前,轻量级网络的注意力机制大都采用SE模块,仅考虑了通道间的信息,忽略了位置信息。尽管后来的BAM和CBAM尝试在降低通道数后通过卷积来提取位置注意力信息,但卷积只能提取局部关系,缺乏长距离关系提取的能力。为此,论文提出了新的高效注意力机制coordinate attention,能够将横向和纵向的位置信息编码到channel attention中,使得移动网络能够关注大范围的位置信息又不会带来过多的计算量。 coordinate attention的优势主要有以下几点:
Coordinate Attention可看作增强移动网络特征表达能力的计算单元,接受中间特征 作为输入,输出与 大小相同的增强特征 。
Coordinate Attention基于coordinate information embedding和coordinate attention generation两个步骤来编码通道关系和长距离关系。
channel attention常用全局池化编码全局空间信息,将全局信息压缩成一个标量,难以保留重要的空间信息。为此,论文将全局池化改造成两个1维向量的编码操作。对于输入 ,使用池化核 和 来编码水平方向和垂直方向特征,即第 维特征的输出为:
上面的公式从不同的方向集成特征,输出一对方向可知的特征图。对比全局池化的压缩方式,这样能够允许attention block捕捉单方向上的长距离关系同时保留另一个方向上的空间信息,帮助网络更准确地定位目标。
为了更好地利用上述的coordinate infomation,论文提出了配套的coordinate attention generation操作,主要基于以下三点准则进行设计:
首先将公式4和公式5的输出concatenate起来,使用 卷积、BN和非线性激活进行特征转化:
为包含横向和纵向空间信息的中间特征, 为缩减因子。这里两个方向的特征没有做激烈的融合,concatenate的主要目的我觉得是进行统一的BN操作。随后将 分为两个独立的特征 和 ,使用另外两个 卷积和sigmoid函数进行特征转化,使其维度与输入 一致:
将输出 和 合并成权重矩阵,用于计算coordinate attention block输出:
coordinate attention block与se block的最大区别是,coordinate attention block的每个权重都包含了通道间信息、横向空间信息和纵向空间信息,能够帮助网络更准确地定位目标信息,增强识别能力。
将coordinate attention block应用于MobileNetV2和MobileNeXt上,block结构如图3所示。
基于MobileNetV2进行模块设置的对比实验。
不同注意力结构在不同主干网络上的性能对比。
对目标检测网络的性能对比。
对语义分割任务的性能对比。
论文提出新颖的轻量级通道注意力机制coordinate attention,能够同时考虑通道间关系以及长距离的位置信息。通过实验发现,coordinate attention可有效地提升模型的准确率,而且仅带来少量的计算消耗,十分不错。
珊珊来了
论文: 题目:《A Contextualized Temporal Attention Mechanism for Sequential Recommendation》 地址: 序列推荐任务很少使用时间和上下文信息对h(h就是rnn,gru等序列建模网络输出的状态)进行加权,www这篇论文融合了上下文和时间信息的加权信号,一起看看吧,虽然笔者觉得这篇论文非常笨重。。 这篇论文的背景其实可以放在sequence recommendation任务中去看待,根据历史记录中用户的先后行为来预测用户的偏好对于现代推荐系统而言具有挑战性且至关重要。现有的大多数序列推荐算法都将重点放在顺序动作之间的传递结构上,但是在对历史事件对当前预测的影响进行建模时,很大程度上会忽略时间和上下文信息。 论文认为,过去事件对用户当前动作的影响应随时间推移以及在不同背景下发生变化。因此,我们提出了一个基于上下文和时间的注意机制,该机制可以学会权衡历史行为对行为的影响,不仅影响行为是什么,而且还影响行为发生的时间和方式。更具体地说,为了动态地校准自注意机制的相对输入依存关系,我们设计了多个参数化的核函数来学习各种时间动态,然后使用上下文信息来确定对每个输入遵循哪些weight kernel函数。 上面的说法可能有点晦涩难懂,下面结合一张图来描述一下以上图中所示的在线购物场景为例:系统获得了一系列用户行为记录,并且需要推荐下一组商品。 我们应该注意,在此场景中,我们假设这些交互行为不是彼此独立的, 这更好地反映了推荐系统只能访问脱机数据和部分用户行为记录的情况。好了,接着看上图中的场景,用户在过去的一段时间内点击来网球拍,手机,运动鞋,智能手环,然后在昨天一直在浏览手机,那么这个时候我们需要预估用户的下一次点击,这个时候的用户正想买一个手表,那么这个时候系统是给用户推荐运动手表呢,还是推荐电子手表呢,因为用户过去的浏览有运动类的物品和智能设备的物品。 按照时间的分段性来看:长期的历史记录表明用户对购物体育相关产品感兴趣。 现在,用户正在寻找手表,该系统可以推荐一些运动手表。 从本质上讲,长期的用户历史记录通常可能会携带稀少但至关重要的用户偏好信息,影响着现在的意图,而最近的交互操作应该会更能代表用户在将来的意图。 按上下文细分:由于用户仔细浏览几个智能手机(比平均时间间隔短得多的时间间隔),因此可以认为这些物品跟当前用户的偏爱非常相关,因此智能手表可能比传统手表更受青睐。 通常,用户浏览日志的某些时间段可能看起来是异构的,这个时间段里面充满了用户的短期兴趣偏好,用户在这个时间点上会以重复的方式专注于一小部分同类物品。 很容易理解,时间因素可以理解为用户的长期兴趣偏好,即使在很遥远的历史,也会对现在的兴趣产生影响,上下文偏好可以理解为用户的短期兴趣偏好,也就是用户在近期浏览的物品表征了用户现在的短期意图。说白了就是对用户进行长短期兴趣建模。 本来不想说这三个问题的,无奈部分论文说的太抽象了,或许是越抽象越容易中稿? 说实话这篇论文在解释时间跟上下文关系的时候说的太晦涩难懂了,笔者看的也是很头疼,比如下面这段话: 首先,我们看第一个问题,我的理解就是用self-attention进行序列建模,第二个就是确定时间因素和上下文因素的影响,第三个就是综合考虑时间和上下文的影响。 还是直接看模型吧,扯一堆什么因果关系看得头大:用户空间 U ,大小为U;物品空间 V ,大小为V。 用户的历史行为序列为{ },其中 ={( , ), ( , ) , ... },其中 用户u的交互时间, 代表交互的物品。 模型的输入为包括窗口大小为L的用户历史记录:{ ( ) i: 0 -> L},当前需要推荐的时间戳 ,输入序列的embedding X表示: 同时将输入序列的时间信息使用时间戳差来表示: 模型整体上分为三个部分:content-based attention,temporal kernels和contextualized mixture 三层模型可以表示为: 其中, 根据content X来计算每个输入的权重,输出权重序列α ∈ ; 将时间信息 T 通过K temporal kernels计算每个输入的temporal权重β ∈ ; 从 X 中提取context信息,并结合前两个阶段获得的α 和β 来计算得到最终的contextualized temporal权重γ ∈ 。 最终被推荐的物品的表示为: 其中,F-out是一个feed-forward层。 这里用到的是self-attention机制,具体的细节不在赘述,只需要知道结果输出就行:其中 表示最后一个物品的输入embedding,其实就是用最后一个物品的embedding作为key,self-attention最后一层的状态 作为query来计算 的。 基于观察:用户随意浏览的物品对短期的影响会急剧下降,但是在长期来说仍有着重要的作用。用户仔细浏览过的物品对用户短期的兴趣有着重要的作用。 所以,文章提出了很多temporal kernels来建模这种时间变化,不同的kernel函数 : → 如下所示: (1) = ,假设一个用户操作的影响会随着时间指数下降,但是永远不会消失。 (2) ,假设一个用户操作的影响会随着时间而减弱,最终可以忽略不计。 (3) -alT + b,假设一个用户操作的影响会随着时间线性下降,之后的softmax操作会将某个时间段内的影响置为0。 (4) 假设一个用户操作的影响不受时间影响。 根据K个kernal函数{ },我们可以将 T 转为K个temporal权重集合: 作为下一阶段的输入。 这一阶段的目标是基于提取到的context信息融合前两个阶段获得的content和temporal信息。 使用Bidirectional RNN结构来获得context信息。从输入序列embedding表示X中,我们可以计算得到循环隐藏层的状态: 其中,⊕是拼接操作,C_attr是可选择的context特征(可以是特定推荐系统中每个行为的属性,表示行为发生时的上下文),本文中只使用了Bi-RNN的输出作为context特征。 行为i的context特征需要映射为一个长度为K的权重向量,每一个元素 都是这个行为经过 后的结果,使用feed forwaed层Fγ将它们映射到概率空间 ,然后经过softmax操作得到概率分布:最后将context和temporal信息进行融合:其中, , 其中,r是每一个item的分数,对于给定的用户,通过softmax层对item分数进行归一化,该层会在item表上产生概率分布,也就是进行多分类的意思。其中Ns是根据频率进行负采样的负样本。
企业发展战略研究论文提纲范文 下面是我整理的有关企业发展战略研究的论文提纲,希望能帮到大家。 目前已进入新经济时代,民营企业要想做强、做大,必须在战略思路和实践
简述昆虫生殖系统的组成及各部分的功能。雌虫:1)卵巢:雌性生殖系统的主要器官,由孕育卵母细胞的卵巢管组成2)侧输卵管:运输卵细胞3)中输卵管:运输卵细胞4)受精
这还需要很长时间
闫福林,男,1957年出生,教授,博士,硕士生导师。药学院常务副院长。河南省优秀专家,河南省重点学科“药物化学”学科带头人,省级优秀教学团队带头人。全国优秀教师
咋和我问的一样···你也在做生工导论的考查么····呵呵