鹿鹿小宝贝
数学研究的是什么,总的来说就是向量与矢量,向量是有方向的,矢量是衡量大小的,在研究有向空间的时候倘若总是用坐标来表示,必然会很不方便,所以在这样的背景下就产生了向量,只是我个人的理解
变猪猪911
对数量积性质的新认识 【摘 要】:教学活动要遵循内在规律,只有当一切外在事实(知识)通过教师的主导作用,最后被主体(学生)认识之后,这外在东西才会为主体真正占有,这种转化只有在参与实践中才能体会并重新构建、形成知识体系。我们的教材中的好多知识表面上是孤立的,若我们的的教师在引领学生认知这些内容的同时,有“意识”的揭示这种“知识链”,内化我们学生的理解,让学生对知识的构建“水到渠成”!这不失为一种有效教学的好途径。【关键词】:数量积 向量 角度 距离作为新课程改革,高中数学教材的两个显著变化就是“向量和导数”的引入。其目的也很明确:为研究函数、空间图形,提供新的研究手段,即充分体现它们的工具性。但这种“工具性”,只有在深刻理解的基础上才能用好,而要想用活,这又需要我们在实践中不断“开发”新的认识,丰富知识网络,形成较完善的“认知模块”、“知识体系”。例如全日制普通高级中学教科书《数学•第二册(下B)》P33¬中,关于空间向量的数量积有这样三条性质:(1) ,(2) ,(3) 。作为“工具性”,性质(2)(3)比较明显,会立即得到充分的应用。可是对于性质(1),当时,在上新授课时我总认为:这条性质没有什么“本质上”的用处,有点像“房间里的摆设”——配角。但是随着时间的推移,笔者发现了她的奥妙之处:在后继的有关空间问题中的“三大角度”和“三大基本距离”的坐标法的研究中有着奇妙无穷的用途,并带来意想不到的“知识链”反应,极大地丰富了关于空间向量的“数量积”这一运算的“认知模块”的内涵。本文便梳理和佐证这一认知,以飨读者。(一)性质的产生与内含已知向量 和轴l, 是l上与l同方向的单位向量,作点A在l上的射影 ,作点B在l上的射影 则 叫向量 在轴l上或在 方向上的正射影,简称射影。 可以证明得, (证明略,图如下所示。)此性质的内含理解有四点:①结果是一个数量(本身含正负号);②其正负号由向量 所成角的范围决定;③加上绝对值 便是一条线段长度(这里 刚好组成一个直角三角形的两条直角边);④可以推广为求一条线段在另一条直线上的正射影(此线段所在直线与已知直线的位置关系可以异面直线)。(二)性质的“知识链”对教材引进空间向量的“坐标法”来解决空间中“三大角”问题,我们的学生可以说是欣喜若狂啊,因为学生觉得这种方法好!可操作性强!(只要能建系,有坐标就行!)但在实际应用中,学生觉得这些结论不易理解,加上这些结论只能逐步形成和完善,靠死记硬背吧,今天记了明天又忘了!等到用时,仍是“生硬、呆板”,甚至张冠李戴。如何突破这一问题?我认为其根本原因是:在学生的认知结构里,这一性质未能如愿地形成“知识链”。那么,这一性质是怎样与相关问题产生“对接或联系”的呢?(1)它是空间三大角(即线线角、线面角、二面角的平面角)用向量法求解的“对接点”。1.1线线角 的求法的新认识:我们把这两条线赋予恰当的两个向量,问题就化归为两个向量的夹角(两个向量所成的角的范围为 ),即 ,我们能否加以重新认识这个公式呢?如图,,此时OB1可以看作是 与 方向上的单位向量 的数量积 ,这就是由数量积这条性质滋生而成的;故此结论重新可以理解为: (这里刚好满足三角函数中余弦的定义:邻边比斜边)。1.2线面角 的求法的新认识: (其中 为平面 的一个法向量),此结论重新可以理解为: ,此时OP又可以看作是 在 上的投影,即 与 方向上的单位向量 的数量积 , ,故 (这里刚好满足三角函数中正弦的定义:对边比斜边)。1.3二面角的平面角 的求法的新认识: = (其中 是两二面角所在平面的各一个法向量)此结论重新可以理解为: (这里刚好满足三角函数中余弦的定义:邻边比斜边)。★三大角的统一理解: 、 、 、其从上述梳理完全可以看出其本质特征:这里的“空间角”的求法,完全与直角三角形中的三角函数的“正弦或余弦的定义”发生了对接——对边或邻边就是斜边的向量在此边向量上的投影,即斜边向量与对边或邻边方向上的单位向量的数量积,而理解与掌握这里的“空间角”的直角三角形的构图,学生完全可以达到“系统化”和“自主化”,因为直角三角形中的三角函数定义,他们太熟悉了!即将知识的“生长点”建立在学生认知水平的“最近发展区”,那学习就会水到渠成! (2)它又是空间三大距离(即点线距、点面距、异面直线间距离)用向量法求解的“联系点”。空间中有七大距离(除球面上两点间的距离外)基本上可转化为点点距、点线距、点面距,而点线距和点面距又是重中之重!另外两异面直线间的距离,高考考纲中明确要求:对于异面直线的距离,只要求会计算已给出公垂线或在坐标表示下的距离。因此对异面直线间的距离的考查有着特殊的身份。教材按排中引进了向量法来解决距离问题,也给问题的解决带来新的活力!不用作出(或找出)所求的距离了。2.1点面距求法的新认识: (其中 为平面 的一个法向量),此结论重新可以理解为: ,即 在 上的投影,即 与 方向上的单位向量 的数量积 。2.2点线距求法的新认识:1)新认识之一:如图,若存在有一条与l相交的直线时,就可以先求出由这两条相交直线确定的平面的一个法向量 ,则点P到l的距离 。2)新认识之二:若不存在有一条与l相交的直线时,我们可以先取l上的一个向量 ,再利用 来解,即: ,而数量OB可以理解为 在l上的向量 的投影,也即为: 。2.3异面直线间距离求法的新认识: 从这几年的高考《考纲说明》观察,我们不难发现,对异面直线间距离的考查本意不能太难,但若出现难一点的考题,命题者又能自圆其说的新情况。实际上,这种自圆其说法归根到底在于高考考纲中的说法:只要求会计算已给出公垂线或在坐标表示下的距离。那也就是说,在不要作出公垂线(也许学生作不出!)的情况下,也可以求出它们的距离的!那就是用向量法!如图所示:若直线l1与直线l2是两异面直线,求两异面直线的距离。 略解:在两直线上分别任取两点A、C、B、D,构造三个向量 ,记与两直线的公垂线共线的向量为 ,则由 ,得 ,则它们的距离就可以理解为: 在 上的投影的绝对值,即: 。 ★三大距离的统一理解: (点面距)、 (异面距)、 (点线距之一)、 且 (点线距之二)、其本质特征是:一个向量在其所求的距离所在直线的一个向量上的投影,也即数量积此性质的直接应用。由上述的剖析过程不难再看出:空间中的三大角与三大基本距离的计算,都隐藏于这个“特定”的数量积的性质之中,体现在这个公式结构的“统一美”之中,把问题的本质揭示得“淋漓尽致”,而又不失自然!这给“立体几何” 中向量的工具性的体现,增色了几分美感与统一感!(三)性质的应用例1、(2005年山东省(理科)高考第20题)如图,已知长方体 直线 与平面 所成的角为 , 垂直 于 , 为 的中点.(I)求异面直线 与 所成的角;(II)求平面 与平面 所成的二面角;(III)求点 到平面 的距离.解:在长方体 中,以 所在的直线为 轴,以 所在的直线为 轴, 所在的直线为 轴建立如图示空间直角坐标系;由已知 可得 , ,又 平面 ,从而 与平面 所成的角为 ,又 , , ,从而易得 (I) 因为 所以 ,易知异面直线 所成的角为 (II) 易知平面 的一个法向量 ,设 是平面 的一个法向量, 由 即 所以 即平面 与平面 所成的二面角的大小(锐角)为 (III)点 到平面 的距离,即 在平面 的法向量 上的投影的绝对值,所以距离 = 所以点 到平面 的距离为 例2、(2005年重庆(理科)高考第20题)如图,在三棱柱ABC—A1B1C1中,AB⊥侧面BB1C1C,E为棱CC1上异于C、C1的一点,EA⊥EB1,已知AB= ,BB1=2,BC=1,∠BCC1= ,求:(Ⅰ)异面直线AB与EB1的距离;(Ⅱ)二面角A—EB1—A1的平面角的正切值. 解:(I)以B为原点, 、 分别为y、z轴建立空间直角坐标系.由于BC=1,BB1=2,AB= ,∠BCC1= ,在三棱柱ABC—A1B1C1中有B(0,0,0),A(0,0, ),B1(0,2,0),A1(0,2, ) ,设 ; ,则 得, (令y=1),故 =1(II)由已知有 故二面角A—EB1—A1的两个半平面的法向量为 。 。通过上述几个高考题的分析,我们不难看出:立体几何中的几何法的“难在找(或作)所求的角度或距离”,通过这个数量积的性质的转化(方法的转化与知识之间的转化),其“难”渐渐地溶解于“转换与化归”之中及学生的细心地“计算”之中,从而也焕发了数量积这条性质的奥妙之处,也就更体现了“向量”这个工具在立体几何中应用的优越性、工具性。因为”程序化”的计算使我们的学生的“信心”倍增!同时让我们的学生也懂得了“知其所以然”,再也不用为记这一个“好结论”而烦恼了!参考文献:1、2005年普通高等学校招生全国统一考试大纲 (高等教育出版社)2、《浙江省高考命题解析——数学》 (浙江省高考命题咨询委员们编著)3、基础教育课程改革教师通识培训书系第二辑《课程改革发展》(中央民族大学出版社 周宏主编)
yvette0112
论文: 论文题目:《Multi-Interest Network with Dynamic Routing for Recommendation at Tmall》 论文地址: 前面讲的论文大部分都是关于排序的算法,mind作为天猫商城召回阶段的算法,还是很值得阅读的。 主流的推荐系统一般都分为matching(召回)和rangking(排序)两个阶段,不管在哪个阶段,都要学习和表示用户的兴趣向量。因此,最关键的能力是为任一阶段建模并得到能代表用户兴趣的向量。现有的大多数基于深度学习的模型都将一个用户表示为一个向量,如YoutubeDNN那篇论文,不足以捕获用户兴趣的不断变化的特点。基于以上原因,天猫提出了Mind方法,通过不同的视角来解决这个问题,并且用不同的向量来表示从用户不同方面的兴趣。 天猫商城也是分为了召回和排序两个阶段,召回阶段的主要目标就是从亿级别的商品库中筛选出千级别的候选物品给排序阶段使用。在天猫场景下,用户每天都要与成百上千的商品发生交互,用户的兴趣表现得多种多样。如下图所示,不同的用户之间兴趣不相同,同时同一个用户也会表现出多样的兴趣: 现在主流的召回阶段用到的召回算法要么是基于协同过滤的算法,要么是基于embedding召回的方法,但是这两个方法都有缺陷。协同过滤算法有着稀疏性和计算存储瓶颈方面的缺点,embedding的向量召回方法也有着几个缺点,一个是单一的向量无法准确表达出用户多种多样的兴趣,除非把这个向量长度变得特别大,还有一个就是,只有一个embedding会造成一定的头部效应,召回的结果往往是比较热门领域的商品(头部问题),对于较为小众领域的商品,召回能力不足,也就是更容易造成马太效应。 正如我们在第一段话中阐述的那样,如果单个兴趣向量没法做到将所有的用户兴趣点覆盖,那么就多搞几个向量,几个向量同时来表示用户的兴趣点不就行了吗?事实证明这么做确实是可以的,而且天猫也通过这种方法大大提高了召回的效果。 简单的先来看一下这个模型的架构,还是浓浓的阿里味,不管是item还是user在生成属于自己的向量的时候都会加上side information,这也是跟din,dien中一样传承下来的东西。整个模型关键的部分就在于这个Multi-Interest Extractor Layer层,后面我们就重点来讲一下这个层。 召回阶段的目标是对于每个用户u∈U的请求,从亿级的商品池I中,选择成百上千的符合用户兴趣的商品候选集。每条样本可以表示成三元组(Iu,Pu,Fi),其中Iu是用户u历史交互过的商品集合,Pu是用户画像信息,比如年龄和性别,Fi是目标商品的特征,如商品ID、商品品类ID。 那么MIND的核心任务是将用户相关的特征转换成一系列的用户兴趣向量: 接下来就是item的embedding了: 说白了f函数就是个embedding+pooling层。 我们有了用户的兴趣向量 和物品向量e后,就可以通过如下的score公式计算得到topN的商品候选集: 这个score的计算过程过其实是对这K个向量分别计算出一个分数然后取最大对那个。有了每个用户的兴趣向量后,我们就能对所有对item求一个分数,这样直接取topN就可以得到N个候选物品了。 这一层跟我们之前介绍的论文din,dien中的操作是类似的。在user embedding中,输入部分包括user_id,还包括gender,city等用户画像信息,分别做完embedding后直接concat起来就得到用户的embedding。跟user侧不同的item embedding则是采用pooling操作来得到item embedding,将商品ID、品牌ID、店铺ID分别做embedding后再用avg pooling。 这部分就是整个mind最关键的地方了,下面会进行详细讲解。 我们认为,通过一个表示向量表示用户兴趣可能是捕获用户的多种兴趣的瓶颈,因为我们必须将与用户的多种兴趣相关的所有信息压缩到一个表示向量中。 因此,关于用户的不同兴趣的所有信息混合在一起,从而导致在匹配阶段的项目检索不准确。所以,mind采用了多个兴趣向量来表示用户的不同兴趣。 通过这种方式,可以在召回阶段分别考虑用户的不同兴趣,从而可以针对兴趣的各个方面进行更准确的检索。 Multi-Interest Extractor Layer,借鉴的是Hiton提出的胶囊网络。有关胶囊网络,下面的图可以帮助你快速理解(源于知乎: ): 可以看到,胶囊网络和传统的神经网络较为类似。传统神经网络输入一堆标量,首先对这堆标量进行加权求和,然后通过非线性的激活函数得到一个标量输出。而对胶囊网络来说,这里输入的是一堆向量,这里的计算是一个迭代的过程,每次对输入的向量,先进行仿射变换,然后进行加权求和,最后用非线性的squash操作得到输出向量,可以看到胶囊网络的的输入跟输出还是跟传统DNN不一样的。 但是,针对图像数据提出的原始路由算法不能直接应用于处理用户行为数据。 因此,我们提出了“行为到兴趣(B2I)”动态路由,用于将用户的行为自适应地汇总到兴趣表示向量中,这与原始路由算法在三个方面有所不同。 1.共享双向线性映射矩阵 在胶囊网络中,每一个输入向量和输出向量之间都有一个单独的双向映射矩阵,但是MIND中,仿射矩阵只有一个,所有向量之间共享同一个仿射矩阵。 主要原因:一方面,用户行为的长度是可变的,天猫用户的行为范围是几十到几百,因此固定双线性映射矩阵的使用是可推广的,同时也减少了大量的参数。 另一方面,我们希望兴趣胶囊位于相同的向量空间中,但是不同的双线性映射矩阵会将兴趣胶囊映射到不同的向量空间中。因此,映射的逻辑变成了: 其中ei是用户行为中的item i的embedding,uj是兴趣胶囊j的向量。 2. 随机初始化胶囊网络的权值 在原始的胶囊网络中,映射矩阵是初始化为0的,但是这样会导致几个问题。将路由对数初始化为零将导致相同的初始兴趣胶囊。从而,随后的迭代将陷入一种情况,在这种情况下,不同的关注点胶囊始终保持相同。这跟我们的意图是不一致的,我们希望生成不同的用户兴趣向量。因此,我们在初始化的时候,让胶囊网络中权重的初始化由全部设置为0变为基于正太分布的初始化。 这里随机初始化的是bij而不是S,也就是胶囊映射逻辑矩阵,S是双向映射矩阵,不要搞混了。 3. 动态的用户兴趣数量 由于不同用户拥有的兴趣胶囊数量可能不同,因此我们引入了启发式规则,用于针对不同用户自适应地调整K的值。 具体来说,用户u的K值由下式计算: 动态的调整会让那些兴趣点较少的用户节省一部分计算和存储资源。 整个Multi-Interest Extractor Layer的计算过程如下: 看到这里我有个疑惑,在于算法的第7点,我们的 是用正太分布初始化的矩阵 跟双向仿射变化后的向量相加的结果,这一点我在论文中并没有得到很好的理解,也就是说,本来 是全零的,现在是用标准正态分布初始化后在去跟双向映射完的向量叠加吗? 还有一个疑问就是,针对每一个j,我们利用所有的behavior的i计算得到一个向量uj,其实感觉应该就是在bij的计算上是不同的,只有bij的计算不同才会产生不同的wij,这样的话也就是说每一轮的bij都是有上一轮的结果来生成的意思? 关于这两点我还是没能搞清楚,以我现在已有的知识来看,每次生成uj后都会利用整个uj去生成下一个bij,跟dcn里面的cross network有点类似,但是说不上来是为什么这么做,可能是这样计算保持来序列计算的特性。 从图中我们也可以清楚的看出来,通过Multi-Interest Extractor Layer,我们得到了多个用户向量表示。接下来,每个向量与用户画像embedding进行拼接,经过两层全连接层(激活函数为Relu)得到多个用户兴趣向量表示。每个兴趣向量表征用户某一方面的兴趣。 我们在前面获得了多个用户的兴趣向量,那么该如何知道这些兴趣向量中哪些是重要的,哪些是可以忽视的呢?这时候attention就派上了用场,正如我们在din中对用户历史行为中的每个item计算weight一样,我们在这个地方也构建一个一个attention网络,用来计算不同兴趣点的weight。 看一下上面的attention网络在结合一下整个mind的模型结构不难得出,这个attention网络的q是候选item的embedding,k,v都是用户的兴趣向量。 attention的计算公式为: 其中,除了计算vu跟ei的内积意外,mind还对这个内积进行了指数运算,这个p值起到了一个平滑对作用,到p接近0的时候,所有的weight是相近的,意味着每个兴趣点都会被关注到。到p大于1的时候,有些weight就会变得很大,而有些就会变得很小,相当于加强了跟candidate item强相关的兴趣点的权值,削弱了弱相关兴趣点的权值,此时更类似于一种hard attention,即直接选择attention score最大的那个向量。实验也证明了,hard attention的方法收敛得更快。 通过label attention网络,我们得到了代表用户u的兴趣向量 ,有了这个向量,我们就可以计算用户u点击item i的概率了,计算方式如下: 目标函数为: 这个L不是损失函数,可以理解为极大似然函数,我们的目标就是让这个东西最大。 当然,在一个具有亿级别item的网站中,我们是不会采用原始的softmax操作的,跟在skip gram中的sample softmax类似,mind也采用了sample softmax的做法,大大减少了运算量。 而在serving阶段,只需要计算用户的多个兴趣向量,然后每个兴趣向量通过最近邻方法(如局部敏感哈希LSH)来得到最相似的候选商品集合。我们只需要输入用户的历史序列和画像信息,就可以得到用户的兴趣向量,所以当用户产生了一个新的交互行为,MIND也是可以实时响应得到用户新的兴趣向量。这里相当于把label attention舍弃掉了,直接用剩下的部分来得到用户的兴趣向量。 serving阶段跟training阶段对于用户的兴趣向量的处理是不一样的,在serving阶段,由于我们有多个兴趣向量,所以score的计算方式就变成了取最大的那个: mind选择了跟他比较相近的YoutubeDNN进行对比,对比结果如下: 此外,论文还提到了DIN,在获得用户的不同兴趣方面,MIND和DIN具有相似的目标。 但是,这两种方法在实现目标的方式和适用性方面有所不同。 为了处理多样化的兴趣,DIN在item级别应用了注意力机制,而MIND使用动态路由生成兴趣,并在兴趣级别考虑了多样性。 此外,DIN着重于排名阶段,因为它处理成千或者万级别的item,但是MIND取消了推断用户表示和衡量user-item兼容性的过程,从而使其在匹配阶段适用于数十亿个项目。
可以从斯嘉丽的女性意识变化写起。战前和战后她性格的变化尤为明显,从女性主义入手分析,探讨新旧南方对她的性格影响。
生态文明的论文参考文献 从小学、初中、高中到大学乃至工作,大家都不可避免地会接触到论文吧,论文是一种综合性的文体,通过论文可直接看出一个人的综合能力和专业基础。
在国内外有很多关于特征值与特征向量的研究成果,并且有很多专家学者涉足此领域研问题,吴江、孟世才、许耿在《浅谈线性代数>中“特征值与特征向量”的引入》中从线性空间
浅谈体系管理其实好多人认为体系管理很难,没有必要不适用(无实操性),可有可无等等。好多企业通过体系认证主要是为了应付客户。其实良好的体系管理真正受益者是企业,让
可以从斯嘉丽的女性意识变化写起。战前和战后她性格的变化尤为明显,从女性主义入手分析,探讨新旧南方对她的性格影响。