• 回答数

    3

  • 浏览数

    209

无敌花花Nancy
首页 > 论文发表 > hinton教授的论文发表在哪

3个回答 默认排序
  • 默认排序
  • 按时间排序

april841002

已采纳

戴维.亨顿是20世纪第一位将中国古代最著名的四部哲学典籍《论语》《孟子》《道德经》和《庄子》独自全部译成英语的西方翻译家。亨顿用通俗、自然、清新、简朴的语言把孔孟老庄博大玄妙的思想展现给西方普通读者,为当代西方英语读者了解中国传统文化打开了一扇窗口。

88 评论

招妹0916

“很多昆虫在幼虫形态的时候是最擅长从环境中吸取能量和养分的,而当他们成长为成虫的时候则需要擅长完全不同能力比如迁移和繁殖。”在2014年Hinton发表的知识蒸馏的论文中用了这样一个很形象的比喻来说明知识蒸馏的目的。在大型的机器学习任务中,我们也用两个不同的阶段 training stage 和 deployment stage 来表达两种不同的需求。training stage(训练阶段)可以利用大量的计算资源不需要实时响应,利用大量的数据进行训练。但是在deployment stage (部署阶段)则会有很多限制,比如计算资源,计算速度要求等。知识蒸馏就是为了满足这种需求而设计的一种模型压缩的方法。

知识蒸馏的概念最早是在2006年由Bulica提出的,在2014年Hinton对知识蒸馏做了归纳和发展。知识蒸馏的主要思想是训练一个小的网络模型来模仿一个预先训练好的大型网络或者集成的网络。这种训练模式又被称为 "teacher-student",大型的网络是“老师”,小型的网络是“学生”。

在知识蒸馏中,老师将知识传授给学生的方法是:在训练学生的过程中最小化一个以老师预测结果的概率分布为目标的损失函数。老师预测的概率分布就是老师模型的最后的softmax函数层的输出,然而,在很多情况下传统的softmax层的输出,正确的分类的概率值非常大,而其他分类的概率值几乎接近于0。因此,这样并不会比原始的数据集提供更多有用的信息,没有利用到老师强大的泛化性能,比如,训练MNIST任务中数字‘3’相对于数字‘5’与数字‘8’的关系更加紧密。为了解决这个问题,Hinton在2015年发表的论文中提出了‘softmax temperature’的概念,对softmax函数做了改进: 这里的 就是指 temperature 参数。当 等于1 时就是标准的softmax函数。当 增大时,softmax输出的概率分布就会变得更加 soft(平滑),这样就可以利用到老师模型的更多信息(老师觉得哪些类别更接近于要预测的类别)。Hinton将这样的蕴含在老师模型中的信息称之为 "dark knowledge",蒸馏的方法就是要将这些 "dark knowledge" 传给学生模型。在训练学生的时候,学生的softmax函数使用与老师的相同的 ,损失函数以老师输出的软标签为目标。这样的损失函数我们称为"distillation loss"。

在Hinton的论文中,还发现了在训练过程加上正确的数据标签(hard label)会使效果更好。具体方法是,在计算distillation loss的同时,我利用hard label 把标准的损失( )也计算出来,这个损失我们称之为 "student loss"。将两种 loss 整合的公式如下:

这里的 是输入, 是学生模型的参数, 是交叉熵损失函数, 是 hard label , 是参数有 的函数, 是系数, 分别是学生和老师的logits输出。模型的具体结构如下图所示:

在上述公式中, 是作为超参数人为设置的,Hinton的论文中使用的 的范围为1到20,他们通过实验发现,当学生模型相对于老师模型非常小的时候, 的值相对小一点效果更好。这样的结果直观的理解就是,如果增加 的值,软标签的分布蕴含的信息越多导致一个小的模型无法"捕捉"所有信息但是这也只是一种假设,还没有明确的方法来衡量一个网络“捕捉”信息的能力。关于 ,Hinton的论文中对两个loss用了加权平均: 。他们实验发现,在普通情况下 相对于 非常小的情况下能得到最好的效果。其他人也做了一些实验没用加权平均,将 设置为1,而对 进行调整。

Hinton的论文中做了三个实验,前两个是MNIST和语音识别,在这两个实验中通过知识蒸馏得到的学生模型都达到了与老师模型相近的效果,相对于直接在原始数据集上训练的相同的模型在准确率上都有很大的提高。下面主要讲述第三个比较创新的实验:将知识蒸馏应用在训练集成模型中。

训练集成模型(训练多个同样的模型然后集成得到更好的泛化效果)是利用并行计算的非常简单的方法,但是当数据集很大种类很多的时候就会产生巨大的计算量而且效果也不好。Hinton在论文中利用soft label的技巧设计了一种集成模型降低了计算量又取得了很好的效果。这个模型包含两种小模型:generalist model 和 specialist model(网络模型相同,分工不同)整个模型由很多个specialist model 和一个generalist model 集成。顾名思义generalist model 是负责将数据进行粗略的区分(将相似的图片归为一类),而specialist model(专家模型)则负责将相似的图片进行更细致的分类。这样的操作也非常符合人类的大脑的思维方式先进行大类的区分再进行具体分类,下面我们看这个实验的具体细节。 实验所用的数据集是谷歌内部的JFT数据集,JFT数据集非常大,有一亿张图片和15000个类别。实验中 generalist model 是用所有数据集进行训练的,有15000个输出,也就是每个类别都有一个输出概率。将数据集进行分类则是用Online k-means聚类的方法对每张图片输入generalist model后得到的软标签进行聚类,最终将3%的数据为一组分发给各个specialist,每个小数据集包含一些聚集的图片,也就是generalist认为相近的图片。 在specialist model的训练阶段,模型的参数在初始化的时候是完全复制的generalist中的数值(specialist和generalist的结构是一模一样的),这样可以保留generalist模型的所有知识,然后specialist对分配的数据集进行hard label训练。但是问题是,specialist如果只专注于分配的数据集(只对分配的数据集训练)整个网络很快就会过拟合于分配的数据集上,所以Hinton提出的方法是用一半的时间进行hard label训练,另一半的时间用知识蒸馏的方法学习generalist生成的soft label。这样specialist就是花一半的时间在进行小分类的学习,另一半的时间是在模仿generalist的行为。 整个模型的预测也与往常不同。在做top-1分类的时候分为以下两步: 第一步:将图片输入generalist model 得到输出的概率分布,取概率最大的类别k。 第二步:取出数据集包含类别k的所有specialists,为集合 (各个数据集之间是有类别重合的)。然后求解能使如下公式最小化的概率分布q作为预测分布。

这里的KL是指KL散度(用于刻画两个概率分布之间的差距) 和 分别是测试图片输入generalist 和specialists(m)之后输出的概率分布,累加就是考虑所有属于 集合的specialist的“意见”。

由于Specialist model的训练数据集很小,所以需要训练的时间很短,从传统方法需要的几周时间减少到几天。下图是在训练好generalist模型之后逐个增加specialist进行训练的测试结果:

从图中可以看出,specialist个数的增加使top1准确个数有明显的提高。

本文结合Hinton在2014年发表的论文对知识蒸馏和相关实验做了一个简单的介绍,如今很多模型都用到了知识蒸馏的方法,但知识蒸馏在深度学习中还是非常新的方向,还有非常多的应用场景等待研究。

项目地址:

[1]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015. [2] [3]

203 评论

美酱老师

谷歌的AlphaGo与柯杰的大战已经结束数日,而DeepMind承诺的50分棋谱也已经公布,而作为当前最先进的计算机“技术”,有限元方法有没有与机器学习(人工智能)进一步结合并碰发出绚丽的“火花”呢??答案是肯定的!!! 什么是人工智能 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。 机器学习是人工智能的一个分支,简单地说,就是通过算法,使机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来进行预测。 常见的机器学习算法如: ✔神经网络(Neural Network) ✔支持向量机(Support Vector Machines, SVM)Boosting ✔决策树(Decision Tree) ✔随机森林(Random Forest) ✔贝叶斯模型(Bayesian Model)等。 早期的机器学习算法由于受到理论模型和计算资源的限制,一般只能进行浅层学习,只在搜索排序系统、垃圾邮件过滤系统、内容推荐系统等地方有所应用。 而之后发生的几件事,掀起了深度学习的浪潮。一件是2006年,加拿大多伦多大学教授Hinton和他的学生Salakhutdinov在Science上发表了一篇文章,揭示了具有多个隐层的神经网络(即深度神经网络)优异的学习性能,并提出可以通过“逐层初始化”技术,来降低深度学习网络训练的难度; 第二件事是在2012年 底,Geoff Hinton 的博士生 Alex Krizhevsky、Ilya Sutskever利用卷积神经网络(Convolutional Neural Network, CNN)在图片分类的竞赛 ImageNet 上,击败了拥有众多人才资源和计算资源的Google,拿到了第一名。 如今机器学习已深入到包括语音识别,图像识别,数据挖掘等诸多领域并取得了瞩目的成绩。 有限元法的发展简史 有限元方法(FEA)即有限单元法,它是一种数值分析(计算数学)工具,但不是唯一的数值分析工具。在工程领域还有其它的数值方法,如:有限差分法、边界元方法、有限体积法。 有限单元法已成为一种强有力的数值解法来解决工程中遇到的大量问题,其应用范围从固体到流体,从静力到动力,从力学问题到非力学问题。事实上,有限单元法已经成为在已知边界条件和初始条件下求解偏微分方程组的一般数值方法。 有限单元法在工程上的应用属于计算力学的范畴,而计算力学是根据力学中的理论,利用现代电子计算机和各种数值方法,解决力学中的实际问题的一门新兴学科。它横贯力学的各个分支,不断扩大各个领域中力学的研究和应用范围,同时也在逐渐发展自己的理论和方法。 神经网络与力学 其实,在深度学习浪潮掀起之前,力学和工程领域早已开始在计算力学研究中结合神经网络模型,开发出更优的算法,一个典型的例子便是有限元神经网络模型。 由于在实际工程问题中存在大量的非线性力学现象,如在结构优化问题中,需要根据需求设计并优化构件结构,是一类反问题,这些非线性问题难以用常规的方法求解,而神经网络恰好具有良好的非线性映射能力, 因而可得到比一般方法更精确的解。 将有限元与神经网络结合的方法有很多,比如针对复杂非线性结构动力学系统建模问题,可以将线性部分用有限元进行建模,非线性构件用神经网络描述(如输入非线性部件状态变量,输出其恢复力),再通过边界条件和连接条件将有限元模型部分和神经网络部分结合,得到杂交模型。 另一种方法是首先通过有限元建立多种不同的模型,再将模态特性(即最终需要达到的设计要求)作为输入变量,将对应的模型结构参数作为输入变量,训练神经网络,利用神经网络的泛化特性,得到设计参数的修正值。 结合Monter Carlo方法,进行多组有限元分析,将数据输入神经网络中进行训练,可以用来分析结构的可靠度。 已有研究成果 [1]余凯,贾磊,陈雨强,徐伟. 深度学习的昨天、今天和明天[J]. 计算机研究与发展,2013,09:1799-1804. [2]周春桂,张希农,胡杰,谢石林. 基于有限元和神经网络的杂交建模[J]. 振动工程学报,2012,01:43-48. [3]费庆国,张令弥. 基于径向基神经网络的有限元模型修正研究[J]. 南京航空航天大学学报,2004,06:748-752. [4]许永江,邢兵,吴进良. 基于有限元-神经网络-Monte-Carlo的结构可靠度计算方法[J]. 重庆交通大学学报(自然科学版),2008,02:188-190+216. 未来的一些方向 1、图形显示方面(有限元与AR&VR) 随着有限元计算涉及的领域以及计算的规模不断增大,计算结果的高效、高质量的前后处理也随之成为了一个问题。 AR&VR在图形化数据展示方面,将我们从显示屏解放出来,可以以一种更加直观的方式查看计算分析数据,未来在分析结果VR展示方面,会有较大的突破。 国内也有学者已经展开了相关方面的研究,比如《虚拟现实环境中有限元前后处理功能实现》等论文,有限元虚拟处理技术(FEMVR)也开始逐步进入相关软件领域,例如:ANSYS COMSOL可以和MATLAB做交互,新版MATLAB内置了一些人工智能算法。 2、有限元与大数据、云计算 计算规模增大,伴随着计算机能力的提升,随之而来的云计算,解脱了对于计算机硬件的束缚,对于可以放开规模与数量的分析计算,有限元与大数据以及云计算的碰撞,对于未来问题的解决,将有一个质的飞跃,量变到质变的直观体现,在有限元与大数据中会有一个绚丽的展示。 3、有限元与人工智能 人工智能作为全球热的技术,与“古老”的有限元之间,相信可以在老树上发新芽,而我们可以欣喜的看到,相关的研究也已经开展,期待未来对于现实问题的解决,能有更好的更优的方案。 4、CAD数据与CAE数据的无缝对接 目前等几何分析(Isogeometric Analysis, IGA)的发展热度来看,将CAD中用于表达几何模型的NURBS基函数作为形函数,克服FEA中模型精度损失的问题,实现CAD和CAE的无缝结合,是一个很有前途和潜力的发展方向。 5、CAE与MBD的深度融合 未来CAEFEM可能会与多体动力学仿真(MBS)软件深度整合起来。实际系统中某些运动部件的弹性无法忽略,甚至是主要动力学行为的来源,所以就产生了柔性多体动力学仿真这个需求,这样只需要定义相关部件的受力和边界条件,其余的都是内部作用,仿真即节省工作量又较为真实可信。而且现在的确有很多MBS软件里面可以把部件建成弹性体,如LMS Virtual Lab,Simpack等等,但过程没有那么傻瓜;除了简单的梁、轴等零件,复杂形状的零件要依赖FEM软件事先生成的数据文件。 6、网格工作的智能化,傻瓜化 将来对弹性体建模可能更加傻瓜,先把刚性多体系统模型建起来,然后在建模环境(前处理)中直接make body flexible,系统可以根据这个部件的形状、材料、边界条件等选择合适的网格类型,并把运动和力的作用点couple到对应的节点(组)上。比如说汽车悬挂系统仿真,在一个工作环境下就能把某个部件的应力校核给做了,而不需要说搞多体建模的人要把边界力生成一个load case再发给专门的FEM工程师去做。 (部分来自知乎) 如何追上有限元的发展 任何技术的进步,都要在实践中展示技术的威力,有限元的发展,会随着技术的进步,特别是计算机技术的进步,在未来无论是应用软件的研究还是智能程序的开发,都将有无限的机会与可能。 积极学习新技术,新方法,在应用领域,关注有限元相关软件的新功能。 1、了解热点、跟踪前沿 2、结合实际拓展应用 3、掌握自动化相关技术 想要更多,点击此处

107 评论

相关问答

  • 教授发表论文在哪发

    在期刊上发表,需要根据你的专业和要求来选择期刊,比如建筑、经济、医学等等。对论文上网有没有要求,比如知网、万方、维普等。建议在参加评审前1-2年准备好论文。具体

    葉落罒無痕 6人参与回答 2023-12-09
  • hinton教授的论文发表在哪

    戴维.亨顿是20世纪第一位将中国古代最著名的四部哲学典籍《论语》《孟子》《道德经》和《庄子》独自全部译成英语的西方翻译家。亨顿用通俗、自然、清新、简朴的语言把孔

    无敌花花Nancy 3人参与回答 2023-12-09
  • 教授发表的论文在哪里

    没什么事是百度解决不了

    壹家生活 7人参与回答 2023-12-08
  • 教授发表的论文在哪看

    去论文数据库查询,通过高级检索,定位单位和姓名能找到。本学科学术造诣较深的教授或相当专业技术职务的教学,有培养本科生经验,至少培养过两届本科生。 能坚持正常工作

    Brita阿菜 7人参与回答 2023-12-11
  • hinton发表论文

    谷歌的AlphaGo与柯杰的大战已经结束数日,而DeepMind承诺的50分棋谱也已经公布,而作为当前最先进的计算机“技术”,有限元方法有没有与机器学习(人工智

    小小亦儿 2人参与回答 2023-12-12