hinton教授的论文发表在哪

发布时间：2023-12-08 12:05:14

hinton教授的论文发表在哪

戴维.亨顿是20世纪第一位将中国古代最著名的四部哲学典籍《论语》《孟子》《道德经》和《庄子》独自全部译成英语的西方翻译家。亨顿用通俗、自然、清新、简朴的语言把孔孟老庄博大玄妙的思想展现给西方普通读者,为当代西方英语读者了解中国传统文化打开了一扇窗口。

“很多昆虫在幼虫形态的时候是最擅长从环境中吸取能量和养分的，而当他们成长为成虫的时候则需要擅长完全不同能力比如迁移和繁殖。”在2014年Hinton发表的知识蒸馏的论文中用了这样一个很形象的比喻来说明知识蒸馏的目的。在大型的机器学习任务中，我们也用两个不同的阶段 training stage 和 deployment stage 来表达两种不同的需求。training stage（训练阶段）可以利用大量的计算资源不需要实时响应，利用大量的数据进行训练。但是在deployment stage （部署阶段）则会有很多限制，比如计算资源，计算速度要求等。知识蒸馏就是为了满足这种需求而设计的一种模型压缩的方法。

知识蒸馏的概念最早是在2006年由Bulica提出的，在2014年Hinton对知识蒸馏做了归纳和发展。知识蒸馏的主要思想是训练一个小的网络模型来模仿一个预先训练好的大型网络或者集成的网络。这种训练模式又被称为 "teacher-student"，大型的网络是“老师”，小型的网络是“学生”。

在知识蒸馏中，老师将知识传授给学生的方法是：在训练学生的过程中最小化一个以老师预测结果的概率分布为目标的损失函数。老师预测的概率分布就是老师模型的最后的softmax函数层的输出，然而，在很多情况下传统的softmax层的输出，正确的分类的概率值非常大，而其他分类的概率值几乎接近于0。因此，这样并不会比原始的数据集提供更多有用的信息，没有利用到老师强大的泛化性能，比如，训练MNIST任务中数字‘3’相对于数字‘5’与数字‘8’的关系更加紧密。为了解决这个问题，Hinton在2015年发表的论文中提出了‘softmax temperature’的概念，对softmax函数做了改进：这里的就是指 temperature 参数。当等于1 时就是标准的softmax函数。当增大时，softmax输出的概率分布就会变得更加 soft（平滑），这样就可以利用到老师模型的更多信息（老师觉得哪些类别更接近于要预测的类别）。Hinton将这样的蕴含在老师模型中的信息称之为 "dark knowledge"，蒸馏的方法就是要将这些 "dark knowledge" 传给学生模型。在训练学生的时候，学生的softmax函数使用与老师的相同的，损失函数以老师输出的软标签为目标。这样的损失函数我们称为"distillation loss"。

在Hinton的论文中，还发现了在训练过程加上正确的数据标签（hard label）会使效果更好。具体方法是，在计算distillation loss的同时，我利用hard label 把标准的损失（）也计算出来，这个损失我们称之为 "student loss"。将两种 loss 整合的公式如下：

这里的是输入，是学生模型的参数，是交叉熵损失函数，是 hard label ，是参数有的函数，是系数，分别是学生和老师的logits输出。模型的具体结构如下图所示：

在上述公式中，是作为超参数人为设置的，Hinton的论文中使用的的范围为1到20，他们通过实验发现，当学生模型相对于老师模型非常小的时候，的值相对小一点效果更好。这样的结果直观的理解就是，如果增加的值，软标签的分布蕴含的信息越多导致一个小的模型无法"捕捉"所有信息但是这也只是一种假设，还没有明确的方法来衡量一个网络“捕捉”信息的能力。关于，Hinton的论文中对两个loss用了加权平均：。他们实验发现，在普通情况下相对于非常小的情况下能得到最好的效果。其他人也做了一些实验没用加权平均，将设置为1，而对进行调整。

Hinton的论文中做了三个实验，前两个是MNIST和语音识别，在这两个实验中通过知识蒸馏得到的学生模型都达到了与老师模型相近的效果，相对于直接在原始数据集上训练的相同的模型在准确率上都有很大的提高。下面主要讲述第三个比较创新的实验：将知识蒸馏应用在训练集成模型中。

训练集成模型（训练多个同样的模型然后集成得到更好的泛化效果）是利用并行计算的非常简单的方法，但是当数据集很大种类很多的时候就会产生巨大的计算量而且效果也不好。Hinton在论文中利用soft label的技巧设计了一种集成模型降低了计算量又取得了很好的效果。这个模型包含两种小模型：generalist model 和 specialist model（网络模型相同，分工不同）整个模型由很多个specialist model 和一个generalist model 集成。顾名思义generalist model 是负责将数据进行粗略的区分（将相似的图片归为一类），而specialist model（专家模型）则负责将相似的图片进行更细致的分类。这样的操作也非常符合人类的大脑的思维方式先进行大类的区分再进行具体分类，下面我们看这个实验的具体细节。实验所用的数据集是谷歌内部的JFT数据集，JFT数据集非常大，有一亿张图片和15000个类别。实验中 generalist model 是用所有数据集进行训练的，有15000个输出，也就是每个类别都有一个输出概率。将数据集进行分类则是用Online k-means聚类的方法对每张图片输入generalist model后得到的软标签进行聚类，最终将3%的数据为一组分发给各个specialist，每个小数据集包含一些聚集的图片，也就是generalist认为相近的图片。在specialist model的训练阶段，模型的参数在初始化的时候是完全复制的generalist中的数值（specialist和generalist的结构是一模一样的），这样可以保留generalist模型的所有知识，然后specialist对分配的数据集进行hard label训练。但是问题是，specialist如果只专注于分配的数据集（只对分配的数据集训练）整个网络很快就会过拟合于分配的数据集上，所以Hinton提出的方法是用一半的时间进行hard label训练，另一半的时间用知识蒸馏的方法学习generalist生成的soft label。这样specialist就是花一半的时间在进行小分类的学习，另一半的时间是在模仿generalist的行为。整个模型的预测也与往常不同。在做top-1分类的时候分为以下两步：第一步：将图片输入generalist model 得到输出的概率分布，取概率最大的类别k。第二步：取出数据集包含类别k的所有specialists，为集合（各个数据集之间是有类别重合的）。然后求解能使如下公式最小化的概率分布q作为预测分布。

这里的KL是指KL散度（用于刻画两个概率分布之间的差距）和分别是测试图片输入generalist 和specialists(m)之后输出的概率分布，累加就是考虑所有属于集合的specialist的“意见”。

由于Specialist model的训练数据集很小，所以需要训练的时间很短，从传统方法需要的几周时间减少到几天。下图是在训练好generalist模型之后逐个增加specialist进行训练的测试结果：

从图中可以看出，specialist个数的增加使top1准确个数有明显的提高。

本文结合Hinton在2014年发表的论文对知识蒸馏和相关实验做了一个简单的介绍，如今很多模型都用到了知识蒸馏的方法，但知识蒸馏在深度学习中还是非常新的方向，还有非常多的应用场景等待研究。

项目地址：

[1]Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531, 2015. [2] [3]

谷歌的AlphaGo与柯杰的大战已经结束数日，而DeepMind承诺的50分棋谱也已经公布，而作为当前最先进的计算机“技术”，有限元方法有没有与机器学习（人工智能）进一步结合并碰发出绚丽的“火花”呢？？答案是肯定的！！！什么是人工智能人工智能（Artificial Intelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。机器学习是人工智能的一个分支，简单地说，就是通过算法，使机器能从大量历史数据中学习规律，从而对新的样本做智能识别或对未来进行预测。常见的机器学习算法如： ✔神经网络（Neural Network） ✔支持向量机(Support Vector Machines, SVM)Boosting ✔决策树（Decision Tree） ✔随机森林（Random Forest） ✔贝叶斯模型（Bayesian Model）等。早期的机器学习算法由于受到理论模型和计算资源的限制，一般只能进行浅层学习，只在搜索排序系统、垃圾邮件过滤系统、内容推荐系统等地方有所应用。而之后发生的几件事，掀起了深度学习的浪潮。一件是2006年，加拿大多伦多大学教授Hinton和他的学生Salakhutdinov在Science上发表了一篇文章，揭示了具有多个隐层的神经网络（即深度神经网络）优异的学习性能，并提出可以通过“逐层初始化”技术，来降低深度学习网络训练的难度；第二件事是在2012年底，Geoff Hinton 的博士生 Alex Krizhevsky、Ilya Sutskever利用卷积神经网络（Convolutional Neural Network, CNN）在图片分类的竞赛 ImageNet 上，击败了拥有众多人才资源和计算资源的Google，拿到了第一名。如今机器学习已深入到包括语音识别，图像识别，数据挖掘等诸多领域并取得了瞩目的成绩。有限元法的发展简史有限元方法（FEA）即有限单元法，它是一种数值分析(计算数学)工具，但不是唯一的数值分析工具。在工程领域还有其它的数值方法，如：有限差分法、边界元方法、有限体积法。有限单元法已成为一种强有力的数值解法来解决工程中遇到的大量问题，其应用范围从固体到流体，从静力到动力，从力学问题到非力学问题。事实上，有限单元法已经成为在已知边界条件和初始条件下求解偏微分方程组的一般数值方法。有限单元法在工程上的应用属于计算力学的范畴，而计算力学是根据力学中的理论，利用现代电子计算机和各种数值方法，解决力学中的实际问题的一门新兴学科。它横贯力学的各个分支，不断扩大各个领域中力学的研究和应用范围，同时也在逐渐发展自己的理论和方法。神经网络与力学其实，在深度学习浪潮掀起之前，力学和工程领域早已开始在计算力学研究中结合神经网络模型，开发出更优的算法，一个典型的例子便是有限元神经网络模型。由于在实际工程问题中存在大量的非线性力学现象，如在结构优化问题中，需要根据需求设计并优化构件结构，是一类反问题，这些非线性问题难以用常规的方法求解，而神经网络恰好具有良好的非线性映射能力，因而可得到比一般方法更精确的解。将有限元与神经网络结合的方法有很多，比如针对复杂非线性结构动力学系统建模问题，可以将线性部分用有限元进行建模，非线性构件用神经网络描述（如输入非线性部件状态变量，输出其恢复力），再通过边界条件和连接条件将有限元模型部分和神经网络部分结合，得到杂交模型。另一种方法是首先通过有限元建立多种不同的模型，再将模态特性（即最终需要达到的设计要求）作为输入变量，将对应的模型结构参数作为输入变量，训练神经网络，利用神经网络的泛化特性，得到设计参数的修正值。结合Monter Carlo方法，进行多组有限元分析，将数据输入神经网络中进行训练，可以用来分析结构的可靠度。已有研究成果 [1]余凯,贾磊,陈雨强,徐伟. 深度学习的昨天、今天和明天[J]. 计算机研究与发展,2013,09:1799-1804. [2]周春桂,张希农,胡杰,谢石林. 基于有限元和神经网络的杂交建模[J]. 振动工程学报,2012,01:43-48. [3]费庆国,张令弥. 基于径向基神经网络的有限元模型修正研究[J]. 南京航空航天大学学报,2004,06:748-752. [4]许永江,邢兵,吴进良. 基于有限元-神经网络-Monte-Carlo的结构可靠度计算方法[J]. 重庆交通大学学报(自然科学版),2008,02:188-190+216. 未来的一些方向 1、图形显示方面（有限元与AR&VR）随着有限元计算涉及的领域以及计算的规模不断增大，计算结果的高效、高质量的前后处理也随之成为了一个问题。 AR&VR在图形化数据展示方面，将我们从显示屏解放出来，可以以一种更加直观的方式查看计算分析数据，未来在分析结果VR展示方面，会有较大的突破。国内也有学者已经展开了相关方面的研究，比如《虚拟现实环境中有限元前后处理功能实现》等论文，有限元虚拟处理技术(FEMVR)也开始逐步进入相关软件领域，例如：ANSYS COMSOL可以和MATLAB做交互，新版MATLAB内置了一些人工智能算法。 2、有限元与大数据、云计算计算规模增大，伴随着计算机能力的提升，随之而来的云计算，解脱了对于计算机硬件的束缚，对于可以放开规模与数量的分析计算，有限元与大数据以及云计算的碰撞，对于未来问题的解决，将有一个质的飞跃，量变到质变的直观体现，在有限元与大数据中会有一个绚丽的展示。 3、有限元与人工智能人工智能作为全球热的技术，与“古老”的有限元之间，相信可以在老树上发新芽，而我们可以欣喜的看到，相关的研究也已经开展，期待未来对于现实问题的解决，能有更好的更优的方案。 4、CAD数据与CAE数据的无缝对接目前等几何分析（Isogeometric Analysis, IGA）的发展热度来看，将CAD中用于表达几何模型的NURBS基函数作为形函数，克服FEA中模型精度损失的问题，实现CAD和CAE的无缝结合，是一个很有前途和潜力的发展方向。 5、CAE与MBD的深度融合未来CAEFEM可能会与多体动力学仿真（MBS）软件深度整合起来。实际系统中某些运动部件的弹性无法忽略，甚至是主要动力学行为的来源，所以就产生了柔性多体动力学仿真这个需求，这样只需要定义相关部件的受力和边界条件，其余的都是内部作用，仿真即节省工作量又较为真实可信。而且现在的确有很多MBS软件里面可以把部件建成弹性体，如LMS Virtual Lab，Simpack等等，但过程没有那么傻瓜；除了简单的梁、轴等零件，复杂形状的零件要依赖FEM软件事先生成的数据文件。 6、网格工作的智能化，傻瓜化将来对弹性体建模可能更加傻瓜，先把刚性多体系统模型建起来，然后在建模环境（前处理）中直接make body flexible，系统可以根据这个部件的形状、材料、边界条件等选择合适的网格类型，并把运动和力的作用点couple到对应的节点（组）上。比如说汽车悬挂系统仿真，在一个工作环境下就能把某个部件的应力校核给做了，而不需要说搞多体建模的人要把边界力生成一个load case再发给专门的FEM工程师去做。（部分来自知乎）如何追上有限元的发展任何技术的进步，都要在实践中展示技术的威力，有限元的发展，会随着技术的进步，特别是计算机技术的进步，在未来无论是应用软件的研究还是智能程序的开发，都将有无限的机会与可能。积极学习新技术，新方法，在应用领域，关注有限元相关软件的新功能。 1、了解热点、跟踪前沿 2、结合实际拓展应用 3、掌握自动化相关技术想要更多，点击此处

教授发表的论文在哪

如果你知道他(她)的名字,在CNKI里应该查得到哦!

以下是网友分享的留学美国研究生套磁的心得体会，教大家如何有效地查找教授的论文，希望帮助大家的美国留学申请。套磁目的，就是要说服教授：我的研究背景和你很相关，我对你的项目有一些见解，我的成绩、英语什么的也都不错，如果你明年招人，我是你很合适的人选。那么怎么说服教授呢?“我对……很感兴趣”“我GT、GPA……”云云教授们早就看恶心了。很多人都在说，要套“match”的教授。这话很有道理。就像打仗，知己知彼百战不殆;又像找老婆，脾气合不来的以后可怎么过日子? 由此看来，看教授的论文也许能算得上是套磁的必要条件。有人会说，每个教授在系主页的faculty里都有自己的profile，里面research interests/area/focus之类的都讲得挺清楚，还有必要看论文吗，况且我又看不懂?要我说，90%的人是看不懂的，但我们还是要看。论文是最能反映一个教授研究动态的东西之一。诚然教授的主页上会列出自己的recent publication、research projects，好一些的会更新至08年，甚至直接写明什么项目有opening。但这样的毕竟是少数。很多教授的主页看起来都n年没更新了，组员照片还是05年的，最新的论文还是06年的。但这是不是就说明此人已经封刀挂帅退隐江湖了呢?未必。数据库里一查才发现，2个月前还刚有一篇paper available online呢，还很符合自己的口味。于是感叹一声：多好的教授，差点溜了。还要说明一点的是教授主页上的方向可能会和论文有偏差，这大概也是实效性的问题。Things change, people change，没准哪天教授对某个方向失去了兴趣和耐心，就转而研究其它的方向，这时候就不要傻傻的对教授已经扔下三四年的东西“感兴趣”了。当然前后的变化一般也不会是180度大转弯，总会有些相关性的。论文的key words, abstract, introduction和conclusion是需要重点关注的。key words和abstract让我们迅速识别此文研究方向与自己研究背景的相关度。一篇文章不可能只有一个关键词，我们的研究背景也都会多多少少的涉及多个领域的知识，两者比较，match的地方越多，套磁就越可能成功。相似点不多的也不妨尝试。如果只是做了一些皮毛上的研究工作，对于这个领域还没有深刻的认识(像我们这样的小本尤其如此)，那么就先努力看懂introduction和conclusion (summary)，起码了解一下这个领域发展到了什么程度，存在什么样的问题，教授的论文解决了什么问题，今后的展望如何……这样万一教授一个电面过来总不至于没话说。至于正文里的Experimental, results之类，如果非牛，就可以先省省了，毕竟这是既费时又耗力的活。论文标题下面的作者信息告诉你都有谁在教授手下干活，经常的情况是一个醒目的Chinese name排在第一作者，于是你可以在正式套教授之前先email我们的同胞打探一下消息，有时候会收获颇丰。多单位作者的情况(一般以a,b,c……区分)说明这个项目是多所大学或者研究所合作完成的，这就等于又多了一个/几个资源，这时候你又可以窃笑：小样，被我逮到了吧～正文结尾一般会有一个Acknowledgment，就是致谢，一般会列出科研经费的来源还有一些没有被列入author的合作者。从这里也许能对教授的funding情况略见一斑。一般情况下校内的research program或者州内补助都是些小钱，NSF的钱应该会多些，大公司还有军工项目一般给钱比较多。我在这方面没有做仔细研究，而且这需要对美国学术界的经费来源、分布和具体学科的情况有全面和深入的了解。但我们对其略知一二肯定有用，因为老板的钱途就是我们的前途啊～论文最后是References，就是参考文献。这也能帮助我们的触角伸向其他教授，如果想对该领域有更深入的了解，也是很好的资源。一个有意思的现象是有一近一半的文献里面都有中国人的身影(至少在材料学科是这样的)，所以有时候就yy将来自己的大名会赫然的躺在什么地方呢?

国内的是万方或者维普，国外的你上SCI的论文库查找就可以。这些都是可以根据作者或题目查询的

同学找到了吗，这个我会写的有资料的

hinton发表的论文

小西：小迪小迪，我发现人工智能发展史上很多事情都跟下棋有关呐。小迪：是啊，人工智能发展史还是要从下棋说起，棋类游戏很多时候都被人类看做高智商游戏，在棋类游戏中让机器与人类博弈自然再好不过了。早在1769年，匈牙利作家兼发明家Wolfgang von Kempelen就建造了机器人TheTurk，用于与国际象棋高手博弈，但是最终被揭穿，原来是机器人的箱子里藏着一个人。虽然这是个，但是也体现了棋类游戏是人机博弈中的焦点。小西：哇，这么早啊！小迪：是啊，在1968年上映的电影《2001太空漫游》里，有个情节是机器人HAL与人类Frank下国际象棋，最终人类在机器人面前甘拜下风。小西：哈哈，看来很早人们就觉得有一天，机器人会在下棋方面超过人类哦。小迪：是啊，直到1997年，IBM的深蓝智能系统战胜了国际象棋世界冠军Kasparov，这是一次正式意义上的机器在国际象棋领域战胜了人类。不过，当时时代杂志发表的文章还认为，计算机想要在围棋上战胜人类，需要再过上一百年甚至更长的时间。因为围棋相比于国际象棋复杂很多，而IBM的深蓝也只是一个暴力求解的系统，当时的计算机能力在围棋千千万万种变化情况下取胜是不可能的。小西：后来我知道。没有过100年，20年后AlphaGo在20年后的2016年打败了围棋高手李世石，这下人工智能引起了全世界的关注。小迪：恭喜你，学会抢答了！小西：哈哈，过奖过奖。除了下棋，人工智能发展史上有没有什么特别著名的事件或者有名的大师呢，快给我科普科普呀！小迪：那可就太多了啊，无数科学家默默地耕耘才有了今天智能化的社会，三天三夜都说不完。我就说说近些年火爆的深度学习的发展史吧。小西：好，洗耳恭听呢！感知器的发明 1943年Warren McCulloch和Walter Pitts一起提出计算模型，在1957年康奈尔大学的Frank Rosenblatt提出了感知器的概念，这是整个深度学习的开端，感知器是第一个具有自组织自学习能力的数学模型。Rosenblatt乐观地预测感知器最终可以学习，做决定和翻译语言。感知器技术在六十年代非常火热，受到了美国海军的资金支持，希望它以后能够像人一样活动，并且有自我意识。第一次低潮 Rosenblatt有一个高中校友叫做Minsky，在60年代，两人在感知器的问题上吵得不可开交。R认为感知器将无所不能，M觉得感知器存在很大的缺陷，应用有限。1969年，Minsky出版了新书《感知器：计算几何简介》，这本书中描述了感知器的两个重要问题：单层神经网络不能解决不可线性分割的问题，典型例子：异或门；当时的电脑完全没有能力承受神经网络的超大规模计算。随后的十多年，人工智能转入第一次低潮，而Rosenblatt也在他43生日时，因海事丧生，遗憾未能见到神经网络后期的复兴。 Geoffrey Hinton与神经网络 1970年，此时的神经网络正处于第一次低潮期，爱丁堡大学的心理学学士Geoffrey Hinton刚刚毕业。他一直对脑科学非常着迷，同学告诉他，大脑对事物和概念的记忆，不是存储在某个单一的地方，而是分布式的存在一个巨大的神经网络中。分布式表征让Hinton感悟很多，随后的多年里他一直从事神经网络方面的研究，在爱丁堡继续攻读博士学位的他把人工智能作为自己的研究领域。 Rumelhart与BP算法传统的神经网络拥有巨大的计算量，上世纪的计算机计算能力尚未能满足神经网络的训练。1986年7月，Hinton和David Rumelhart合作在Nature杂志上发表论文系统地阐述了BP算法：反向传播算法（BP）把纠错运算量下降到只和神经元数目有关；BP算法在神经网络中加入隐层，能够解决非线性问题。 BP算法的效率相比传统神经网络大大提高，计算机的算力在上世纪后期也大幅提高，神经网络开始复苏，引领人工智能走向第二次辉煌。 Yann Lecun与卷积神经网络 1960年Yann Lecun在巴黎出身，在法国获得博士学位后，追随Hinton做了一年博士后，随后加入贝尔实验室。在1989年，Lecun发表论文提出卷积神经网络，并且结合反向传播算法应用在手写邮政编码上，取得了非常好的效果，识别率高达95%。基于这项技术的支票识别系统在90年代占据了美国接近20%的市场。但也是在贝尔实验室，Yann Lecun的同事Vladmir Vapnik的研究又把神经网络的研究带入了第二个寒冬。 Hinton与深度学习 2003年，Geoffrey Hinton在多伦多大学苦苦钻研着神经网络。在与加拿大先进研究院（CIFAR）的负责人Melvin Silverman交谈后，负责人决定支持Hinton团队十年来进行神经网络的研究。在拿到资助后，Hinton做的第一件事就是把神经网络改名为深度学习。此后的一段时间里，同事经常会听到Hinton在办公室大叫：“我知道神经网络是如何工作的了！” DBN与RBN 2006年Hinton与合作者发表论文——《A Fast Algorithm for Deep BeliefNet》（DBN）。这篇文章中的算法借用了统计力学中“波尔兹曼分布”的概念，使用了所谓的“受限玻尔兹曼机”，也就是RBN来学习。而DBN也就是几层RBN叠加在一起。RBN可以从输入数据进行预训练，自己发现重要的特征，对神经网络的权重进行有效的初始化。这里就出现了另外两个技术——特征提取器与自动编码器。经过MNIST数据集的训练后，识别错误率最低降到了只有1.25%。吴恩达与GPU 2007年，英伟达推出cuda的GPU软件接口，GPU编程得以极大发展。2009年6月，斯坦福大学的Rajat Raina和吴恩达合作发表文章，论文采用DBNs模型和稀疏编码，模型参数高达一亿，使用GPU运行速度训练模型，相比传统双核CPU最快时相差70倍，把本来需要几周训练的时间降到了一天。算力的进步再次加速了人工智能的快速发展。黄仁勋与GPU 黄仁勋也是一名华人，1963年出生于台湾，在1993年于斯坦福毕业后创立了英伟达公司，英伟达起家时主要做图像处理芯片，后来黄仁勋发明GPU这个词。相比于CPU架构，GPU善于大批量数据并行处理。而神经网络的计算工作，本质上就是大量的矩阵计算的操作，GPU的发展为深度学习奠定了算力的基础。李飞飞与ImageNet 深度学习的三大基础——算法，算力和数据。上面提到的主要是算法与算力的发展，而数据集在深度学习发展也起到了至关重要的作用。又是一位华人学者——李飞飞，于2009年建立ImageNet数据集，以供计算机视觉工作者使用，数据集建立的时候，包含320个图像。2010年，ILSVRC2010第一次举办，这是以ImageNet为基础的大型图像识别大赛，比赛也推动了图像识别技术的飞速发展。2012年的比赛，神经网络第一次在图像识别领域击败其他技术，人工智能步入深度学习时代，这也是一个历史性的转折点。 Yoshua Bengio与RELU 2011年，加拿大学者Xavier Glorot与Yoshua Bengio联合发表文章，在算法中提出一种激活函数——RELU，也被称为修正线性单元，不仅识别错误率普遍降低，而且其有效性对于神经网络是否预训练过并不敏感。而且在计算力方面得到提升，也不存在传统激活函数的梯度消失问题。 Schmidhuber与LSTM 其实早在1997年，瑞士Lugano大学的Suhmidhuber和他的学生合作，提出了长短期记忆模型（LSTM）。LSTM背后要解决的问题就是如何将有效的信息，在多层循环神经网络传递之后，仍能传送到需要的地方去。LSTM模块，是通过内在参数的设定，决定某个输入参数在很久之后是否还值得记住，何时取出使用，何时废弃不用。后记小迪：其实还有好多有突出贡献的的大师，要是都列出来可以出一本很厚很厚的书啦！小西：这些大师都好厉害呀，为了我们的智能化生活体验，辛勤付出了一辈子。小迪：是啊，还有很多学者默默无闻地工作，一生清苦。小西：他们都好伟大，有突出贡献的都应该发奖发奖金，对对对，诺贝尔奖！小迪：哈哈。诺贝尔奖多数是为基础学科设立的。不过计算机界也有“诺贝尔奖”——图灵奖，这可是计算机界最高奖项哦！2019年3月27日，ACM宣布，Geoffrey Hinton，Yann LeCun ，和Yoshua Bengio共同获得了2018年的图灵奖。小西：太棒了，实至名归！小迪：当然，图灵奖在此之前也授予了很多在人工智能领域的大牛，像Minsky，John McCarthy这些，还有华人科学家，现在在清华大学任职从事人工智能教育的姚期智先生在2000也获得过图灵奖呢！小西：大师们太不容易了，我们也要好好学习呀！小迪：是呀！如今我们站在巨人的肩膀上，许多人都可以接触到深度学习，机器学习的内容，不管是工业界还是学术界，人工智能都是一片火热！小西：希望这一轮人工智能的兴起不会有低潮，一直蓬勃发展下去，更好地造福人类。小迪：嗯！

1. 1943年神经科学家warren McCulloch和数学逻辑家Walter Pitts提出MP神经元模型。 2. 1957年美国康奈尔航空实验室的Frank Rosenblatt在MP模型的基础上发明了一种叫做“感知器”的神经网络算法，并在一台IBM-704上成功实现。 3. 1969年人工智能先驱Marvin Minsky和Seymour Papert出版了《感知器》一书，提出并证明了单层的感知器无法处理不可线性分割的问题。如异或逻辑。 4. 1974年哈弗大学的Paul Webbos提出将反向传播算法（BP算法）的思想应用于神经网络。 5. 1986年Rumelhart、Hinton、Williams在《自然》杂志上发表了Learning Internal Repressentation by Backpropagation of Errors.指出在神经网络中增加一个隐藏层，并用反向传播算法可以解决Minsky等人提出的多层神经网络不能解决异或逻辑的问题。阻碍神经网络发展的魔咒被打破 6. 1989年,Yann LeCun运用卷积神经网络对美国手写邮政编码进行训练和识别，在独立样本测试中达到了5%的错误率。 7. 1991年，德国的SeppHochreiter指出，当BP算法中成本函数反向传播时，每经过一层，梯度以相乘的方式叠加到前层，梯度在经过若干层反向传播后会变得极小趋于0，存在梯度消失的问题。 8.2006年Hitton等人发表了一篇名为A Fast Learning Algorithm for Deep Belief Nets的论文，提出使用玻尔兹曼分布构造了两层玻尔兹曼机进行无监督的预训练以此来对权值进行初始化，然后使用反向传播算法对权值进行微调，这一策略在一定程度上克服了梯度消失的问题。 9.2011年加拿大蒙特利尔大学的Xavier Glorot 和Yoshua Bengio在Deep sparse Rectangle Neural Networks的论文中提出一种被称为“修正线性单元”RELU的激活函数，该激活函数的导数为常数，在误差反向传播计算中不存在sigmoid的传统激活函数所固有的梯度消失问题。从根本上解决了阻碍神经网络发展的梯度消失难题。 10. 2012年Hinton在论文Improving neural networks by preventing co-adaptation of feature detectors中提出使用“丢弃Dropout”算法来解决神经网络中存在过度拟合的问题。

1、the outsiders 中文名称：小教父别名：局外人/被摒弃的人2、电影——剧情简介：《局外人》是弗朗西斯·福特·科波拉执导的剧情犯罪类美国电影。由Matt Dillon，Ralph Macchio主。影片讲述了60年代的塔尔萨城，城里的学生分属于南北两个帮派（Socs and Greasers)。南帮(Socs)的成员主要是住在城南的中产阶级学生，而住在贫民区的出身贫寒的学生则属于北帮(Greasers)。南北两帮的人都瞧对方不顺眼，双方积怨颇深，打架斗殴是家常便饭。波尼博伊(Ponyboy Curtis)是个孤儿，14岁，他和16岁的约翰尼(Johnnycade)，还有比他们年龄稍大的达拉斯(Dallas,简称Dally)属于北帮Greasers。文学——《局外人》是加缪的成名作，也是存在主义文学的代表作品。它形象地体现了存在主义哲学关于“荒谬”的观念；《局外人》以“今天，妈妈死了，也许是昨天，我不知道”开始，以“我还希望处决我的那一天有很多人来看，对我发出仇恨的喊叫声”结束。小说以这种不动声色而又蕴含内在力量的平静语调为我们塑造了一个惊世骇俗的“荒谬的人”：对一切都漠然置之的莫尔索。由于人和世界的分离，世界对于人来说是荒诞的、毫无意义的，而人对荒诞的世界无能为力，因此不抱任何希望，对一切事物都无动于衷。整本书的结尾也是书的开头，"When I stepped out into the bright sunlight from the darkness of the movie house, I had only two things on my mind: Paul Newman and a ride home..." （翻译：”当我从电影院的黑暗走到明亮的阳光下，我的脑里只有两件事：保罗·纽曼和回家。。。“）3、作者介绍：阿尔贝·加缪(Albert Camus，1913～1960)，法国作家、哲学家。1957年获得诺贝尔文学奖。1960年在一次车祸中不幸身亡。加缪是荒诞哲学及其文学的代表人物，他的代表作《局外人》与同年发表的哲学论文集《西西弗的神话》，曾在欧美产生巨大影响。加缪的文笔简洁、明快、朴实，他的文学作品总是同时蕴含着哲学家对人生的严肃思考和艺术家的强烈激情。其哲学和文学作品对后期的荒诞派戏剧和新小说影响很大。评论家认为加缪的作品体现了适应工业时代要求的新人道主义精神。萨特说他在一个把现实主义当作金牛膜拜的时代里，肯定了精神世界的存在。

60代的塔尔萨城，城里的学生分属于南北两个帮派。南帮的成员主要是住在城南的中产阶级学生，而住在贫民区的出身贫寒的学生则属于北帮。南北两帮的人都瞧对方不顺眼，双方积怨颇深，打架斗殴是家常便饭。波尼博伊是个孤儿，14岁，他和16岁的约翰尼，还有比他们年龄稍大的达拉斯斗属于北帮。一天晚上，南北两帮的人又大打出手，波尼博伊差点在水池中丢了命，而约翰尼则在自卫时将鲍勃杀死。两人请求达拉斯帮忙，达拉斯遂将他们藏在郊区的一座久已废弃的教堂中。在废弃的教堂中，波尼博伊和约翰尼背诵诗歌，读小说《飘》，在谈论中向往着一个理想世界：那里既没有城南帮也没有城北帮。这时，城里的教堂失火了，三个人冲进了雄雄大火，将困在火中的孩子们救了出来，而约翰尼和达拉斯却在火中受了伤。第二天晚上大雨瓢泼，新一轮的械斗再次展开，城北帮最终取得了胜利。但在斗殴中达拉斯被警察打死，约翰尼也因伤势过重死在了医院。幸存者波尼博伊打开了《飘》，在书里，他发现了约翰尼留给他的诀别书。若满意请采纳!

教授发表的论文在哪里

没什么事是百度解决不了

研究生，博士论文发表要求每个学校是不一样的：有的学校要求必须在正规期刊上发表的；有的则不作要求，这个就得看你们学校的要求了：正规期刊的话，是有自己的CN的。所谓CN 类刊物是指在我国境内注册、国内公开发行的刊物。该类刊物的刊号均标注有CN字母，人们习惯称之为CN类刊物。CN刊号标准格式是：CNXX-XXXX，其中前两位是各省（区、市）区号。而印有“CN（HK）”或“CNXXX（HK）/R”的不是合法的国内统一刊号。这是我在杂志社发表论文的时候，负责的老师告诉我的，有需要的话你可以去问问。

发表过的论文，就去数据库找。常见的论文数据库有中国知网、万方数据、维普数据等。数据库里的论文，可以根据作者姓名，作者单位，标题关键词等进行筛选查找。如果找某个教授带的研究生的论文。可以直接按单位搜索该高校。查看该高校发表的论文，或者知道作者姓名的，更容易查找了。---------------------------------------发表论文，出版专著，就找刊易。刊易专业代理刊发。

有专门的论文数据库

教授发表的论文在哪看

去论文数据库查询，通过高级检索，定位单位和姓名能找到。本学科学术造诣较深的教授或相当专业技术职务的教学，有培养本科生经验，至少培养过两届本科生。

能坚持正常工作，担负实际指导硕士生的责任。有协助本人指导硕士生的学术队伍。有课程教学经历，承担过或正在承担一定工作量的本科生课程。

1、热爱研究生教育事业，熟悉国家和学校有关学位与研究生教育的政策法规和规章制度，能教书育人，为人师表，团结协作，具有高尚的科学道德、严谨的治学态度。

2、能认真履行导师职责，身体健康，心态积极向上，每年保证能有半年以上的时间在基地指导硕士生。

3、具有高级专业技术职务，原则上具备本学科或相近学科硕士学位。具有博士学位的讲师，近三年在高水平学术期刊上发表过论文，亦可申请硕士生导师资格。

4、具备本门学科系统深入的基础知识和专业知识，能够创造性地进行研究工作，具备解决复杂理论问题、技术问题和应用问题的能力。

参考资料来源：百度百科-硕士生导师

推荐一个网站：中国知网这个网站上面有很多关于期刊、论文、学术报告之类的文章发表，你可以上去看看有没有你类似的论题，不过知网似乎是要收费的。

国内外的学术期刊网

中国知网，就能查的到

索引序列
hinton教授的论文发表在哪
教授发表的论文在哪
hinton发表的论文
教授发表的论文在哪里
教授发表的论文在哪看
返回顶部

hinton教授的论文发表在哪