• 回答数

    4

  • 浏览数

    326

yissluckyg
首页 > 期刊论文 > 强化学习相关研究论文

4个回答 默认排序
  • 默认排序
  • 按时间排序

woshiyujiaolong

已采纳

多谢邀请。关于gym可参考我的知乎专栏帖子:强化学习实战 第一讲 gym学习及二次开发 - 知乎专栏。关注该专栏,可以学到很多强化学习的知识(理论知识和实践知识)。下面正式回答你的问题:搞深度强化学习,训练环境的搭建是必须的,因为训练环境是测试算法,训练参数的基本平台(当然,也可以用实际的样机进行训练,但时间和代价是相当大的)。现在大家用的最多的是openai的gym( ),或者universe(),。这两个平台非常好,是通用的平台,而且与tensorflow和Theano无缝连接,虽然目前只支持python语言,但相信在不久的将来也会支持其他语言。下面我根据自己的理解,讲下关于gym的一些事情。Gym的原理是什么?它是新东西吗?在我看来,gym并不是完全的新东西,它不过是用python语言写的仿真器。对于仿真器大家肯定并不陌生。学控制的人都用过或听过matlab的simulink,学机械的人应该用过动力学仿真软件adams,gym在本质上和simulink,adams没什么区别。如果把Gym,simulink,adams等等这些仿真器去掉界面显示(如动画显示),剩下的本质不过是一组微分方程。所以Gym,simulink,adams等等一切仿真器的本质是微分方程。比如,运动学微分方程,动力学微分方程,控制方程等。Gym在构造环境时,主要的任务就是构建描述你模型的微分方程。我们举例说明:Gym中的CartPole环境是如何构建的:下面的链接是gym中CartPole环境模型:在该环境模型中,最核心的函数是def _step(self, action)函数,该函数定义了CartPole的环境模型,而在该函数中最核心的代码如下:图中方框中又是这段代码中最核心的地方,这两行代码便决定了CartPole的模型。简单的模型,通过手工推导便可完成。那么对于复杂的模型,比如战斗机器人,各种大型游戏怎么办呢?这就需要专门的多刚体仿真软件了,这些软件背后的核心技术都是物理引擎。大家可以搜下物理引擎这个词,游戏以及各种仿真软件都要用到物理引擎,用的多的而且开源的物理引擎有:ODE, Bullet, Havok, Physx等。原则上来说利用这些物理引擎都可以搭建训练环境。Gym在搭建机器人仿真环境用的是mujoco,ros里面的物理引擎是gazebo。下面针对你的问题,逐条回答:1. gym中CartPole, MountainCar这种环境的构建原理是怎样的?答:这种简单的环境只需要手动推导便可写出动力学方程,然后可以人为编写环境模型。只是,gym中除了给出了动力学方程,还加入了界面程序,将结果更直观地显示出来。2. gym中的环境源代码能不能查看和修改?Gym是开源开发工具,所有代码都可查看和修改。可以模仿gym已有的例子自己创建环境。Gym创建环境很方便,只需要编写你的环境模型,并将你的环境模型注册到环境文件中即可,至于如何构建新的环境,请关注我的知乎专栏,我会在后面讲一讲。我的专栏中深入剖析了gym并给出了创建自己环境的实例,强化学习实战 第一讲 gym学习及二次开发 - 知乎专栏。

338 评论

h071232003

这个具体就要学深度学习和强化学习的相关知识了,可以拿最简单的DQN举例,DQN就是用神经网络去代替了传统的Q表,从而进行训练。

358 评论

兰生幽荣

深度强化学习一直以来都以智能体训练时间长、计算力需求大、模型收敛慢等而限制很多人去学习,加州大学伯克利分校教授Pieter Abbeel最近发表了深度强化学习的加速方法,解决了一些问题。深度强化学习一直以来都以智能体训练时间长、计算力需求大、模型收敛慢等而限制很多人去学习,比如:AlphaZero训练3天的时间等,因此缩短训练周转时间成为一个重要话题。加州大学伯克利分校教授,Pieter Abbeel最近发表了深度强化学习的加速方法,他从整体上提出了一个加速深度强化学习周转时间的方法,成功的解决了一些问题。最近几年,深度强化学习在各行各业已经有了很成功的应用,但实验的周转时间(turn-around time)仍然是研究和实践中的一个关键瓶颈。该论文研究如何在现有计算机上优化现有深度RL算法,特别是CPU和GPU的组合。且作者确认可以调整策略梯度和Q值学习算法以学习使用许多并行模拟器实例。 通过他们进一步发现可以使用比标准尺寸大得多的批量进行训练,而不会对样品复杂性或最终性能产生负面影响。同时他们利用这些事实来构建一个统一的并行化框架,从而大大加快了两类算法的实验。 所有神经网络计算都使用GPU,加速数据收集和训练。在使用同步和异步算法的基础上,结果标明在使用整个DGX-1在几分钟内学习Atari游戏中的成功策略。

128 评论

米勒时刻jj

关于高中语文研究性学习的思考与实践研究性学习作为一种探讨的学习方式,可以培养学生独立思考,有独到见解和孜孜不倦的追求精神,可以培养他们善于发现问题,勇于质疑并善于解决问题的能力,这种精神和能力是新一代人才所需要的素质。在高中阶段,语文学科进行研究性学习,具有得天独厚的条件,这是因为:从研究主体这方面来说,高中生已具有了研究性学习的知识积累和能力,从小学到升入高中,学生已积累了一定的词汇量,具有正确理解和运用文字的水平,此外,随着年龄的增长,人生阅历的日趋丰富,阅读面的增大,他们已积累了相当量的便于他们分析问题的感性和理性材料,掌握了语文学习的基本方法,已具备了自学语文的能力。从研究对象这方面来说,语文学科的开放性和模糊性,为研究性学习提供了多向性接口和深入钻研的余地。“语文”是个有着丰富内涵和外延的概念,研究“语文”你可以从文化角度研究它,也可以从文字角度研究它;可以从文学角度研究它;也可以从文字角度研究它。这多个角度,无疑形成了一个多维空间,使学生具有了多层次的研究平台。再就是语文学科的模糊性,给学生留下了充分的钻研余地,小到一词,大到一本书,高明的解读者都无法一步到低,古人所谓“诗无达诂”就是这个意思。总之,无论从主体方面来看,还是从客观方面来看,高中语文已具备了研究性学习的条件,高中语文教师要针对学生实际能力,充分发挥学科优势,在研究性学习的实践方面勇创佳绩。那么,如何开展高中语文研究性学习呢?研究性学习作为现行教育体制中一种学习方式,一般有两种方式:实践性研究学习和理论性研究学习。我认为:一般学校不具备实践性研究学习的条件,再说,根据语文学科的特点,也不需要利用大量的时间去搞实际调查研究,因此,我主张高中语文研究性学习仍以课堂为阵地,在加强语文理论知识学习的前提下培养学生的研究意识,下面我们所探讨是如何把常态课堂教学强化研究性学习,我在自身的教学实践中主要总结了以下四种方式:一、开展课堂提问以前课堂教学是师讲生听,这自然没有什么研究可言。目前,课堂教学比较注重启发学生思考了,但基本上还停留在问题设计与解答阶段:即教师备课精心设计几个与课文理解相关的问题,然后在课堂上启发学生思考逐一解答。弊病是学生只能被动地跟着教师的思路走,当然,在课堂上教师提出研究的问题固然是必要的;这样可以形成比较严密的教学环节。但课堂教学中,提问不能成为教师的专利,为了使课堂教学价值发挥到位,教师应在课堂教学中让学生通过阅读去发现问题,进而提出问题进行课堂讨论,这样不但能形成课堂教学的平等交流,而且还可通过对问题的探讨研究,启发学生创新思维,培养深入思考问题,提高口语表达能力。二、写专题论文光有讨论辨析还不够,还应在教师的指导下写命题论文,做到“该动口时动口,该出手时就出手”。当然写专题性论文必须经过充分的准备。首先教师应向学生介绍研究性学习的具体要求和方法。其次,还要注重激发学生兴趣,进行课堂交流与总结,另外还要布置学生课余时间去收集资料,比如学习鲁迅先生的《祝福》,可以让学生写《论祥林嫂之死》的论文,学习古代小说,可让他们课外收集资料写《中国古代小说发展简史》,学习契诃夫《装在套子里的人》可以激发学生的联想,让他们联系现实生活写《套子的启示》等等,这样学生通过思考、讨论、收集、整理,研究意识会增强,逻辑思维能力也会有很大的提高,同时又锻炼了书面语言表达能力,可谓是一举多得。三、研究式作文评选传统的作文评选方式是教师“一言堂”一评了事,这样学生只能处于被动接受状态,要改变这种状况,老师可试着采用研究式作文讲评方式,让全班同学都动脑参与评论。有一次作文训练,我曾让学生从社会生活中选材写一篇小小说,那时我们刚学过《祝福》,有一位同学写出一篇题目叫《当代祥林嫂》的小小说,内容是一个农村妇女,丈夫出外打工,自己在家领着独生儿子度日,但在一次外出时被人贩子绑架,卖到了山里,她曾多次逃跑没成功,最后因人贩子再次作案被捉,警方根据犯罪分子的交待寻到山里,把她营救出来,最终一家团圆。我批改后觉得这个材料较典型,但对材料的处理不够妥当,于是评讲作文时,把这篇习作当例文在课堂上宣读,让学生讨论并写出评价,最后总结出以下几点:1.内容与题目不够吻合;2.选材较好,但对材料的处理不够妥当;3.像纪实散文,缺少恰当的艺术虚构。接着我让该生把她对这篇小小说的构思讲一下。她说她写的是一件现实生活中的真事,她选用这个材料的目的是想提示目前社会中仍然有残害妇女的这种事情发生,特别是在思想文化比较落后的农村。听完这个同学的发言,我让学生围绕她的写作目的和题目,对这个生活素材进行再次加工处理,写出修改意见。最后经过讨论总结出主要意见如下:1.可删去被贩卖经过,直接从被贩卖后写起,事情的起因可以侧面交待。2.对被贩卖后的心理活动、逃跑行动进行细致描写;3.对警方的营救略作交待。4.虚构补充主人被救后又因失贞而被丈夫抛弃的情节,以提示目前农村中还残留着封建糟粕,新时代中农村妇女仍然受封建思想的毒害。这种重在过程,重在试探式的作文评讲,使学生在平等交流的基础上去掌握写作技巧,使学生对如何选材如何裁剪有了深切的体会。这种探讨性学习也适用于作文语言、结构等其它方面的讲评。四、比较性研究学习把内容和形成上有一定联系的读物加以对比,有目的进行探讨研究叫比较性研究学习。运用比较的方法,既可以提高学生的阅读能力,又可以发展和开拓学生的思维。一般情况下,学生拿到阅读材料,就只知道研究这一篇,想不到还有可比较的另外作品,这就需要老师通过指导训练,培养学生的自觉比较意识,这种意识的培养是很关键的。我教《智取生辰纲》时,为了让学生深入了解杨志这个人物形象,就让学生回忆:他们看过、读过的《水浒》作品中,还有哪些人物是军官出身?同学们通过回忆,指出两个人物:一个是初中语文课文《鲁提辖拳打镇关西》中的鲁智深,一个是高中《语文读本》中的《林教头风雪山神庙》里的林冲,找好了比较对象,我又进一步点拨提示帮助学生建立“对比点”让学生进一步拓展。这样学生从另一个角度对杨志这个人物有了深一层的认识,觉得他远没有鲁达和林冲这两个人物形象可爱。《林黛玉进贾府》的教学内容之一是分析文中的肖像描写对刻画人物的作用。我教课时有意让学生比较作者对王熙凤和林黛玉的肖像描写,通过对比,同学们发现这两个人物虽然都是美人,但穿着、打扮、气质、性格却不同:一个俏艳俗气,一个飘逸脱俗;一个泼辣张狂,一个柔弱内向;一个阴险狠毒,一个善良多情。通过比较,他们比较深刻地认识到小说中人物肖像描写的妙处。这样,经过多次强化训练,学生会有意识地展开联想,自觉寻找对比点,达到这一目的,就意味着这一方法,已被学生初步掌握。34

302 评论

相关问答

  • 研究性学习化学论文

    [高中化学小论文] 研究性学习是由学生在一定的情景中发现问题、选择课题、设计方案 ,通过主体的探索、研究求得问题解决的学习活动。化学课程中的研究性学习主要

    吐司酸奶 4人参与回答 2023-12-07
  • 文学的文化研究相关论文

    中国现代文学研究的开展与深入,与现代文学文献的整理和挖掘息息相关。下面是我为大家整理的文学类 毕业 论文,供大家参考。 文学类毕业论文 范文 一:中国现

    许多多000 3人参与回答 2023-12-11
  • 地方文化研究相关论文

    文化再生产就是以文化为生产资料来生产文化,这已成为当今民间文化发展的常见方式。以下是我为大家精心准备的:旅游语境中乾州古城文化的再生产研究相关论文,内容仅供参考

    辣椒0908 3人参与回答 2023-12-11
  • 化学小实验研究相关论文

    化学课程是从化学科学中选择部分内容,从学校课程体系出发,安排它的顺序、课时及期限。下文是我为大家搜集整理的关于初三化学小论文的内容,欢迎大家阅读参考!

    黄豆珵珵 3人参与回答 2023-12-06
  • 网红文化研究相关论文

    伴随着互联网在中国的发展和普及,越来越多的普通人在网络上走红。他们的走红,极可能因自身的某种特质在网络作用下被放大,与看客们的心理相契合,受到网络世界的普遍追捧

    小斑妹ssssss 4人参与回答 2023-12-08