DQN在nature发表的论文

6个回答默认排序

默认排序

按时间排序

米老鼠NANA

已采纳

这里有范文，你可以参考

228 评论 1小时前发布

孩子的笑

强化学习其实也是机器学习的一个分支，但是它与我们常见的机器学习（比如监督学习supervised learning）不太一样。它讲究在一系列的情景之下，通过多步恰当的决策来达到一个目标，是一种序列多步决策的问题。强化学习是一种标记延迟的监督学习。强化学习实际上是一套很通用的解决人工智能问题的框架，很值得大家去研究。另一方面，深度学习不仅能够为强化学习带来端到端优化的便利，而且使得强化学习不再受限于低维的空间中，极大地拓展了强化学习的使用范围。

270 评论 8小时前发布

匆匆来匆匆走

深度强化学习就是在传统强化学习的基础上增加了神经网络，如Q-learning上加了网络变成DQN就是深度强化学习了，通过深度网络来拟合函数获得Q值，解决Q-table面对连续状态和高维动作空间时很吃力的问题。

195 评论 10小时前发布

媛姐姐丶

低等黑社会，小混混

226 评论 11小时前发布

吃要吃好的

强化学习要求agent去探索环境，然后对状态进行evaluate，在每一个状态下agent可以选择多种action，每次选择的依据可以是贪婪或者softmax等，但是得到的reward是无法表明当前的选择是正确的还是错误的，得到的只是一个score，监督学习的labels可以给agent简洁明了的correct or wrong，并且在agent 在对环境充分的探索前即在每一种状态下选择的每个action的次数不够多时，无法充分求expect，并且在action之间也无法进行对比择优。但是当监督学习的label信息有噪声干扰或者是利用一些active learning 获得到的labels的时候，强化学习的agent与环境直接交互获取到的信息是更加可靠。强化学习也是使用未标记的数据，但是可以通过某种方法知道你是离正确答案越来越近还是越来越远（即奖惩函数）。传统的“冷热游戏”（hotter or colder，是美版捉迷藏游戏 Huckle Buckle Beanstalk 的一个变种）很生动的解释了这个概念。你的朋友会事先藏好一个东西，当你离这个东西越来越近的时候，你朋友就说热，越来越远的时候，你朋友会说冷。冷或者热就是一个奖惩函数。半监督学习算法就是最大化奖惩函数。可以把奖惩函数想象成正确答案的一个延迟的、稀疏的形式。在监督学习中，能直接得到每个输入的对应的输出。强化学习中，训练一段时间后，你才能得到一个延迟的反馈，并且只有一点提示说明你是离答案越来越远还是越来越近。DeepMind 在自然杂志上发表了一篇论文，介绍了他们把强化学习和深度学习结合起来，让神经网络学着玩各种雅达利(Atari)游戏（就是各种街机游戏），一些游戏如打砖块（breakout）非常成功，但是另一些游戏比如蒙特祖玛的复仇，就表现的很糟糕。

121 评论 11小时前发布

米勒时刻jj

DQN是贬义词，有多重含义。

通指横蛮无理又爱用暴力的人、或指缺乏常识的人。

329 评论 12小时前发布

DQN在nature发表的论文

6个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

6个回答默认排序

默认排序

按时间排序