icml2018论文发表

6个回答默认排序

默认排序

按时间排序

静静地过

已采纳

如果让人工智能来打王者荣耀，应该选择什么样的英雄？近日，匹茨堡大学和腾讯 AI Lab 提交的论文给了我们答案：狄仁杰。在该研究中，人们尝试了 AlphaGo Zero 中出现的蒙特卡洛树搜索（MCTS）等技术，并取得了不错的效果。对于研究者而言，游戏是完美的 AI 训练环境，教会人工智能打各种电子游戏一直是很多人努力的目标。在开发 AlphaGo 并在围棋上战胜人类顶尖选手之后，DeepMind 正与暴雪合作开展星际争霸 2 的人工智能研究。去年 8 月，OpenAI 的人工智能也曾在 Dota 2 上用人工智能打败了职业玩家。那么手机上流行的多人在线战术竞技游戏（MOBA 游戏）《王者荣耀》呢？腾讯 AI Lab 自去年起一直在向外界透露正在进行这样的研究。最近，匹茨堡大学、腾讯 AI Lab 等机构提交到 ICML 2018 大会的一篇论文揭开了王者荣耀 AI 研究的面纱。本文中，我们将通过论文简要介绍该研究背后的技术，以及人工智能在王者荣耀中目前的能力。2006 年 Remi Coulom 首次介绍了蒙特卡洛树搜索（MCTS），2012 年 Browne 等人在论文中对其进行了详细介绍。近年来 MCTS 因其在游戏 AI 领域的成功引起了广泛关注，在 AlphaGo 出现时关注度到达顶峰（Silver et al., 2016）。假设给出初始状态（或决策树的根节点），那么 MCTS 致力于迭代地构建与给定马尔可夫决策过程（MDP）相关的决策树，以便注意力被集中在状态空间的「重要」区域。MCTS 背后的概念是如果给出大概的状态或动作值估计，则只需要在具备高估计值的状态和动作方向扩展决策树。为此，MCTS 在树到达一定深度时，利用子节点鉴别器（策略函数（Chaslot et al., 2006）rollout、价值函数评估（Campbell et al., 2002; Enzenberger, 2004），或二者的混合（Silver et al., 2016））的指引，生成对下游值的估计。然后将来自子节点的信息反向传播回树。MCTS 的性能严重依赖策略／值逼近结果的质量（Gelly & Silver, 2007），同时

121 评论 1小时前发布

呼啦啦呼嘞嘞

1、论文题目：要求准确、简练、醒目、新颖。2、目录：目录是论文中主要段落的简表。（短篇论文不必列目录）3、提要：是文章主要内容的摘录，要求短、精、完整。字数少可几十字，多不超过三百字为宜。4、关键词或主题词：关键词是从论文的题名、提要和正文中选取出来的，是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语，便于信息系统汇集，以供读者检索。每篇论文一般选取3-8个词汇作为关键词，另起一行，排在“提要”的左下方。主题词是经过规范化的词，在确定主题词时，要对论文进行主题，依照标引和组配规则转换成主题词表中的规范词语。5、论文正文：（1）引言：引言又称前言、序言和导言，用在论文的开头。引言一般要概括地写出作者意图，说明选题的目的和意义, 并指出论文写作的范围。引言要短小精悍、紧扣主题。〈2）论文正文：正文是论文的主体，正文应包括论点、论据、论证过程和结论。主体部分包括以下内容：a.提出-论点；b.分析问题-论据和论证；c.解决问题-论证与步骤；d.结论。6、一篇论文的参考文献是将论文在和写作中可参考或引证的主要文献资料，列于论文的末尾。参考文献应另起一页，标注方式按《GB7714-87文后参考文献著录规则》进行。中文：标题--作者--出版物信息（版地、版者、版期）：作者--标题--出版物信息所列参考文献的要求是：（1）所列参考文献应是正式出版物，以便读者考证。（2）所列举的参考文献要标明序号、著作或文章的标题、作者、出版物信息。

278 评论 12小时前发布

熊大熊二喜羊羊

参照隔壁moba，濒死游戏dota2说吧当时有个叫openai的东西出来了然后发生了什么呢？当时的冠军战队OG被ai血虐血洗，两局下来冠军战队就推了俩外塔就GG有个传奇中单（我的乌克兰老司机啊）屠夫哥dendi，solo被ai完爆可怕不可怕？结果呢？过了一段时间，ai还是那个ai，一些高端点的玩家就能在它身上拿个10连胜为啥？因为你毕竟只是ai，有设定就有漏洞，有漏洞就可以钻空子。甚至有败点ai强在哪里？视野共享，反应神速，支援快，局势判断准确，技能释放最优化然后呢？牵扯？献祭流？一级中路通关打法？野路子多了去了。刚出来横扫一片，后来被花式吊打这就是moba目前的ai状态如果ai真的能不断自我学习进化，那人类是没戏的不光moba，所有领域都是但是有一点，别断电……AI 也探索出了不同于人类常规做法的全新策略。团队还创建One Model模型提升训练效率，优化通信效率提升 AI 的团队协作能力，使用零和奖惩机制让 AI 能最大化团队利益，使其打法果断，有舍有得。探索全新策略：开局时「绝悟」没选择传统人类对线走位策略，而是由双C位英雄虞姬和王昭君先一起清理中路第一波兵线，压制敌方中辅。之后又转上路压制曹操血线。长线策略：对线期，赛区联队三人压迫下路，「绝悟」果断选择用三个 AI 反压赛区联队的上路，最终双方互换一塔，维持均势。团队协作：比赛中期，「绝悟」四人追击娜可露露，AI 达摩一脚将娜可露露反踢入 AI 群中，再由四个 AI 完美配合拿下自己的首杀。即时策略：一对一时，赛区联队实力较强的曹操追击「绝悟」虞姬，虞姬在残血状态退至高地。看到曹操抗塔血量大减后，把握机会绝地反杀。即时策略+团队协作：比赛后期在赛区联队的上路高地塔团战，AI 王昭君先手被对方秒杀，「绝悟」果断选择反打，以漂亮的一波团战全歼对手。即时策略+团队协作：在赛区联队全队覆灭后，「绝悟」的兵线尚未到达，下路高地塔还有过半血量，「绝悟」果断选择四人轮流抗塔，无兵线强拆塔。* 注：赛事尾声，赛区联队团灭后，「绝悟」未直接推水晶，而是计算整体收益后，选择先推最后一个高地塔，再推水晶直至胜利。迈向通用人工智能的关键一步游戏中测试的难点，是 AI 要在不完全信息、高度复杂度的情况作出复杂快速的决策。在庞大且信息不完备的地图上，10位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择，这带来了极为复杂的局面，预计有高达10的20000次方种操作可能性，而整个宇宙原子总数也只是10的80次方而已，可见暴力穷举完全不可行。若 AI 能在如此复杂的环境中，学会人一样实时感知、分析、理解、推理、决策到行动，就可能在多变、复杂的真实环境中发挥更大作用。因此业界认为下一个 AI 里程碑，可能会在复杂策略游戏中诞生。世界顶级科技公司均在推进此类研究，如Google Deepmind（星际争霸2）、Facebook（星际争霸2）及 Open AI（Dota 2）等。事实上，在「绝悟」战胜职业选手的同一天，「绝悟」的 1v1 版本也在上海ChinaJoy首次对公众亮相，向顶级业余玩家开放为期四天的体验测试。首日的504场测试中，「绝悟」测试胜率为99.8%，仅输1场（对方为王者荣耀国服第一后裔）。两次技术水平测试结果代表了腾讯在深度强化学习、多智能体决策智能课题上的国际级 AI 研究水准，也标志着腾讯在攻坚通用人工智能（ Artificial General Intelligence）难题上更进一步。腾讯 AI Lab 也一直是此类智能体研究的先行者。2016年起，研发的围棋 AI “绝艺”（Fine Art），现担任中国国家围棋队训练专用 AI ；2017年，启动“绝悟”研发；2018 年，“绝悟”达到业余顶尖水平，腾讯还在射击类顶级 AI 竞赛 VizDoom 夺冠，并在《星际争霸2》首先研发出击败内置 AI 的智能体。腾讯副总裁姚星介绍，“电子竞技”将成为策略协作型AI“绝悟”未来短期内的主要应用场景。作为数字时代最受年轻人欢迎的运动，电竞已于2018年成为亚运会表演项目，中国队参赛获两金一银的佳绩。与传统体育项目一样，电竞职业选手也需要手眼脑协调、策略和操作快速反应、团队协作精神及大量刻苦训练。借助在算法和数据方面的优势， AI 可为职业选手提供数据、战略与协作类实时分析与建议，及不同强度与级别的专业陪练。以前沿科技推动电竞专业化发展，AI 将继续推动中国电竞在全球范围内保持领先。

133 评论 12小时前发布

是薇一的我

论文: Efficient Neural Architecture Search via Parameter Sharing

神经网络结构搜索(NAS)目前在图像分类的模型结构设计上有很大的成果，但十分耗时，主要花在搜索到的网络(child model)的训练。论文的主要工作是提出 Efficient Neural Architecture Search (ENAS)，强制所有的child model进行权重共享，避免从零开始训练，从而达到提高效率的目的。虽然不同的模型使用不同的权重，但从迁移学习和多任务学习的研究结果来看，将当前任务的模型A学习到的参数应用于别的任务的模型B是可行的。从实验看来，不仅共享参数是可行的，而且能带来很强的表现，实验仅用单张1080Ti，相对与NAS有1000x倍加速

NAS的搜索结果可以看作是大图中的子图，可以用单向无环图(DAG)来表示搜索空间，每个搜索的结构可以认为是图2的DAG一个子网。ENAS定义的DAG为所有子网的叠加，其中每个节点的每种计算类型都有自己的参数，当特定的计算方法激活时，参数才使用。因此，ENAS的设计允许子网进行参数共享，下面会介绍具体细节

为了设计循环单元(recurrent cell)，采用节点的DAG，节点代表计算类型，边代表信息流向，ENAS的controller也是RNN，主要定义：1) 激活的边 2) 每个节点的计算类型。在NAS(Zoph 2017)，循环单元的搜索空间在预先定义结构的拓扑结构(二叉树)上，仅学习每个节点的计算类型，而NAS则同时学习拓扑结构和计算类型，更灵活

为了创建循环单元，the controller RNN首先采样个block的结果，取，为当前单元输入信息(例如word embedding)，为前一个time step的隐藏层输出，具体步骤如下：

注意到每对节点( )都有独立的参数，根据选择的索引决定使用哪个参数，因此，ENAS的所有循环单元能同一个共享参数集合。论文的搜索空间包含指数数量的配置，假设有N个节点和4种激活函数，则共有种配置

ENAS的controller为100个隐藏单元的LSTM，通过softmax分类器以自回归(autoregressive fashion)的方式进行选择的决定，上一个step的输出作为下一个step的输入embedding，controller的第一个step则接受空embedding输入。学习的参数主要有controller LSTM的参数和子网的共享权重，ENAS的训练分两个交叉的阶段，第一阶段在完整的训练集上进行共享权重学习，第二阶段训练controller LSTM的参数

固定controller的策略，然后进行进行随机梯度下降(SGD)来最小化交叉熵损失函数的期望，为模型在mini-batch上的交叉熵损失，模型从采样而来

梯度的计算如公式1，上从采样来的，集合所有模型的梯度进行更新。公式1是梯度的无偏估计，但有一个很高的方差（跟NAS一样，采样的模型性能差异），而论文发现，当时，训练的效果还行

固定然后更新策略参数，目标是最大化期望奖励，使用Adam优化器，梯度计算使用Williams的REINFORCE方法，加上指数滑动平均来降低方差，的计算在独立的验证集上进行，整体基本跟Zoph的NAS一样

训练好的ENAS进行新模型构造，首先从训练的策略采样几个新的结构，对于每个采样的模型，计算其在验证集的minibatch上的准确率，取准确率最高的模型进行从零开始的重新训练，可以对所有采样的网络进行从零训练，但是论文的方法准确率差不多，经济效益更大

对于创建卷积网络，the controller每个decision block进行两个决定，这些决定构成卷积网络的一层：

做次选择产生层的网络，共种网络，在实验中，L取12

NASNet提出设计小的模块，然后堆叠成完整的网络，主要设计convolutional cell和reduction cell

使用ENAS生成convolutional cell，构建B节点的DAG来代表单元内的计算，其中node 1和node 2代表单元输入，为完整网络中前两个单元的输出，剩余的个节点，预测两个选择：1) 选择两个之前的节点作为当前节点输入 2) 选择用于两个输入的计算类型，共5种算子：identity, separable convolution with kernel size 3 × 3 and 5 × 5, and average pooling and max pooling with kernel size 3×3，然后将算子结果相加。对于，搜索过程如下:

对于reduction cell，可以同样地使用上面的搜索空间生成: 1) 如图5采样一个计算图 2) 将所有计算的stride改为2。这样reduction cell就能将输入缩小为1/2，controller共预测 blocks 最后计算下搜索空间的复杂度，对于node i ，troller选择前个节点中的两个，然后选择五种算子的两种，共种坑的单元。因为两种单元是独立的，所以搜索空间的大小最终为，对于，大约种网络

节点的计算做了一点修改，增加highway connections，例如修改为，其中，为elementwise乘法。搜索到的结果如图6所示，有意思的是：1) 激活方法全部为tanh或ReLU 2) 结构可能为局部最优，随机替换节点的激活函数都会造成大幅的性能下降 3) 搜索的输出是6个node的平均，与mixture of contexts(MoC)类似

单1080Ti训练了10小时，Penn Treebank上的结果如表1所示，PPL越低则性能越好，可以看到ENAS不准复杂度低，参数量也很少

表2的第一块为最好的分类网络DenseNet的结构，第二块为ENAS设计整个卷积网络的结果(感觉这里不应有micro search space)，第三块为设计单元的结果

全网络搜索的最优结构如图7所示，达到4.23%错误率，比NAS的效果要好，大概单卡搜索7小时，相对NAS有50000x倍加速

单元搜索的结构如图8所示，单卡搜索11.5小时，，错误率为3.54%，加上CutOut增强后比NASNet要好。论文发现ENAS搜索的结构都是局部最优的，修改都会带来性能的降低，而ENAS不采样多个网络进行训练，这个给NAS带来很大性能的提升

NAS是自动设计网络结构的重要方法，但需要耗费巨大的资源，导致不能广泛地应用，而论文提出的 Efficient Neural Architecture Search (ENAS)，在搜索时对子网的参数进行共享，相对于NAS有超过1000x倍加速，单卡搜索不到半天，而且性能并没有降低，十分值得参考

169 评论 12小时前发布

蓝梦与信

着急吃不着热豆腐!这是我奶奶告诉我滴，这一次不能盲目,不要盲目!

235 评论 12小时前发布

美丽的大蒜君

这位题主您好，我总感觉您说的就是外挂吧，一般腾讯是决不允许外挂的，轻则掉分重则封号，您还是不要想这种作弊的事了

327 评论 12小时前发布

icml2018论文发表

6个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

6个回答默认排序

默认排序

按时间排序