deepmind发表的论文

3个回答默认排序

默认排序

按时间排序

兔纸来个兔宝宝

已采纳

数据精准营销的七个关键要素说到大数据精准营销，不得不先提个性化的用户画像，我们针对每一类数据实体，进一步分解可落地的数据维度，刻画TA的每一个特征，在聚集起来形成人群画像。 01用户画像用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。具体包含以下几个维度：用户固定特征：性别，年龄，地域，教育水平，生辰八字，职业，星座用户兴趣特征：兴趣爱好，使用APP，网站，浏览/收藏/评论内容，品牌偏好，产品偏好用户社会特征：生活习惯，婚恋，社交/信息渠道偏好，宗教信仰，家庭成分用户消费特征：收入状况，购买力水平，商品种类，购买渠道喜好，购买频次用户动态特征：当下时间，需求，正在前往的地方，周边的商户，周围人群，新闻事件如何生成用户精准画像大致分成三步。1.采集和清理数据：用已知预测未知首先得掌握繁杂的数据源。包括用户数据、各式活动数据、电子邮件订阅数、线上或线下数据库及客户服务信息等。这个是累积数据库；这里面最基础的就是如何收集网站／APP用户行为数据。比如当你登陆某网站，其Cookie就一直驻留在浏览器中，当用户触及的动作，点击的位置，按钮，点赞，评论，粉丝，还有访问的路径，可以识别并记录他／她的所有浏览行为，然后持续分析浏览过的关键词和页面，分析出他的短期需求和长期兴趣。还可以通过分析朋友圈，获得非常清晰获得对方的工作，爱好，教育等方面，这比个人填写的表单，还要更全面和真实。我们用已知的数据寻找线索，不断挖掘素材，不但可以巩固老会员，也可以分析出未知的顾客与需求，进一步开发市场。2.用户分群：分门别类贴标签描述分析是最基本的分析统计方法，描述统计分为两大部分：数据描述和指标统计。数据描述：用来对数据进行基本情况的刻画，包括数据总数，范围，数据来源。指标统计：把分布，对比，预测指标进行建模。这里常常是Data mining的一些数学模型，像响应率分析模型，客户倾向性模型，这类分群使用Lift图，用打分的方法告诉你哪一类客户有较高的接触和转化的价值。在分析阶段，数据会转换为影响指数，进而可以做"一对一"的精准营销。举个例子，一个80后客户喜欢在生鲜网站上早上10点下单买菜，晚上6点回家做饭，周末喜欢去附近吃日本料理，经过搜集与转换，就会产生一些标签，包括"80后""生鲜""做饭""日本料理"等等，贴在消费者身上。3.制定策略：优化再调整有了用户画像之后，便能清楚了解需求，在实际操作上，能深度经营顾客关系，甚至找到扩散口碑的机会。例如上面例子中，若有生鲜的打折券，日本餐馆最新推荐，营销人员就会把适合产品的相关信息，精准推送这个消费者的手机中；针对不同产品发送推荐信息，同时也不断通过满意度调查，跟踪码确认等方式，掌握顾客各方面的行为与偏好。除了顾客分群之外，营销人员也在不同时间阶段观察成长率和成功率，前后期对照，确认整体经营策略与方向是否正确；若效果不佳，又该用什么策略应对。反复试错并调整模型，做到循环优化。这个阶段的目的是提炼价值，再根据客户需求精准营销，最后追踪客户反馈的信息，完成闭环优化。我们从数据整合导入开始，聚合数据，在进行数据的分析挖掘。数据分析和挖掘还是有一些区别。数据分析重点是观察数据，单纯的统计，看KPI的升降原因。而数据挖掘从细微和模型角度去研究数据，从学习集、训练集发现知识规则，除了一些比较商业化的软件SAS，WEKA功能强大的数据分析挖掘软件，这边还是更推荐使用R，Python，因为SAS，SPSS本身比较昂贵，也很难做页面和服务级别的API，而Python和R有丰富的库，可以类似WEKA的模块，无缝交互其他API和程序，这里还需要熟悉数据库，Hadoop等。02数据细分受众“颠覆营销”书中提到一个例子，可以引述一下，大家思考一个问题：如果你打算搜集200份有效问卷，依照以往的经验，你需要发多少份问卷，才能达到这个目标？预计用多少预算和时间来执行？以往的方法是这样的：评估网络问卷大约是5%的回收率，想要保证收到200份的问卷，就必须有20倍的发送量，也就是发出4000份问卷，一个月内如果可以回收，就是不错的表现。但现在不一样了，在执行大数据分析的3小时内，就可以轻松完成以下的目标：精准挑选出1%的VIP顾客发送390份问卷，全部回收问卷寄出3小时内回收35%的问卷5天内就回收了超过目标数86%的问卷数所需时间和预算都在以往的10%以下这是怎么做到在问卷发送后的3个小时就回收35%？那是因为数据做到了发送时间的"一对一定制化"，利用数据得出，A先生最可能在什么时间打开邮件就在那个时间点发送问卷。举例来说，有的人在上班路上会打开邮件，但如果是开车族，并没有时间填写答案，而搭乘公共交通工具的人，上班路上的时间会玩手机，填写答案的概率就高，这些都是数据细分受众的好处。03预测“预测”能够让你专注于一小群客户，而这群客户却能代表特定产品的大多数潜在买家。当我们采集和分析用户画像时，可以实现精准营销。这是最直接和最有价值的应用，广告主可以通过用户标签来发布广告给所要触达的用户，这里面又可以通过上图提到的搜索广告，展示社交广告，移动广告等多渠道的营销策略，营销分析，营销优化以及后端CRM/供应链系统打通的一站式营销优化，全面提升ROI。我们再说一说营销时代的变迁，传统的企业大多还停留在“营销1.0”时代，以产品为中心，满足传统的消费者需求，而进入“营销2.0”，以社会价值与品牌为使命，也不能完全精准对接个性化需求。进入营销3.0的数据时代，我们要对每个消费者进行个性化匹配，一对一营销，甚至精确算清楚成交转化率，提高投资回报比。大数据下的营销颠覆经典的营销4P理论，Product，Price，Place，Promotion，取而代之的是新的4P，People，Performance，Process，Prediction。在大数据时代，线下地理的竞争边界早就不存在，比的是早一步的先知能力，利用大数据，从顾客真实交易数据中，预测下一次的购买时间。营销3.0时代关键词就是“预测”。预测营销能够让你专注于一小群客户，而这群客户却能代表特定产品的大多数潜在买家。以上图为例，你可以将营销活动的目标受众锁定为20万潜在客户或现有客户，其中包括特定产品的大多数买家（4万人）。你还可以拨出部分预算用于吸引更小的客户群（比如20% 的客户），而不是整个客户群，进而优化你的支出。过去我们看数据可能是被动的方式，但预测营销强调是决策价值，比如购买时间，你该看的不是她最后的购买日期，而是下次购买的时间，看未来的存活概率，最后生成客户终身价值（CLV）。预测营销催生了一种新的数据驱动营销方式，就是以客户为中心，核心在于帮助公司完成从以产品或渠道为中心到以客户为中心的转变。04精准推荐大数据最大的价值不是事后分析，而是预测和推荐，我就拿电商举例，"精准推荐"成为大数据改变零售业的核心功能。譬如服装网站Stitch fix例子，在个性化推荐机制方面，大多数服装订购网站采用的都是用户提交身形、风格数据+编辑人工推荐的模式，Stitch Fix不一样的地方在于它还结合了机器算法推荐。这些顾客提供的身材比例，主观数据，加上销售记录的交叉核对，挖掘每个人专属的服装推荐模型。这种一对一营销是最好的服务。数据整合改变了企业的营销方式，现在经验已经不是累积在人的身上，而是完全依赖消费者的行为数据去做推荐。未来，销售人员不再只是销售人员，而能以专业的数据预测，搭配人性的亲切互动推荐商品，升级成为顾问型销售。05技术工具关于预测营销的技术能力，有几种选择方案：1、使用预测分析工作平台，然后以某种方法将模型输入活动管理工具；2、以分析为动力的预测性活动外包给市场服务提供商；3、评估并购买一个预测营销的解决方案，比如预测性营销云和多渠道的活动管理工具。但无论哪条路，都要确定三项基本能力：1）连接不同来源的客户数据，包括线上，线下，为预测分析准备好数据；2）分析客户数据，使用系统和定制预测模型，做高级分析；3）在正确时间，正确客户，正确的场景出发正确行为，可能做交叉销售，跨不同营销系统。06预测模型预测客户购买可能性的行业标准是RFM模型（最近一次消费R，消费频率F，消费金额M），但模型应用有限，本质是一个试探性方案，没有统计和预测依据。“过去的成绩不能保证未来的表现”，RFM只关注过去，不去将客户当前行为和其他客户当前行为做对比。这样就无法在购买产品之前识别高价值客户。我们聚焦的预测模型，就是为了在最短时间内对客户价值产生最大影响。这里列举一些其他模型参考：参与倾向模型，预测客户参与一个品牌的可能性，参与定义可以多元，比如参加一个活动，打开电子邮件，点击，访问某页面。可以通过模型来确定EDM的发送频率。并对趋势做预测，是增加还是减少活动。钱包模型，就是为每个客户预测最大可能的支出，定义为单个客户购买产品的最大年度支出。然后看增长模型，如果当前的总目标市场比较小，但未来可能很大，就需要去发现这些市场。价格优化模型，就是能够去最大限度提升销售，销量或利润的架构，通过价格优化模型为每个客户来定价，这里需要对你想要的产品开发不同的模型，或者开发通用，可预测的客户价格敏感度的模型，确定哪一块报价时对客户有最大的影响。关键字推荐模型，关键字推荐模型可以基于一个客户网络行为和购买记录来预测对某个内容的喜爱程度，预测客户对什么热点，爆款感兴趣，营销者使用这种预测结果为特定客户决定内容营销主题。预测聚集模型，预测聚集模型就是预测客户会归为哪一类。07AI在营销领域的应用去年人工智能特别火，特别是深度学习在机器视觉，语言识别，游戏AI上的突飞猛进，以至于人们开始恐慌人工智能是不是已经可以接管人类工作，我个人是对新技术有着强烈的兴趣，也非常看好新科技，数据与现实的关联。我以前在国外零售店买单的时候经常被询问“你有没有购物卡”，当我说没有收银员会赶紧劝我免费开通，有打折优惠，只需要填个手机号和邮箱，后面就可以针对我的购买记录做营销活动，而当我下次进来，他们就让我报出电话号码做消费者识别，当时我想如果做到人脸识别，岂不是更方便，刷脸就可以买单。而这个场景在去年也有了实验，蚂蚁金服研发出了一个生物识别机器人，叫蚂可Mark，据说其认脸能力已经超越了人类肉眼的能力。还有VR购物，Amazon推出的无收银员商店Amazon Go，通过手势识别，物联网和后续数据挖掘等技术实现购物体验。针对营销领域，主要有以下三种预测营销技术：1、无监督的学习技术无监督学习技术能识别数据中的隐藏模式，也无须明确预测一种结果。比如在一群客户中发现兴趣小组，也许是滑雪，也许是长跑，一般是放在聚类算法，揭示数据集合中真实的潜在客户。所谓聚类，就是自动发现重要的客户属性，并据此做分类。2、有监督的学习技术通过案例训练机器，学习并识别数据，得到目标结果，这个一般是给定输入数据情况下预测，比如预测客户生命周期价值，客户与品牌互动的可能性，未来购买的可能性。3、强化学习技术这种是利用数据中的潜质模式，精准预测最佳的选择结果，比如对某用户做促销应该提供哪些产品。这个跟监督学习不同，强化学习算法无须仅需输入和输出训练，学习过程通过试错完成。从技术角度看，推荐模型应用了协同过滤，贝叶斯网络等算法模型。强化学习是被Google Brain团队的负责人Jeff Dean认为是最有前途的AI研究方向之一。最近Google的一个AI团队DeepMind发表了一篇名为《学会强化学习》的论文。按团队的话来说，叫做“学会学习”的能力，或者叫做能解决类似相关问题的归纳能力。除了强化学习，还在迁移学习。迁移学习就是把一个通用模型迁移到一个小数据上，使它个性化，在新的领域也能产生效果，类似于人的举一反三、触类旁通。强化学习加上迁移学习，能够把小数据也用起来，我认为是很激动人心的，通过AI来创造AI，数据科学家的部分工作也可以让机器来实现了。

125 评论 2小时前发布

鲁鲁鲁德林

天才！AlphaGo的创始人戴密斯·哈萨比斯2016-06-01 22:11 | 迪哥说事AlphaGo近日表现出色，AlphaGo的创始人戴密斯·哈萨比斯也引发关注。媒体称，放在大街上，哈萨比斯相貌平平，你可能不会想再看第二眼。不过互联网之父蒂姆·伯纳斯-李(Tim Berners-Lee)曾表示，哈萨比斯是这个星球上最聪明的人物之一。综合英国《卫报》、科技媒体爱范儿报道，哈萨比斯1976年出生于伦敦，拥有1/4中国血统，父亲有着希腊和塞浦路斯血统，母亲则出身自新加坡和中国人的家庭。他们都是老师，曾经开过玩具店，有着“像波西米亚人”般的性格。在这么个家庭，走出继承父母衣钵或者从事艺术的孩子应该是一件大概率事件。事实也正是如此。哈萨比斯的妹妹是一名作曲家和钢琴演奏家，而弟弟则专注于创造性写作。“很明显，我就是家中的那只黑天鹅。”哈萨比斯曾这样开玩笑地表示。他4岁时开始下国际象棋，到了13岁，Elo等级分为2300分(国际棋联使用的等级分制度，拿到2300分到2399分的人的水平大概是棋联大师)，是有史以来14岁以下组别分数第二高的孩子。但哈萨比斯的天才并不只限于国际象棋领域。在使用国际象棋比赛赢得的奖金买了电脑后，他在计算机上一发不可收拾：8岁编写自己的计算机游戏；16岁完成“英国高考”后加入Bullfrog Productions游戏开发公司，在游戏《Syndicate》负责关卡设计；17 岁作为联合设计者和主力程序员开发出包含AI元素的经典电子游戏《主题公园》。/也就是说戴密斯·哈萨比斯在上大学之前就已经会AI了/不过，哈萨比斯并没有过早地把游戏开发作为自己的事业，而是在这个时候选择到剑桥大学学**计算机科学。这大概就是神童的人生。从游戏创业者到神经科学博士 1997年，当20岁的哈萨比斯以计算机科学双重一级荣誉学位(double first)的成绩从剑桥毕业后，他和几年前一样选择了一家游戏公司任职，但很快他就独立门户了：1998年创立了Elixir工作室，成为一名独立开发者。在Elixir的几年中，虽然哈萨比斯设计的两款游戏被提名“英国奥斯卡”BAFTA奖，但都没有得到大众的高评价。这并不是哈萨比斯想要的结果。他当时认为：“是时候做一些以智能为首要任务的事情了。” 2005年，他将游戏的知识产权和专利卖给了几个游戏出版商，关闭了工作室，重新回到了校园。而这一次，他把目光放在了认知神经科学上。为什么是认知神经科学？因为大脑——人类智慧的象征——正是哈萨比斯可以为人工智能找到新算法的灵感源泉。在伦敦大学学院攻读博士学位时，他的主要研究领域是自传体记忆和海马体。前者指的是对个人复杂生活事件的混合记忆，后者则是人脑中负责储存短期记忆的部分。经过几年的研究，哈萨比斯提出了关于情节记忆系统的新理论：场景构建是掩藏在回忆和想象中的关键过程。该理论在2007年被《科学》杂志评为年度十大科学突破之一。建人工通用智能自称登月计划从神童成为创业者，再变成科学家，哈萨比斯的下一步没有多少人能看透。 2010 年，他与在伦敦大学学院读博士遇到的施恩·莱格(Shane Legg)共同创办了DeepMind并担任CEO，研究人工通用智能(AGI)，而哈萨比斯把它形容为“21 世纪的阿波罗登月计划”。大多数人工智能系统(AI)都是“狭隘” 的，训练事前编写好程序的代理来掌握某种特定的任务，它们并没有太多其他的能力了。哈萨比斯站在另一边：他从人类大脑获取灵感，试图创造第一台“通用用途的学**机器”，一组灵活的、适应性强的算法，能够像生物系统那样只利用原始数据来学**如何从头开始掌握任何一种任务。 2014年，谷歌以4亿美元收购DeepMind，当时的他们没有产品只有论文，技术人员也仅仅有20位。不过很快DeepMind 就证明了它的价值：2015年2月，DeepMind在另一本一流科学杂志《自然》发表论文，介绍了能够通过学**成为雅达利(现代游戏机始祖)游戏高手的人工主体。然后在2016年1月DeepMind再次发表论文，称他们的新算法AlphaGo在最困难的游戏——围棋——上也取得了巨大突破。而后，就是公众耳熟能详的事了。哈萨比斯是个天才，这个论断即使只知道他是那台在围棋比赛中下赢人类的机器背后的男人，相信也不会有很大的异议。不过，看着他谈到自己的理想、自己的童年、自己的孩子，你就会知道，他并不是什么企图溃灭人类的疯狂科学家，也不是木讷的“极客”。不管哈萨比斯自己是否认同，他肩上担负的可能就是人类未来的某种希望。哈萨比斯希望人工智能能够在医疗、气候变化、金融等等领域发挥作用。每晚，他都会回到家里和家人一起吃饭聊天，之后陪两个儿子写作业玩游戏。在带完两个孩子**睡觉之后，他会开始工作电话会议直至凌晨1时，之后用几个小时来进行思考。而在这些深夜的思考中，诞生的可能就是下一个颠覆全人类的想法。

99 评论 3小时前发布

谁的吴邪

Android以Java为编程语言，使接口到功能，都有层出不穷的变化，其中Activity等同于J2ME的MIDlet，一个 Activity 类（class）负责创建视窗（window），一个活动中的Activity就是在 foreground（前景）模式，背景运行的程序叫做Service。两者之间.

Google's artificial intelligence-driven AlphaGo sofare program will challenge Ke Jie, the world's top professional Go player, at China's Future of Go Summit in May. The prospect of this petition beeen human and artificial intelligence has captured the attention of the Chinese public, where the game was invented more than 2,500 years ago, and driven interest in Google's DeepMind machine learning method that developed AlphaGo.We believe a machine could never replace a person as an adversary in future.It's a cold machine without blood, while we have spiritual power.

谷歌非常有谋略，先让阿尔法狗连赢三次，奠定胜利的事实，展示人工智能的厉害！让人恐慌！然后，谷歌让阿尔法狗输棋给李世石，以明白无误的方式告诉恐慌的人们：不要害怕，我们掌控着人工智能的！如果人工智能把人逼上绝路，人工智能产业就会遭到人们的封杀！谷歌输一局，缓和局面。

中日韩还有成千上万围棋学习者和相关从业人员，Google是商业公司，当然不会把事情做绝，肯定会考量这方面的因素。

比赛结束，alphago四比一完胜李世石，仅胜利的一局有很多人认为是谷歌为了让alphago有世界排名而故意输的一局，因为如果一个棋手一直连胜，是没有世界排名的，输了一局才有排名，按照官方发布目前alphago排名世界第二，中国小将柯杰世界第一。

AlphaGo能够战胜李世石的确证明了他是有职业顶尖的水平，也就是的职业九段，其计算能力与局部分析能力超越职业九段！可是，AlphaGo要想拿到职业冠军是基本不可能的，因为它不会自主学习，需要输入对方的棋谱才能占优优势。

此外，在局部与大局的判断上，AlphaGo是有缺陷的，如果是遇到巅峰时期的李昌镐或是聂老聂卫平先生，折现缺点就会被无限放大。

总而言之，现在它的对局还是太少了，需要更多的对局与研究，看不同的棋风与派别对它的胜率的影响，究竟综合实力是多少，还需要考究！

机器人还是不一样，完全不受外界与情绪的任何干扰，坐下便拼杀起来。

它的芯片经历了十年换代，几乎对所有围棋套路了如指掌，面对我的每一步棋，都能识破我的意图，找到最合适的解决方法，更别提失误了，而我却并不急躁，慢慢悠悠，心中早已打好了算盘。

这盘棋下得出奇得慢，半个月，1个月，我也并不着急，AlphaGo作为一个高智商机器人也能准确捕捉到我的所有需求，我们不仅棋下得有条不紊，它更是端茶倒水，冷风热气，无微不至。

这棋转眼便下了三个月，我打定主意，心中不急，这AlphaGo作为机器人便更不知着急了，倒是观众们耐心早已磨完，他们催促也好，咒骂也罢，我自不动，每日只想一步棋，每日只下一步棋，但我内心却从未平静。

我等待着机会，更等待着灵感，后来已无人有心再关注这场比赛，我的心中也越发平静了。

直到那一天，我依如往常早早起床，一边诵读着道德经，一边在园中散步。

突然，一个灵感穿过我的头脑，一个阴阳卦象图转变为了一幅棋盘，“我若击杀这个未曾关注过的棋点，他岂不再无机会？”我哈哈大笑，回到棋盘前，下了这一步我等了许久的棋，不出所料，AlphaGo一筹莫展，投子认输。

世界轰动，人们重新将关注点拉到了我身上，我也不过多解释，手放背后：“道可道，非常道……”我先人一盘棋能下几个月，参悟世间之道，下的是道，而非棋，这岂是一个机器人能理解的？”从此之后，人们不再挑战AlphaGo，亦不再过度追求棋中胜负，他们好像也沉静了下来，回归了这项运动最本质的精髓，思考人生，思考自然，思考世界，找到了心中的那片桃花源。

柯洁经历了英雄般的战斗后，依然第二局输给AlphaGo。

最有价值的信息可能来自AlphaGo之父萨比斯，中盘阶段他评论说：“不可思议，根据AlphaGo的评估，柯洁现在下得很完美。

”赛后萨比斯则评论：“这是一场惊心动魄的令人惊奇的比赛，柯洁几乎把AlphaGo逼到了极限。

”柯洁今天的最大收获是测出阿法狗的真实水平。

期望这次比赛能够验证。

当然它有两个前提条件，一是柯洁把最好水平发挥出来，二是AlphaGo能够经受真正的考验，而不是表面看它只赢一两个子，实际上后台胜率显示根本没有机会。

前天的第一局，AlphaGo赢了1.5目。

这是一个很小的差距，但柯洁下得谈不上多出色，因为从头到尾他基本没什么机会。

AlphaGo并不是一个赌徒，能赢100目绝不赢99；它是根据胜率估算来行棋的，如果赢1目而它认为胜率是100%，就没必要去下赢100目而胜率只有99%的棋。

所以，第一局柯洁远远没有逼出AlphaGo的真正实力。

昨天AlphaGo方面的消息，认为这次虽然只是一个单机版，但棋力已经比去年赢李世石的时候提高了三子。

这是一个挺吓人的消息，因为它会让人类棋手觉得，目前这个版本至少比人类强三子以上。

老实讲这挺绝望的，三子以上，四子。

那等于彻底宣布人类棋手跟AlphaGo已经是天壤之别。

知道，面对一个可以让四子的对手，这是职业和业余的差距，比赛已经失去意义，准确地说那叫戏耍。

它可以只赢1目甚至半目，但不说明任何问题，就像柯洁也可以让只输半目，但那又能说明什么。

难道会跑大街上喊，快看，柯洁只赢了半目。

谁都知道，柯洁想怎么赢就怎么赢，半目和100目没差别。

今天的比赛，由于“几乎把AlphaGo逼到了极限”，虽然不是让子棋，但基本可以猜出，在人类棋手高水平发挥的前提下，目前AlphaGo让不到人类三子，可能是二子或者略多。

挂盘讲解的李世石也做出这种判断：AlphaGo并没有提升三子的实力，估计大概有二子。

至此，本次比赛人类棋手的目标或者说心愿已经达到：测试出AlphaGo的真正实力。

否则，AlphaGo就永远是上帝般的存在。

知道它强，但不知道它到底多强，所以它就是上帝。

知道，没有上帝。

如果由于无法评测AI（人工智能）的水平，而把它视为上帝一样的存在，这不是人类进化或者说发展的方向。

等于把命运交给未知，哪怕这个未知是人类创造出来的，也有理由疑虑甚至恐惧。

所以要感谢柯杰，不愧围棋第一人，他今天的勇气和表现，至少让暂时可以从外部角度了解到AlphaGo的真实水平。

这是比胜负更重要的事情。

题目：《人工智能》3月15日，举世瞩目的“人机大战”尘埃落定，人工智能“阿尔法狗围棋”（AlphaGo）以4:1的比分战胜人类围棋顶尖高手李世石九段，为世人留下一个不愿接受又不得不接受的事实。

面对“阿尔法狗围棋”（AlphaGo），有人不服，如中国的超级围棋新星柯洁九段，就公开向“阿尔法狗围棋”（AlphaGo）叫板：“你赢不了我！”有人叹息：人类智慧最后的尊严在一只“小狗”面前丢失。

有人甚至悲观地认为，机器统治人类的时代即将来临。

其实，所谓人类尊严、所谓机器人的统治时代，只是我们一些人的臆想，“阿尔法狗围棋”（AlphaGo）的胜利，说到底就是一次技术革命的胜利，是人类对自身的一次超越。

正如西安交通大学副校长、国家重点基础研究计划（973）“基于视认知的非结构化信息处理基础理论与关键技术”首席科学家徐宗本说的：“任何人工智能技术的成功一定是当代最新技术综合运用的成功，片面说成谁战胜谁是不公平的，也是无意义的，说人类智慧的最后壁垒被攻破，这都是无稽之谈。

”“阿尔法狗围棋”（AlphaGo）的胜利，背后的最大价值在于，它激励人们持续不断地探索过去人工智能领域一直看似难以实现的人类智能级别。

从这一点上看，人工智能的胜利也有非凡的意义，甚至可以说具有划时代的意义。

是的，翻开人类历史，哪一次技术革命不带来人类社会翻天覆地的变化？蒸汽机的发明、使用，使人类从农业手工业时代进入了工业社会；电动机的诞生，使人类从工业社会跨入了现代化。

而以原子能、电子计算机、空间技术和生物工程的发明与应用为主要标志的信息技术革命，更让人类从此进入了自动化、信息化时代。

每一次技术革命，伴随的都是生产力的发展和人类自身的解放。

“阿尔法狗围棋”（AlphaGo）的胜利，是不是会掀起又一次技术革命，我们还需拭目以待。

然而，人工智能的进步，却可以让我们展望到人类美妙无比的前景。

我们似乎可以看到，不久的将来，到处都是机器人在人们的指令下为人们服务；我们似乎可以看到，那些对于目前医术来说几乎无解的人类大脑和神经疾病，如自闭症、老年痴呆症这样的国际医学难题，随着人工智能的进步，一切都会迎刃而解；我们似乎可以看到，有了人工智能的协助，人类真正步入了大同的理想社会。

是的，“阿尔法狗围棋”（AlphaGo）的胜利，是人类的智慧向前迈出的又一步，有了这一步，我们的世界将更加美好。

当然，面对这些进步，我们不能只是围观、娱乐和敬仰，我们应该用我们的智慧，去促成人工智能更大的进步！

AlphaGo一般指阿尔法围棋阿尔法围棋（AlphaGo）是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序。

其主要工作原理是“深度学习”。

阿尔法围棋（AlphaGo）是一款围棋人工智能程序。

其主要工作原理是“深度学习”。

“深度学习”是指多层的人工神经网络和训练它的方法。

一层神经网络会把大量矩阵数字作为输入，通过非线性激活方法取权重，再产生另一个数据集合作为输出。

这就像生物神经大脑的工作机理一样，通过合适的矩阵数量，多层组织链接一起，形成神经网络“大脑”进行精准复杂的处理，就像人们识别物体标注图片一样。

最强AlphaGo Zero怎样炼成刚刚，Deepmind在Reddit的Machine Learning板块举办了在线答疑活动AMA,Deepmind强化学习组负责人David Silver和其同事热情地回答了网友们提出的各种问题。

由于在AMA前一天Deepmind刚刚发表了《Mastering the game of Go without human knowledge》（不使用人类知识掌握围棋）的论文，相关的提问和讨论也异常热烈。

什么是AMA?AMA(Ask Me Anything)是由Reddit的特色栏目，你也可以将其理解为在线的“真心话大冒险”。

AMA一般会约定一个时间，并提前若干天在Reddit上收集问题，回答者统一解答。

本次Deepmind AMA的回答人是：David Silver:Deepmind强化学习组负责人，AlphaGo首席研究员。

David Silver1997年毕业于剑桥大学，获得艾迪生威斯利奖。

David于2004年在阿尔伯塔大学获得计算机博士学位，2013年加盟DeepMind，是AlphaGo项目的主要技术负责人。

Julian Schritieser:Deepmind高级软件工程师。

此前有多位机器学习界的大牛/公司在Reddit Machine Learning版块开设AMA，包括：Google Brain Team、OpenAI Research Team 、Andrew Ng and Adam Coates、Jürgen Schmidhuber、Geoffrey Hinton、Michael Jordan 、Yann LeCun、Yoshua Bengio等。

我们从今天Deepmind的AMA中选取了一些代表性的问题，整理如下：关于论文与技术细节Q: Deepmind Zero的训练为什么如此稳定？深层次的增强学习是不稳定和容易遗忘的，自我对局也是不稳定和容易遗忘的，如果没有一个好的基于模仿的初始化状态和历史检查点，二者结合在一起应该是一个灾难...但Zero从零开始，我没有看到论文中有这部分的内容，你们是怎么做到的呢？David Silver：在深层增强学习上，AlphaGo Zero与典型的无模式算法（如策略梯度或者Q学习）采用的是完全不同的算法。

通过使用AlphaGo搜索，我们可以极大改进策略和自我对局的结果，然后我们会用简单的、基于梯度的更新来训练下一个策略及价值网络。

比起基于简便的基于梯度的策略改进，这样的做法会更加稳定。

Q：我注意到ELO等级分增长的数据只与到第40天，是否是因为论文截稿的原因？或者说之后AlphaGo的数据不再显著改善？David Silver:AlphaGo已经退役了！这意味着我们将人员和硬件资源转移到其他AI问题中，我们还有很长的路要走呐。

Q：关于论文的两个问题：Q1：您能解释为什么AlphaGo的残差块输入尺寸为19x19x17吗？我不知道为什么每个对局者需要用8个堆叠的二进制特征层来描述？我觉得1、2个层就够了啊。

虽然我不是100%理解围棋的规则，但8个层看起来也多了点吧？Q2：由于整个通道使用自我对局与最近的/最好的模型进行比较，你们觉得这对于采用参数空间的特定SGD驱动轨迹对否会有过拟合的风险？David Silver：说起来使用表征可能比现在用的8层堆叠的做法更好！但我们使用堆叠的方式观察历史数据有三个原因：1）它与其他领域的常见输入一致；2）我们需要一些历史状态来表示被KO;3）如果有一些历史数据，我们可以更好地猜测对手最近下的位置，这可以作为一种关注机制（注：在围棋中，这叫“敌之要点即我之要点”），而第17层用于标注我们现在究竟是执黑子还是白子，因为要考虑贴目的关系。

Q：有了强大的棋类引擎，我们可以给玩家一个评级——例如Elo围棋等级分就是通过棋手对局的分析逐步得出的，那么AlphaGo是否可以对过去有等级分前的棋手的实力进行分析？这可能为研究人类的认知提供一个平台。

Julian Schritieser：感谢分享，这个主意很棒！我认为在围棋中这完全可以做到，或许可以用最佳应对和实际应对的价值差异或者政策网络给每一手位置评估得到的概率来进行？我有空的时候试一下。

Q：既然AlphaGo已经退役了，是否有将其开源的计划？这将对围棋社区和机器学习研究产生巨大的影响。

还有，Hassabis在乌镇宣称的围棋工具将会什么时候发布？David Silver：现在这个工具正在准备中。

不久后你就能看到新的消息。

Q:AlphaGo开发过程中，在系统架构上遇到的最大障碍是什么？David Silver：我们遇到的一个重大挑战是在和李世石比赛的时候，当时我们意识到AlphaGo偶尔会受到我们所谓的“妄想”的影响，也就是说，程序可能会错误理解当前盘面局势，并在错误的方向上持续许多步。

我们尝试了许多方案，包括引入更多的围棋知识或人类元知识来解决这个问题。

但最终我们取得了成功，从AlphaGo本身解决了这个问题，更多地依靠强化学习的力量来获得更高质量的解决方案。

围棋爱好者的问题Q:1846年，在十四世本因坊迹目秀策与十一世井上幻庵因硕的一盘对局中，秀策下的第127手让幻庵因硕一时惊急两耳发赤，该手成为扭转败局的“耳赤一手”。

如果是AlphaGo，是否也会下出相同的一首棋？Julian Schritieser：我问了樊麾，他的回答是这样的：当时的围棋不贴目，而AlphaGo的对局中，黑棋需贴7.5目。

贴目情况不同造成了古今棋局的差异，如果让AlphaGo穿越到当年下那一手，很有可能下的是不同的另一个地方。

Q：从已发布的AlphaGo相互对局看，执白子的时间更为充裕，因...

AlphaGo这个系统主要由几个部分组成：走棋网络（Policy Neork），给定当前局面，预测/采样下一步的走棋。

快速走子（Fast rollout），目标和1一样，但在适当牺牲走棋质量的条件下，速度要比1快1000倍。

估值网络（Value Neork），给定当前局面，估计是白胜还是黑胜。

蒙特卡罗树搜索（Monte Carlo Tree Search,MCTS），把以上这三个部分连起来，形成一个完整的系统。

我们的DarkForest和AlphaGo同样是用4搭建的系统。

DarkForest较AlphaGo而言，在训练时加强了1，而少了2和3，然后以开源软件Pachi的缺省策略（default policy）部分替代了2的功能。

以下介绍下各部分。

1、走棋网络走棋网络把当前局面作为输入，预测/采样下一步的走棋。

它的预测不只给出最强的一手，而是对棋盘上所有可能的下一着给一个分数。

棋盘上有361个点，它就给出361个数，好招的分数比坏招要高。

DarkForest在这部分有创新，通过在训练时预测三步而非一步，提高了策略输出的质量，和他们在使用增强学习进行自我对局后得到的走棋网络（RL neork）的效果相当。

当然，他们并没有在最后的系统中使用增强学习后的网络，而是用了直接通过训练学习到的网络（SL neork），理由是RL neork输出的走棋缺乏变化，对搜索不利。

有意思的是在AlphaGo为了速度上的考虑，只用了宽度为192的网络，而并没有使用最好的宽度为384的网络（见图2(a)），所以要是GPU更快一点（或者更多一点），AlphaGo肯定是会变得更强的。

所谓的0.1秒走一步，就是纯粹用这样的网络，下出有最高置信度的合法着法。

这种做法一点也没有做搜索，但是大局观非常强，不会陷入局部战斗中，说它建模了“棋感”一点也没有错。

我们把DarkForest的走棋网络直接放上KGS就有3d的水平，让所有人都惊叹了下。

可以说，这一波围棋AI的突破，主要得益于走棋网络的突破。

这个在以前是不可想像的，以前用的是基于规则，或者基于局部形状再加上简单线性分类器训练的走子生成法，需要慢慢调参数年，才有进步。

当然，只用走棋网络问题也很多，就我们在DarkForest上看到的来说，会不顾大小无谓争劫，会无谓脱先，不顾局部死活，对杀出错，等等。

有点像高手不经认真思考的随手棋。

因为走棋网络没有价值判断功能，只是凭“直觉”在下棋，只有在加了搜索之后，电脑才有价值判断的能力。

2、快速走子那有了走棋网络，为什么还要做快速走子呢？有两个原因，首先走棋网络的运行速度是比较慢的，AlphaGo说是3毫秒，我们这里也差不多，而快速走子能做到几微秒级别，差了1000倍。

所以在走棋网络没有返回的时候让CPU不闲着先搜索起来是很重要的，等到网络返回更好的着法后，再更新对应的着法信息。

其次，快速走子可以用来评估盘面。

由于天文数字般的可能局面数，围棋的搜索是毫无希望走到底的，搜索到一定程度就要对现有局面做个估分。

在没有估值网络的时候，不像国象可以通过算棋子的分数来对盘面做比较精确的估值，围棋盘面的估计得要通过模拟走子来进行，从当前盘面一路走到底，不考虑岔路地算出胜负，然后把胜负值作为当前盘面价值的一个估计。

这里有个需要权衡的地方：在同等时间下，模拟走子的质量高，单次估值精度高但走子速度慢；模拟走子速度快乃至使用随机走子，虽然单次估值精度低，但可以多模拟几次算平均值，效果未必不好。

所以说，如果有一个质量高又速度快的走子策略，那对于棋力的提高是非常有帮助的。

为了达到这个目标，神经网络的模型就显得太慢，还是要用传统的局部特征匹配（local pattern matching）加线性回归（logistic regression）的方法，这办法虽然不新但非常好使，几乎所有的广告推荐，竞价排名，新闻排序，都是用的它。

与更为传统的基于规则的方案相比，它在吸纳了众多高手对局之后就具备了用梯度下降法自动调参的能力，所以性能提高起来会更快更省心。

AlphaGo用这个办法达到了2微秒的走子速度和24.2%的走子准确率。

24.2%的意思是说它的最好预测和围棋高手的下子有0.242的概率是重合的，相比之下，走棋网络在GPU上用2毫秒能达到57%的准确率。

这里，我们就看到了走子速度和精度的权衡。

和训练深度学习模型不同，快速走子用到了局部特征匹配，自然需要一些围棋的领域知识来选择局部特征。

对此AlphaGo只提供了局部特征的数目（见Extended Table 4），而没有说明特征的具体细节。

我最近也实验了他们的办法，达到了25.1%的准确率和4-5微秒的走子速度，然而全系统整合下来并没有复现他们的水平。

我感觉上24.2%并不能完全概括他们快速走子的棋力，因为只要走错关键的一步，局面判断就完全错误了；而图2(b)更能体现他们快速走子对盘面形势估计的精确度，要能达到他们图2(b)这样的水准，比简单地匹配24.2%要做更多的工作，而他们并未在文章中强调这一点。

在AlphaGo有了快速走子之后，不需要走棋网络和估值网络，不借助任何深度学习和GPU的帮助，不使用增强学习，在单机上就已经达到了3d的水平（见Extended Table 7倒数第二行），这是相当厉害的了。

任何使用传统方法在单机上达...

转载请注明出处作文大全网 » alphago是什么语言开发的

100 评论 7小时前发布

deepmind发表的论文

3个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序