淡水氤氲
2016年11月14日上午9点,中关村丹棱街5号微软大厦,李开复,张亚勤,沈向洋,洪小文,王坚等中国IT界的技术大佬,以及曾在微软亚洲研究院工作过的近200位院友“同框出现”,宣布“微软亚洲研究院院友会”正式成立:沈向洋担任会长,李开复和张亚勤任名誉会长,他们都是这家研究院曾经的院长。
坦率地讲,夹杂在繁芜的科技资讯信息流之中,这很难称得上是一条惹眼新闻,至少相比上述大佬的同框,几天之后张亚勤和沈向洋出现在乌镇的那一张饭局合影要更为被媒体所追捧。
但科技记者无法忽视的是,多年来,在稿子中描述圈内大佬过往履历时,“微软亚洲研究院”是一个高频词汇。翻看人物图谱,这里是阿里云之父,前金山CEO,百度总裁,小米总裁,海尔CTO, 联想CTO……互联网高管,以及浙江大学、中国科学技术大学、人民大学等国内一线大学计算机/信息技术院系负责人的上一处居心之所;这里和跨国巨头在中国的“办事处”关系不大,它更像是一座拥有18年校龄的“大学”。
中国IT界的黄埔军校,有人喜欢这么说。在院友会成立仪式上,院友代表阿里巴巴CTO王坚感喟:没有人可以绕开这个机构去谈论过去十几年的中国科技史。
一切得从往事谈起。
九八年的召唤
九十年代初——在最不可一世的岁月,来自西雅图的软件巨人却为创新乏力所困。微软前任首席技术官麦尔伏德在1991年建议盖茨成立带有“军备竞赛”属性的创新研究院,进行基础科学研究,以主动迎合技术世界的不确定性。这年,微软首座研究院在雷德蒙成立。
六年之后,麦尔伏德送给了盖茨第二个建议:将研究院开到中国。理由颇为机敏,到1990年代为止,美国一直是这个世界上每年诞生计算机博士最多的地方——直至被中国超越,这被麦尔伏德视作中国IT业态苏醒的前奏。
1998年,微软中国研究院在北京成立。37岁的语音识别专家李开复博士成为首任院长。18年后已成谈资的插曲是:当得知李开复要以“研究院”作为这座机构的后缀时,沈向洋博士大笑,“叫个‘所’都大了”——2001年中国研究院升级为微软亚洲研究院则是后事了。
至少在1998年,沈向洋有充分的理由自嘲。现任院长洪小文后来回忆:“研究院建立前,我到北京参与最初一批员工招募。有些候选人是国内高校博士生,我们只能通过固定电话联络,那时学校里通常一幢宿舍大楼只有一部电话,经常需要麻烦宿管老师或同学帮着叫人来接听。没有几个网站,没有太多信息资源,因而沟通时需要花很多时间同步基础信息,效率比较低。Email倒是能用,但拨号上网资费昂贵又不稳定,实时在线不大可能。”
1998年,每小时8块钱的上网费和4块钱的电话费让上网属于奢侈消费;这一年,配备Windows 95的个人电脑也实属高大上的新锐电器;在更为宏大的叙事里,这一年,中国GDP刚突破万亿美元大关,IT产业所占比重仅约为。
然而同样在1998年,互联网作为社会基础设施迎来破茧之日,一批互联网明日巨星集体相约九八:1998年9月4日,谷歌正式创立;中国则更是普遍把这一年视作商业互联网元年:2月,张朝阳创办搜狐;6月,刘强东成立京东;11月,腾讯诞生;12月,新浪上线。
机遇与挑战在1998年显得尤为冲突——但考虑到成立研究院的愿景,天平似乎更偏向挑战一端。
早在筹备阶段,比尔盖茨和里克·雷斯特博士——微软全球研究院体系的缔造者,就为研究院确立了三条宗旨:推动整个计算机科学前沿技术发展;将最新研究成果快速转化到微软关键产品之中,以帮助用户改善计算体验;着眼于下一代革命性技术研究,助力微软实现长远发展战略和对未来计算的美好构想。
所以你可以想象李开复说服海外精英归国的不易,上述宏愿与当时中国的外部环境格格不入。不过事实美好的一端也成为18年后院友会成立仪式上李开复追忆的画面:“我在卡内基梅隆大学读书时有位同学叫沈为民,写代码非常厉害,我说你是怎么做到的。他说我们在国内都是在纸上写代码,老师则用脑子来运行这个程序。当时给我的感触是,如果能在纸上培养出沈为民这样的人,这样的人才肯定还有很多,一起做研究院一定能做出来。我当时也是抱着这样乐观的心态就回来了。”而中国的人才也是当年比尔盖茨所看重的。
后面的事情令人欣喜,研究院开始在全球顶级学术会议与期刊崭露头角,尤其2002年,他们在计算机科研领域最富盛名的国际图形学年会SIGGRAPH上发表了4篇论文——长久以来这种国际大会鲜有华人身影。
有人后来回忆,当年前去知春路希格玛大厦(研究院旧址)“朝圣”的年轻人一定会颇为失望,一切看上去与其他企业别无二致,除了目光中的这位“理工男”可能刚在国际期刊发表了一篇重要论文。
人工智能的延续
如今十八年过去,微软亚洲研究院当年的愿景已兑换成国际顶级学术会议与期刊上的4000余篇论文。更重要的是,脱胎于这里的技术也转移到微软产品矩阵中——Office,Windows,Bing,Kinect,以及小冰,Cortana,SkypeTranslator等人工智能产品,都有亚洲研究院的身影。
事实上,在人工智能还是个模糊概念,甚至不被学术界普遍承认的岁月,研究院就已将其视作面向未来的基础研究。1999年研究院成立一周年时即确立了最初的几个研究中心:语音组,多媒体组,图形图像组——如今它们都更像是人工智能概念的一部分。
李开复多年后坦言:中国如今能在人工智能领域扮演重要作用,很大程度上要归功于研究院很早开始便在语音识别,自然语言理解等众多人工智能核心技术进行研究。“中国今天的成就真的应该感谢微软亚洲研究院。”
不过,这种“感谢”对于研究院来说,似乎也意味着成长的烦恼。几年前开始,中国科技公司就积极网罗人工智能领域的精英,可以想象,微软亚洲研究院作为最密集的人才聚集地成为了被挖的目标。
事实上,研究院早已熟悉了人才的流动——这也是成立院友会的原因之一。
十八年前,这个国度最顶尖的技术头脑纷纷从美国的高校和科技企业来到微软;十八年后,技术后辈有了更多良禽择木的可能——聪明的大脑不再浓烈地聚集一地,而是稀释在各个地方。他们有些人继续留下来从事自己最热爱的研究,有些人选择离开去领导更大的团队做产品开发,有些人选择到大学任教,有些人则选择在中国这片创业热土圆梦。
命运自有时。如今研究院的愿景落在了醉心于科研的技术信仰者身上。说来宿命的是,就像某种轮回,当人工智能的概念挥别往日的“扭捏”而摇身蜕变为技术界的狂欢,这里的研究员或许比十八年前的前辈更为幸运。他们赶上了人工智能的黄金年代,可以肆意挥洒禀赋,紧跟这一技术的变迁孕育更多可能,且已收获颇丰。
随意摘取几例。去年底在ImageNet计算机视觉识别挑战赛——这一行业标杆属性的赛事上,微软亚洲研究院视觉计算组凭借深层神经网络技术的突破(使用了一种深度高达百层的神经网络,这要比过往任何成功使用的神经网络层数多5倍以上),获得图像分类,图像定位以及图像检测全部三个主要项目的冠军。几乎同一时刻,他们在另一项图像识别挑战赛MS COCO中的图像检测和图像分割项目上同样登顶——而一年过去,今年10月,他们在MS COCO图像分割挑战赛中获得第一名,成绩比第二名高出11%,且相较去年第一名的成绩也有飞跃进步。
在用户一端,承载技术的是应用——这也是微软亚洲研究院近些年最令人欣喜的地方。
去年,在中国登陆的Skype Translator实时语音翻译技术,就凝聚了研究院在语音识别,自动翻译和机器学习等多领域的成果,让世界上使用人数最多的语言和使用最广泛的语言直接对话成为可能。
而在风靡全球的(识别图片中人物的年龄)、(智能识图网站)等应用,同样基于研究院深耕多年的人脸识别技术。
当然,谈及人工智能应用,刷屏无数的小冰是绕不开的名字。抛开插科打诨不谈,我个人更看重的是它与其他行业的嫁接空间。譬如今年9月,小冰就进驻了“敦煌研究院”微信,摇身变为“敦煌小冰”,言谈之间告知人们关于敦煌的一切知识。嫁接得以实现,一项关键技术是微软亚洲研究院推出的自主知识学习技术(Doc Chat):一种基于检索与排序直接从非结构化文档中选取句子作为聊天机器人回复的方法。这一技术也已运用于今年8月发布的第四代微软小冰跨平台商业解决方案,可让小冰更轻松地学习不同领域知识,完成更多嫁接可能。
尽管换了“标题”和讲述者,但这里与人工智能从十八年前开始诉说的故事仍在继续。
基因传承
故事得以延续的前提是传承,研究为先,自由开放的环境与体系得以让这里相对纯粹的“传帮接带”。
事实上,那些离开的人几乎无一例外地珍视这段纯粹的职业生涯。而当他们追忆微软岁月,“感谢”与“传承”总是并列出现。“在现在的创业路上,研究院的文化氛围也深深的影响着我们的公司文化,感谢研究院,感谢当年指导我们的Mentors,感谢一起实习的小伙伴们。”已在创业的蔡东翔院友这样说道,“希望Mentor文化可以在院友会得到一个很好的传承。”
同样作为院友,清华大学计算机系副教授朱军则将传承细化:“我在研究院实习3年多……现在还清晰记得,第一天面试时问我‘为何读博士?’,这成了我现在面试学生必问的题目。Harry(沈向洋)的‘work hard, play harder’是我记得最清楚的一句话,现在也拿来教育学生。”
传承仍在继续。在不少院友看来,如今,院友会的成立可以发挥桥梁与纽带作用,分享经验与资源,甚至在某些奇特的瞬间感到从未离开过一样。这有点像是管理界颇为盛行的联盟关系,当人们离开一个地方,可以通过“同事联络网”成为这个地方的支持者和外部资源,并将它身上的基因散播到更远处。
好吧,也许正如罗振宇所说:世界上至少有两种游戏,一种是有限游戏,一种是无限游戏。有限游戏以游戏结束为目的,比的是谁能赢;无限游戏则是让游戏本身继续下去,而不是让谁赢,卷入的资源越多,参与的人数越多,游戏就能继续下去,这才是无限游戏的目标,也正是那些“老公司”的价值所在。
在我看来,这也正是微软亚洲研究院——这一席“流动的盛宴”,留给技术世界的真正财富。
李北辰/文(知名科技自媒体,致力于用文字优雅的文章,为您提供谈资与见识;微信公号:李北辰)
S君临天下
漏译的原因是什么,如何解决这个问题?这方面有很多工作,下面我就从几个方面去讲一下。我们今年有一篇论文从数据方面去分析。我们发现漏译与词语的熵成正相关关系,这个词的熵越大,漏译的可能性越大。它所对应的目标语言词越多,概率越分散(熵越大),越有可能被漏译。左边的例子,S1对应3种不同的翻译,(s1,t1) (s1,t2) (s1, t3 t4),它的熵就比较大。我们把所有对应的翻译统一替换为一个特殊词『stoken4s1』,以降低词语翻译的熵值。右边呢是我们提出来的三种方法,去改善翻译结果,包括pre-training, multitask learning, two-pass decoding。大家有兴趣的话,可以去看论文。从实验结果来看,相比Transformer,在中英翻译质量上有显著提高,高熵值词语的漏译比例显著下降。数据稀疏第二个挑战就是数据稀疏。相比于统计机器翻译,这个问题对神经网络翻译而言,更严重。实验表明,神经网络对于数据量更敏感。针对数据稀疏问题,我们提出了一个多任务学习的多语言翻译模型。在进行多语言翻译的时候,源语言共享编码器,在解码端,不同的语言,使用不同的解码器。这样在源语言端就会共享编码器的信息,从而缓解数据稀疏问题。后来,加拿大蒙特利尔大学、Google等在此方向上陆续开展了多个工作。实验表明,我们的方法收敛更快,翻译质量也明显提高。更多细节,请阅读论文。这篇论文是2018年EMNLP上的best paper,提出了一个统一的框架。A)里面蓝色的点和红色的点分别代表两种不同的语言句子。如何通过两种语言的单语数据构建翻译系统呢?首先我要做一个初始化,B)是初始化。首先构建一个词典,把这两种语言之间的词做一下对齐。C)是语言模型,基于单语数据,可以训练语言模型,用来衡量这个语言的流利度。那么D)是什么? D)是一个称作Back Translation的技术,是目前大家常用的一个用于增强数据的方法。用B)初始化后构建的一个词典,就可以从一种语言翻译为另外一种语言,哪怕是先基于词的翻译。然后,用另外一种语言的语言模型去对译文进行衡量。然后把得分高的句子挑出来,再翻译回去,这一过程称作Back Translation,然后再用原来那种语言的语言模型去衡量这个句子好还是不好。这样一轮一轮的迭代,数据就会变得越来越好,系统翻译质量也会越来越好。引入知识第三个挑战就是引入知识,如何将更多丰富的知识引入翻译模型是机器翻译长期面临的挑战。这个例子中,中文句子中『横流』对应到目标语言端是没有翻译出来的,用一个特殊的记号叫UNK(Unknown Word)来标记。那么我们做一个什么样的工作呢?我们引入了几种知识,第一种就是叫短语表或者叫词表。如果发现『横流』这个词没有被翻译出来,我们就去查这个词典,这个词典就作为一个外部知识被引入进来了。同时,那我们还引入了一个语言模型,语言模型去衡量目标语言的这个句子是不是流畅。同时,我们引入一个长度奖励特征去奖励长句子。因为句子越长,可能漏掉的信息就越少。这个工作首次将统计机器翻译中的特征引入神经网络翻译,可以作为引入知识的一个框架。但是目前来说,引入知识还是比较表层的。知识的引入,还需要更多更深入的工作。比如说这个例子, 这个句子是存在歧义的。『中巴』 在没有给上下文的时候,是无法判断『巴』是哪个国家的简称。但是下面的句子,有一个限定,“金砖框架”。这个时候,人们就知道该如何翻译了。但是,机器能不能知道?大家可以去翻译引擎上去验证。因为人是知道中国跟哪些国家是金砖国家,但是机器没有这个知识。怎么把这个知识交给机器去做,这是一个非常挑战的问题。还有一个挑战,是可解释性:神经网络翻译到底是神还是神经?虽然人们可以设计和调整网络结构,去优化系统,提高质量。但是对于该方法还缺乏深入的理解。也有很多工作去试图研究网络内部工作机理。清华大学有一篇文章从注意力的角度去进行研究。比如左边的例子,出现了一个UNK,那个UNK是怎么产生的,它虽然没有被翻译出来,但是出现在正确的位置,占了一个位置。通过Attention对应关系,可以看到这个UNK对应到『债务国』。右边例子是一个重复翻译的现象。神经网络机器翻译除了经常漏翻译之外,还会经常重复翻译。比如说出现了两个“history”。那么通过这个对应关系我们就可以看到,第6个位置上的“history”是重复出现的,它的出现不仅跟第一个位置“美国人”和第二个位置“历史”相关,还跟第5个位置“the”相关。因为产生了一个定冠词“the”,模型认为这个地方应该出现一个“history”,这篇文章对这样的例子进行了大量的分析,并且给出了一些分析结果和解决方案。如需进一步了解,可以看原始论文。还有第五个挑战 ,是机器翻译长期以来面临的挑战,语篇翻译。大部分的翻译系统现在所使用的翻译方法都是基于句子,以句子作为单位,一个句子一个句子的进行翻译。单看这三个句子翻译还可以接受。但是连起来看就觉得生硬不连贯。语篇翻译还有第五个挑战 ,是机器翻译长期以来面临的挑战,语篇翻译。大部分的翻译系统现在所使用的翻译方法都是基于句子,以句子作为单位,一个句子一个句子的进行翻译。单看这三个句子翻译还可以接受。但是连起来看就觉得生硬不连贯。我们的方法输出的结果。可以看到,定冠词、代词的加入提升了句子间的连贯性。我们提出了一个两步解码的方法。在第一轮解码中单独生成每个句子的初步翻译结果,在第二轮解码中利用第一轮翻译的结果进行翻译内容润色,并且提出使用增强式学习模型来奖励模型产生更流畅的译文。这是我们系统输出的一个结果,整体上,流畅度提高了。原文链接:打开CSDN,阅读体验更佳机器翻译技术的瓶颈提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言概述一、机器翻译的瓶颈在哪里?二、是否存在第四代机器翻译?三、自然语言处理的可解释性研究之争四、观众问答环节Q1:如何加入先验知识,引入外部知识或融合专业术语是不是一种途径?Q2:有没有可能现在已经出现了一些能超过 Transformer 的模型,但是这种WMT数据加上 BLEU 值的评测手段不能体现出其优势,未来应该设计怎样的评测手段,从而更好地推动机器翻译的发展?Q3:非常认同张民老师认为「翻译是再创造过程」的观点,其实从规继续访问ACL 2018 | TA-NMT:利用大语种语料,提升小语种神经机器翻译能力编者按:随着神经机器翻译的快速发展,英语、法语等大语种之间的翻译任务已经能够达到良好的翻译效果,而小语种的翻译仍然是一个难题。与大语种丰富的语料数据相比,小语种机器翻译面临的主要挑战是语料的稀疏性问题。为了更好地解决这一问题,微软亚洲研究院自然语言计算组提出了一个呈三角结构的神经机器翻译模...继续访问EMNLP 2019 | 大规模利用单语数据提升神经机器翻译BDTC大会官网:作者 | 吴郦军、夏应策来源 | 微软研究院AI头条(ID:MSRAsia)编者按:目前,目标语言端的无标注单语数据已被广泛应用于在机器翻译任务中。然而,目标语言端的无标注数据一旦使用不当,反而会给模型结果带来负面影响。为了有效利用大规模源语言端和目标语言端的单语数据,微软亚洲研究院在 EMNLP 2019 上发表的论文中,提出一...继续访问腾讯AI Lab涂兆鹏:如何提升神经网络翻译的忠实度 | 附PPT + 视频本文为 1 月 4 日,腾讯 AI Lab 高级研究员——涂兆鹏在第 22 期 PhD Talk 中的直播分享实录。机器翻译是自然语言处理的经典任务之一,涉及到自然语言处理的两个基本问题:语言理解和语言生成。这两个问题的建模直接对应译文的两个评价指标:忠实度(是否表达原文的完整意思)和流利度(译文是否流畅)。近几年来,神经网络机器翻译取得了巨大进展,成为了主流模型。神经网络由于能缓解数据稀疏性及捕继续访问干货 | 关于机器翻译,看这一篇就够了作者简介俞谦,携程度假大数据研发部算法工程师,主要负责机器翻译的研究与应用,目前专注于自然语言处理在垂域下的成熟解决方案。机器翻译技术的发展一直与计算机技术、信息论、语言...继续访问人工神经网络的算法原理,人工神经网络算法实例人工神经网络的优缺点人工神经网络由于模拟了大脑神经元的组织方式而具有了人脑功能的一些基本特征,为人工智能的研究开辟了新的途径,神经网络具有的优点在于:(1)并行分布性处理因为人工神经网络中的神经元排列并不是杂乱无章的,往往是分层或以一种有规律的序列排列,信号可以同时到达一批神经元的输入端,这种结构非常适合并行计算。(3)鲁棒性和容错性由于采用大量的神经元及其相互连接,具有联想记忆与联想映射能力,可以增强专家系统的容错能力,人工神经网络中少量的神经元发生失效或错误,不会对系统整体功能带来严重的影响。..继续访问神经翻译笔记5扩展b. 常用的机器翻译技巧文章目录神经翻译笔记5扩展b. 常用的机器翻译技巧组合解码单语数据应用重排序领域适配参考文献 神经翻译笔记5扩展b. 常用的机器翻译技巧 本节介绍提升机器翻译系统效果的常见手段。这些手段有些实际上是深度学习的通用技巧,有些在神经翻译出现后不久就被人提出,经过若干发展沿用至今,有些甚至在统计翻译时代就已出现。无论如何,这些手段独立于模型架构存在,都不仅能够增强模型效果,还展现了顽强的生命力以及良好的通用性 本节参考了Koehn的NMT综述、、三小节的内容,并根据个人喜好作了继续访问从冷战到深度学习,一文看懂机器翻译发展史点击上方“CSDN”,选择“置顶公众号”关键时刻,第一时间送达!CSDN编者友情提示:完成本篇阅读至少需要消耗一周能量,请提前收藏~~~图片来源于网络通常来讲,我打开Google翻译的次数是Facebook的两倍,对我来说即时翻译不再是“赛博朋克”专属的情节,它已经成为我们现实生活的一部分。很难想象,经过一个世纪的努力机器翻译的算法竟得以实现,期间甚至有一半的时间我们都觉察不到这项科技的发展。从搜继续访问机器翻译的局限一、多义性识别上的困难多义性指的是人们交际中所发出的信息在不同的语境下可以表现出多种不同的意义。这是机器翻译要解决的最基本的,也是最难解决的一个问题。如,今天是星期六对丈夫说,可能表示提醒孩子对父母说,可能表示这个孩子想放松,想要出去玩。老板对打工者说,可能表示今天上班算加班。从疲劳过度的学生口中说出来,可能表示今天向睡个懒觉。以上所局还可能有更多的例子,但是单单是这些继续访问神经网络机器翻译技术及应用(上)何中军,百度机器翻译技术负责人。本文根据作者2018年12月在全球架构师峰会上的特邀报告整理而成。 本报告分为以下5个部分: 机器翻译基本原理,介绍机器翻译原理、主要挑战、发展历程,及评价方法 神经网络机器翻译,介绍近年来迅速崛起的神经网络机器翻译 技术挑战,尽管神经网络机器翻译取得一系列较大的进展,但是仍然面临诸多挑战; 典型应用,机器翻译在生产、...继续访问论机器翻译之浅薄翻译 | shawn编辑 | 波波、费棋【AI科技大本营导读】尽管机器翻译明显玩不转备受期待的长篇内容,但我们得承认,在快速获知单词含义层面,它确实为人们提供了一定便利。可奇怪的是,无论媒体报道还是行业中都似乎营造了一种机器翻译马上要取代人类译者的气氛,这给了人们一种快要成了的错觉。有人要揭开盲目乐观的面纱,因《哥德尔、埃舍尔、巴赫》一书而获得普利策奖的美国学者侯世达是其中之一。他以自己亲身体继续访问机器翻译技术现状评述与展望 | 行业观察今天,你AI了没?关注:决策智能与机器学习,每天学点AI干货正文共:2497字7图预计阅读时间:7分
近日,由国际权威 财经 杂志《亚洲银行家》主办的“ 2020 中国未来金融峰会”在深圳举行。北京银行和平凯星辰凭借双方在金融 科技 领域上的技术创新与卓越成效,
哎,范小姐如今还拿上亚洲版封面炒作实在太low了。十几年前就有多位明星上过time的美国版封面了,对你没看错,是美国版。巩俐是第一位1996年王菲是第二位,周润
征信市场的研究论文篇三 《我国征信市场的培育与发展》 摘要:自20世纪90年代以来,我国信用市场经过十几年的风风雨雨,已逐步走向成熟,征
学术堂整理了十五个关于钓鱼岛问题的题目,供大家参考:1.从国际法论中日钓鱼岛争端及其解决前景2.国际海洋法争端解决机制对钓鱼岛争端的影响3.美国对中日钓鱼岛争端
在谷歌学术搜索中,存有高达4亿篇论文的数据库。论文被引用的数据可以作为证明文章影响力的依据。即使这个方法有局限性,但在更大程度上,反映了当今社会的进展和科学的进