aws发表论文

6个回答默认排序

默认排序

按时间排序

明天星期天

已采纳

CS7680著名的9个论述也是这门课推荐对于分布式系统的一个初步认识 windows live的架构师james总结一系列大型后台服务的设计原则CAP 准确说是一篇blog，很精简，文字也不多，其实文中的图比文字更清晰。cap的理解也经历了一些纠结的过程，这一篇其实是作者多年后的二次理解。所以出错其实没啥问题，这位老板就完全推翻了之前文章里的阐述也是通俗易懂的入门介绍cap的blog brewer多年以后写的关于cap的一些误解，C和A并不是完全对立的状态是对上面这片文章的review心得开始用了两个新名词来阐述A)yield, which is the probability of completing a request .感觉说的就是AB)harvest ,measures the fraction of the data reflected in the response.感觉说的就是C这篇论文对于available提出里两个比较好的方案：1)牺牲harvest换来yield2）应用架构拆分和正交机制BASE base一致性的开山鼻祖，首次提出了和acid相反的一种理论，论文中给出了一些单机事务到多机事务的演进过程，并没有觉得很理论，工程很值得借鉴一致性一致性的模型，高屋建瓴，是一篇blog 概述的文章先看看sequential consistency lamport大神不用过多的介绍，读他的论文唯一的感受就是智商的差别吧也是线性一致性的文章作者在cmu发表的eventual consistency最终一致性的文章首推 aws的cto 讲了一些高可用和一致性之间的trade-off 描述了最终一致性和因果一致性的关系 consistency Bolt-on的架构设计 cops的架构设计一个causal consistency的db设计与实现从前三篇文章的作者来看，ucb & cmu&priceton 还是很值得一读的最后一篇的年代已经久远，其实发现计算机的一些理论基础其实是很经得起时间的考验的，所以码农其实也可以过的没有那么的有危机感^_^ 这个是最后一篇论文的ppt版本 consistency分布式锁 Google出品的chubby 必属精品 Yahoo的zookeeper分布式kv存储 Google三驾马车之一bigtable,hbase的蓝本 Google三架马车之二gfs，hdfs的蓝本 Google三架马车之三bigtable，hbase的蓝本现代很多的kv设计或多或少的都参考了先驱dynamo的设计，值得刷10遍以上。读后感 2009年Cassandra设计的论文，很多思想借鉴了dynamo，对于一致性哈希的吐槽也高度类似。在replication的过程中，也会通过一个coordinator节点（master节点）来对其他节点进行replicate（这一点和dynamo一样），但是Cassandra提供了一系列的replicate policy可以选择，比如 Rack Unaware, Rack Aware (within a datacenter) and Datacenter Aware. Cassandra也沿用了dynamo里面关于preference list的定义 ucb出的一篇高性能的kv存储，号称比redis快几十倍，使用coordination-free consistency models。虽然说是特别快，但是其实业界的是用并不广泛时间序列的数据库的一篇介绍，介绍了几个应用场景 iot ebay等，influxdb的介绍比较了业界的几种TSDB的异同无论是kv还是传统的关系型数据库，在分布式系统里面无非都会涉及到以下这几方面replication 指出了一种在replication中存在的问题，并给出了解决方案partition&shard分区都逃不了一致性哈希，被引用度特别高的一篇文章,但是这个版本也是被吐槽最多的，dynamo吐槽过，Cassandra也吐槽了一把1）First, the random position assignment of each node on the ring leads to non-uniform data and load distribution.2）Second, the basic algorithm is oblivious to the heterogeneity in the performance of nodes.解决方案1）One is for nodes to get assigned to multiple positions in the circle (like in Dynamo) dynamo用的就是这种方法2）the second is to analyze load information on the ring and have lightly loaded nodes move on the ring to alleviate heavily loaded nodes 这种方法被Cassandra采用 2）用的方法也就是这片论文提出的方法memshipfailure detectupdated conflictsimplement关于实现这篇论文的出镜率特别高，里面的思想被Cassandra和dynamo都采用了，作者也是提出cap的大神Eric Brewer（第三作者），值得反复研读这个是2019年Google提出的一种有状态的kv存储的思路。在工业界的下个请求依赖于上一个请求的情况数据库查询优化器现在很火的kafa最初设计的论文，细节有些已经被优化，基本的架构还是很值得反复研读。比如In general, Kafka only guarantees at-least-once delivery. Exactly once delivery typically requires two-phase commits and is not necessary for our applications最初kafka只是支持at-least的delivery, 但是不支持exactly once的投递，具体哪个版本开始支持有点记不清了分布式文件系统除了大名鼎鼎的gfs 分布式文件系统已经走过了好几十个年头了 1990年的coda，在很多的论文中出镜率非常高，后面的fs也借鉴了coda的一些思想分布式事务&事务隔离级别引用率很高的一篇文章这里面也引用了下面的这篇文章中关于事务隔离级别P0，P1的引用，看之前可以先看下面这篇文章。比如，脏写，脏读，不可重复读&fuzzy读，幻读等读未提交保证了写的串行化，注意只是写的串行化（并不能保证读写的串行化，依然有可能产生脏读），下面这篇论文里面是避免了脏写的操作。如何处理写的冲突呢？打时间戳或者last write win的方式都是可行的不管是怎么讲事务隔离级别，最原生的味道是这一篇，其他的文章都是咀嚼过吐出来的其中也参考了里面阐述了很多隔离级别的标准共识算法 paxos的simple版本，原来的版本太晦涩，lamport大神自己可能发现之前写的太高深了，写了一个通俗易懂的版本 hermes 这个是精简版的raft 里面有些概念如果理解起来吃力可以看下作者的博士毕业论文里面有download的连接，以下的几篇文章都是raft的推荐 raft 的分析文章 verdi的实现 raft一致性的分析名字服务 zk最初设计的论文，感觉比市面上的一些中文材料好懂，推荐关于consul以及名字服务的实践，medium上面有两篇比较好的文章A Practical Guide to HashiCorp Consul — Part 1 | by Velotio Technologies | Velotio Perspectives | MediumA Practical Guide To HashiCorp Consul — Part 2 | by Velotio Technologies | Velotio Perspectives | Mediumetcd(94) Introduction to etcd v3 - YouTube 一个youtube上的视频比较清楚的介绍了etcd的设计思路etcd保证了强一致性，这一点感觉和consul不太一样高可用性watchable . 这一点和zk比较像，但是consul是使用gossip进行通知的(94) Deep Dive: etcd - Jingyi Hu, Google - YouTube 讲了etcd是如何使用raft来保证一致性的应用在名字服务里面的gossip protocol开始读到这些论文一直不太理解可以应用到那些地方，后面看到consul在使用gossip来进行memship的管理，基本的原理参考了论文：SWIM.pdf (cornell.edu)后来发现如果cpu的负载如果过高，很可能出现误判的情况1707.00788.pdf (arxiv.org) 这篇论文里面比较好的解决了这个问题

269 评论 1小时前发布

尐籹孒16

在大部分美国人心目中，文理学院往往代表着经典、小规模、高质量的本科教育。大多数文理学院都是私立院校，规模较小，数百人到三千人左右。学校通常坐落于小镇、郊区，类似于国内的县级行政区，少数位于城市中。大多数文理学院只提供本科教育，极少数提供研究生学位。文理学院学费普遍较高，一年5-6万美金很常见，甚至有些学校能到7万。

246 评论 11小时前发布

为萍伤心航

分布式工程学是一门实践性很强的工科学。所以会出现与其他工科一样的现象就是实践会先于理论。在1960年末被公认为是第一个分布式系统的ARPANET就诞生于美国[1]。在美国50年代到60年受曼哈顿计划的影响，计算机理论迎来了大爆炸的时代。在那个年代发明了我们今天所用到的大部分计算机理论。作为一个新兴学科，当年的科学家大都是刚刚毕业正是壮年。而今他们大多已经是高龄老人，有些科学家则已经离世。在这里向哪些为计算机理论作出贡献的科学家们表示敬意。

329 评论 12小时前发布

小胖子老头

对于本科阶段教学来说，有些文理学院还是很牛的

259 评论 12小时前发布

Q吃吃吃买买买

文理学院一般来说规模都比较小但是教学水平不错这类院校只提供学士学位，它的课程设置，专业方向和学术研究侧重于文科教育。而且，绝大多数是私立的。它们不参加大学（University)的排名，而只有文理学院(Liberal Arts Colleges）的排名。这类学院是按全美国范围进行排名的，排在前50的是顶尖的文理学院，其教学质量，竞争激烈程度同样和一流的大学一样。一般前100位左右的都是很优秀的院校。文理学院(Liberal Arts Colleges）在美国有二，三百所，这些学院历史悠久，排名在前50名大多数都有一百多年的历史。学校比较小，每年招生几百名，基本上只有本科。进入这些学校并不容易，许多文理学院的招生分数都和一流大学一样高。大多数学生对文理学院知道很少，比如卫斯理学院（Wellesley College), 这个在文理学院排名第四，首屈一指的女校。希拉里（Hillary Clinton), ABC的女主播 Diane Sawyer和宋美龄都毕业于此校。虽然许多文理学院偏重于文科，如：英语，历史，国内及国际政治，经济等学科，但也有少数的工科学院，比如加州的Harvey Mudd College就是个纯工科学院，进此校的难度几乎和州和麻省理工学院一样。文理学院优点：仅仅提供本科教育，学校的重点是教学，而不是科研，因此教师能够集中精力进行教学，而不必花费大量的精力从事科学实验和论文发表。同时，由于文理学院的规模小，师生间互动密切。这对培养学生的沟通能力和领导能力，都非常有帮助。学生在接受了四年高质量的通才教育后，或进入社会，或进一步进入研究生院深造，都相当受欢迎文理学院缺点：私立学校的学费比公立学校贵，但是，由于申请文理学院的学生家庭经济情况较好，所以比较容易得到助学金（financial aid）；缺少多元化，主要以当地学生为主，学院里学生没有其他大学那么多。在本科教育方面，最好的文理学院和常春藤学校相比毫不逊色，其中，Amherst,Williams,Wesleyan被称为三小，和三大（Harvard,Yale,Princeton）相对，常春藤另外5所尚不能与其相比。美国的流行说法：HYP,AWS，分别指的是Harvard,Yale,Princeton,Amherst,Williams,Swarthmore.

88 评论 12小时前发布

ellegirlme

智东西（公众号：zhidxcom）编 | 王小溪

导语：亚马逊的研究人员研究出的AI文本规范系统可代替人工编写规则，让文本规范化过程的错误率降低81%。

智东西5月18日消息，据外媒报道，亚马逊的研究人员研究出了新的算法，这种算法能更好地实现文本规范化（Text Normalization，TN），让Alexa更快、更好地理解不同语言的指令。

文本规范化是指将文本中的数字、符号、缩写等的不同描述方式转化为统一的语言文字。举个简单的例子，“20%”在英文TTS（text-to-speech synthesis，从文本到语音）系统里则会被转换成“twenty percent”。

据研究人员Alexa AI部门应用科学家Ming Sun称，相比于现有的最佳神经系统，他和同事研究的AI文本规范系统能将文本规范化的错误率降低81%，并且还能将延迟时间减少63%。此外，子字单元使AI模型能够更好地处理以前没有见过的输入单词。

在论文《Neural Text Normalization with Subword Units》中，Ming Sun更细致地呈现了他和同事的研究成果。

文本规范化是大多数自然语言系统中的基本处理步骤，它的主要功能是将文本中的数字、符号、缩写等的不同表达形式转换成统一的语言文字。

举个例子，在英语语境下，如果对亚马逊的语音助手Alexa说：“Book me a table at 5:00 p.m.（在下午5：00给我预订个餐位）”，这句话中的时间“5:00 p.m.”可能会被语音助手的自动语音识别器转录为“five p m”，并进一步转化为“5:00PM”。再比如，“6：30PM”会被转化为TTS系统所能识别的“six thirty p m”。

像这种从“5:00PM”到“five p m”的转化过程被称为文本规范化，反之则为反向文本规范化。

那么这些转化是如何达成的呢？

根据Ming Sun的说法，目前，亚马逊语音助手依赖于数千条日期、电子邮件地址、数字、缩写和其他表达的人工规范化规则。这个方法本还不错，但随着Alexa所涉及的交互范围不断增加，人工编写规则本质上成为一个很容易出错的过程。此外，随着Alexa不断增加对新的语种的应用，重新编写规则将是一项巨大的任务。

在论文中研究人员提出，将书面语言规范化为文本语言，存在以下困难：

1.人们很难获得训练机器学习模型的监督数据；

2.正如上文例子中显示的那样，书面文本具有歧义，在不同的语境转化可能需要不同的规范化方法。

为此，研究人员研究了一种由机器学习驱动的更具可扩展性的技术。有关该研究的论文将在今年的北美计算语言学协会（NAACL）的会议上展示。

在论文中，研究人员介绍文本规范化是会话系统中的一个重要步骤。它能将书面语言规范化为文本语言，以促进语音识别、自然语言理解以及从文本到语音的合成。

有限状态传感器（FSTs）通常用于构建处理文本规范化的语法。然而，将语言知识翻译为成机器所能理解的语法需要付出大量的努力。

以往的研究侧重于借助有限的词级语境对一个词或短语进行规范化，而孙明和刘玉宗在论文中提出的方法是直接对完整的句子进行规范化。

Ming Sun和他的同事们所提出的AI文本规范化系统，是将网络的输入和输出流中的单词分解成更小的字符串，这种字串符被称为子字单元（subword units）。这些子字单元能减少机器学习模型必须学习的输入数据量，并能很好的消除歧义。

他们研究的算法能用来识别最常出现的双字符单元和三字符单元，直到达到大约2,000个子字符的容量。这些单训练输出子字单元的AI系统，最终能拼接成完整的单词。

研究人员表示，在对来自公共数据集的500,000个示例进行系统训练之后，与先前所报告的性能最佳的机器学习系统相比，他们研究的系统能将文本规范化的错误率降低75%，不考虑词性、字母大小写等额外的信息，错误率可以降低81%，单词错误率仅为0.2％，并且它还能将系统的延迟时间减少63%。此外，子字单元能使AI模型能够更好地处理以前没有见过的输入单词。

亚马逊研究人员提出的新的AI文本规范化系统可改进文本规范化过程，单词错误率仅为0.2％，且能减少系统的延迟时间。

亚马逊目前一直在改进语音技术，让智能语音助手能不断扩大交互范围，并且可以理解更多种语言，此次技术如果能实现大规模扩散，将会让其语音助手Alexa变得更加智能。

论文链接：

文章来自：Venture Beat

340 评论 12小时前发布

aws发表论文

6个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

6个回答默认排序

默认排序

按时间排序