吾竟谁陈
结构化存储(structured storage systems)的历史非常古老,典型的场景就是事务处理系统或者关系型数据库(RDBMS)。传统的结构化存储都是从单机做起的,比如大家耳熟能详的 MySQL。有句话说:MySQL的成长史就是互联网的成长史。这一点也不为过。除了 MySQL 之外,PostgreSQL 也是近几年来势头非常强劲的一个 RDBMS. 我们发现,传统的结构化存储系统强调的是:结构化的数据(例如关系表)。强一致性 (例如,银行系统,电商系统等场景)随机访问(索引,增删查改,SQL 语言)。然而,正是由于这些性质和限制,结构化存储系统的可扩展性通常都不是很好,这在一定程度上限制了结构化存储在大数据环境下的表现。随着摩尔定律面临的瓶颈,传统的单机关系型数据库系统面临着巨大的挑战。不过真的没办法了吗.在此我们先埋下一个伏笔)非结构化存储(no-structed storage systems). 和结构化存储不同的是,非结构化存储强调的是高可扩展性,典型的系统就是分布式文件系统。分布式文件系统也是一个古老的研究话题,比如 70 年代的 Xerox Alto, 80 年代的 NFS, AFS, 90 年代 xFS 等等。然而,这些早期的分布式文件系统只是起到了网络磁盘的作用, 其最大的问题就是不支持 容错 (fault tolerance)和 错误恢复 (fault recovery)。而 Google 在 2003 年 SOSP 上推出的 GFS (google file system) 则是做出了里程碑的一步,其开源实现对应为 HDFS. GFS 的主要思想. Google 设计 gfs 最初的目的是为了存储海量的日志文件以及网页等文本信息,并且对其进行批量处理(例如配合 mapreduce 为文档建立倒排索引,计算网页 PageRank 等)。和结构化存储系统相比,虽然分布式文件系统的可扩展性,吞吐率都非常好,但是几乎无法支持随机访问(random access)操作,通常只能进行文件进行追加(append)操作。而这样的限制使得非结构化存储系统很难面对那些低延时,实时性较强的应用。
miamia小牛牛
随着大数据分析市场迅速渗透到各行各业,大家对大数据的关注度也越来越高,大数据技术是什么?
1.Hadoop
Hadoop确实是现在着名的大数据技术.
从2003年到2004年,谷歌发表了GFS、Mapreduce和BigTable三篇技术论文(这几篇论文成为云计算、大数据领域发展的重要基础).
当时,由于公司破产在家的程序员DougCutting基于前两篇论文,开发了简化的山寨版GFS——HDFS和基于MapReduce的计算框架.这是Hadoop当初的版本.
之后,Cutting被Yahoo雇佣,依靠Yahoo的资源改善Hadoop,为Apache开源社区做出贡献.
简要说明Hadoop原理:数据分布式存储,运算程序分别发送到各数据节点进行运算(Map),合并各节点的运算结果(Reduce),产生结果.
对于移动TB级数据,计算程序一般为KB--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
在其诞生近十年来,Hadoop以其简单、易用、高效、免费、社区支持丰富等特点成为许多企业云计算、大数据实施的优先事项.
2.Storm
Hadoop很好,但有死穴.其一,其运算模式是批处理.这对许多有实时要求的业务没有很好的支持.
浮生若梦762
不推荐看理论性很强的书(不意味着不需要掌握)。找个你感兴趣的开源工具,然后看看他的document和论文,读读源码,用一用。不只要知道很多分布式的工具可以做什么,最重要的还是自己要深入一个。有广度有深度,领会某个优秀工具设计上的理念。先看看google的mapreduce,bigtable那几篇经典的论文。不要太多,要选择经典。因为绝多数都不怎么样。然后选择简单和成熟的分布式系统玩玩,写几个简单的程序。并对他们敢兴趣的地方看看源代码。然后就是想想已有系统有什么不好的地方进行一下修改。所有的系统都是tradeoff的产物,所以你总是可以找到性能提升的地方。中途会遇到很多bug,多问问论坛。也会遇到理论上的不足,这个时候有针对性的看论文或者书籍。大致如此吧!
发明于战国时期。可以用来进行装修,可以用来进行装饰,可以用来代替玻璃,也可以用来进行陪葬,还可以用来制作一些首饰。
以下哪个产品使用了HDFS作为基础,那个你的选项都没有发出来,然后不知道怎么选哪一个呀。
中美正式建交是1979年1月1日 签订的《中华人民共和国和美利坚合众国关于建立外交关系的联合公报》(《中美建交公报》)1973年什么都没有1972年2月28日签
没有那么多汉语中究竟有多少日语外来词?这是许多网友纠结的问题。这并不是像日本人所说的因为“中国人自卑”,而是日本人自卑。他们拿不出什么来说事,只能纠缠于汉语中的
明代依附于宦官权势的官僚所结成的政治派别。明朝宦官专权十分严重。英宗时的宦官王振,宪宗时的宦官汪直皆曾树有党羽,但至武宗时宦官刘瑾专权,阉党势力始形成。熹宗时期