googlegfs论文发表

7个回答默认排序

默认排序

按时间排序

霍爾因斯基

已采纳

要了解什么是Hadoop，我们必须首先了解与大数据和传统处理系统有关的问题。前进，我们将讨论什么是Hadoop，以及Hadoop如何解决与大数据相关的问题。我们还将研究CERN案例研究，以突出使用Hadoop的好处。

在之前的博客“ 大数据教程”中，我们已经详细讨论了大数据以及大数据的挑战。在此博客中，我们将讨论：

1、传统方法的问题

2、Hadoop的演变

3、Hadoop的

4、Hadoop即用解决方案

5、何时使用Hadoop?

6、什么时候不使用Hadoop?

一、CERN案例研究

大数据正在成为组织的机会。现在，组织已经意识到他们可以通过大数据分析获得很多好处，如下图所示。他们正在检查大型数据集，以发现所有隐藏的模式，未知的相关性，市场趋势，客户偏好和其他有用的业务信息。

这些分析结果正在帮助组织进行更有效的营销，新的收入机会，更好的客户服务。他们正在提高运营效率，与竞争对手组织相比的竞争优势以及其他业务利益。

什么是Hadoop –大数据分析的好处

因此，让我们继续前进，了解在兑现大数据机会方面与传统方法相关的问题。

二、传统方法的问题

在传统方法中，主要问题是处理数据的异构性，即结构化，半结构化和非结构化。RDBMS主要关注于银行交易，运营数据等结构化数据，而Hadoop则专注于文本，视频，音频，Facebook帖子，日志等半结构化，非结构化数据。RDBMS技术是一种经过验证的，高度一致，成熟的系统许多公司的支持。另一方面，由于大数据(主要由不同格式的非结构化数据组成)对Hadoop提出了需求。

现在让我们了解与大数据相关的主要问题是什么。因此，继续前进，我们可以了解Hadoop是如何成为解决方案的。

什么是Hadoop –大数据问题

第一个问题是存储大量数据。

无法在传统系统中存储大量数据。原因很明显，存储将仅限于一个系统，并且数据正在以惊人的速度增长。

第二个问题是存储异构数据。

现在，我们知道存储是一个问题，但是让我告诉您，这只是问题的一部分。由于我们讨论了数据不仅庞大，而且还以各种格式存在，例如：非结构化，半结构化和结构化。因此，您需要确保您拥有一个系统来存储从各种来源生成的所有这些种类的数据。

第三个问题是访问和处理速度。

硬盘容量正在增加，但磁盘传输速度或访问速度并未以相似的速度增加。让我以一个示例为您进行解释：如果您只有一个100 Mbps I / O通道，并且正在处理1TB数据，则大约需要2.91个小时。现在，如果您有四台具有一个I / O通道的计算机，则对于相同数量的数据，大约需要43分钟。因此，与存储大数据相比，访问和处理速度是更大的问题。

在了解什么是Hadoop之前，让我们首先了解一下Hadoop在一段时间内的发展。

Hadoop的演变

2003年，道格·切特(Doug Cutting)启动了Nutch项目，以处理数十亿次搜索并为数百万个网页建立索引。2003年10月下旬– Google发布带有GFS(Google文件系统)的论文。2004年12月，Google发布了MapReduce论文。在2005年，Nutch使用GFS和MapReduce进行操作。2006年，雅虎与Doug Cutting及其团队合作，基于GFS和MapReduce创建了Hadoop。如果我告诉您，您会感到惊讶，雅虎于2007年开始在1000个节点的群集上使用Hadoop。

2008年1月下旬，雅虎向Apache Software Foundation发布了Hadoop作为一个开源项目。2008年7月，Apache通过Hadoop成功测试了4000个节点的集群。2009年，Hadoop在不到17小时的时间内成功整理了PB级数据，以处理数十亿次搜索并为数百万个网页建立索引。在2011年12月，Apache Hadoop发布了1.0版。2013年8月下旬，发布了2.0.6版。

当我们讨论这些问题时，我们发现分布式系统可以作为解决方案，而Hadoop提供了相同的解决方案。现在，让我们了解什么是Hadoop。

三、什么是Hadoop?

Hadoop是一个框架，它允许您首先在分布式环境中存储大数据，以便可以并行处理它。 Hadoop中基本上有两个组件：

1、大数据Hadoop认证培训

2、讲师指导的课程现实生活中的案例研究评估终身访问探索课程

什么是Hadoop – Hadoop框架

第一个是用于存储的HDFS(Hadoop分布式文件系统)，它使您可以在集群中存储各种格式的数据。第二个是YARN，用于Hadoop中的资源管理。它允许对数据进行并行处理，即跨HDFS存储。

让我们首先了解HDFS。

HDFS

HDFS创建一个抽象，让我为您简化一下。与虚拟化类似，您可以在逻辑上将HDFS视为用于存储大数据的单个单元，但是实际上您是在分布式方式下跨多个节点存储数据。HDFS遵循主从架构。

什么是Hadoop – HDFS

在HDFS中，名称节点是主节点，数据节点是从节点。 Namenode包含有关存储在Data节点中的数据的元数据，例如哪个数据块存储在哪个数据节点中，数据块的复制位置在哪里等。实际数据存储在Data Nodes中。

我还想补充一下，实际上我们复制了数据节点中存在的数据块，默认复制因子是3。由于我们使用的是商用硬件，并且我们知道这些硬件的故障率很高，所以如果其中一个DataNodes失败，HDFS将仍然具有那些丢失的数据块的副本。您还可以根据需要配置复制因子。您可以阅读HDFS教程，详细了解HDFS。

四、Hadoop即解决方案

让我们了解Hadoop如何为刚刚讨论的大数据问题提供解决方案。

什么是Hadoop – Hadoop即解决方案

第一个问题是存储大数据。

HDFS提供了一种分布式大数据存储方式。您的数据存储在整个DataNode的块中，您可以指定块的大小。基本上，如果您拥有512MB的数据，并且已经配置了HDFS，那么它将创建128MB的数据块。因此，HDFS将数据分为512/128 = 4的4个块，并将其存储在不同的DataNode上，还将在不同的DataNode上复制数据块。现在，由于我们正在使用商品硬件，因此存储已不是难题。

它还解决了缩放问题。它着重于水平缩放而不是垂直缩放。您始终可以根据需要随时在HDFS群集中添加一些额外的数据节点，而不是扩展DataNodes的资源。让我为您总结一下，基本上是用于存储1 TB的数据，您不需要1 TB的系统。您可以在多个128GB或更少的系统上执行此操作。

下一个问题是存储各种数据。

借助HDFS，您可以存储各种数据，无论是结构化，半结构化还是非结构化。由于在HDFS中，没有预转储模式验证。并且它也遵循一次写入和多次读取模型。因此，您只需写入一次数据，就可以多次读取数据以寻找见解。

Hird的挑战是访问和处理数据更快。

是的，这是大数据的主要挑战之一。为了解决该问题，我们将处理移至数据，而不是将数据移至处理。这是什么意思?而不是将数据移动到主节点然后进行处理。在MapReduce中，处理逻辑被发送到各个从属节点，然后在不同的从属节点之间并行处理数据。然后，将处理后的结果发送到主节点，在该主节点上合并结果，并将响应发送回客户端。

在YARN架构中，我们有ResourceManager和NodeManager。ResourceManager可能会或可能不会与NameNode配置在同一台机器上。但是，应该将NodeManager配置在存在DataNode的同一台计算机上。

YARN通过分配资源和安排任务来执行您的所有处理活动。

什么是Hadoop – YARN

它具有两个主要组件，即ResourceManager和NodeManager。

ResourceManager再次是主节点。它接收处理请求，然后将请求的各个部分相应地传递到相应的NodeManager，什么是大数据分析Hadoop在此进行实际处理。NodeManager安装在每个DataNode上。它负责在每个单个DataNode上执行任务。

我希望现在您对什么是Hadoop及其主要组件有所了解。让我们继续前进，了解何时使用和何时不使用Hadoop。

何时使用Hadoop?

Hadoop用于：

1、搜索 – Yahoo，亚马逊，Zvents

2、日志处理 – Facebook，雅虎

3、数据仓库 – Facebook，AOL

4、视频和图像分析 –纽约时报，Eyealike

到目前为止，我们已经看到了Hadoop如何使大数据处理成为可能。但是在某些情况下，不建议使用Hadoop。

352 评论 2小时前发布

火星的星星

随着大数据分析市场迅速扩展，哪些技术是最有需求和最有增长潜力的呢？在Forrester Research的一份最新研究报告中，评估了22种技术在整个数据生命周期中的成熟度和轨迹。这些技术都对大数据的实时、预测和综合洞察有着巨大的贡献。1. 预测分析技术这也是大数据的主要功能之一。预测分析允许公司通过分析大数据源来发现、评估、优化和部署预测模型，从而提高业务性能或降低风险。同时，大数据的预测分析也与我们的生活息息相关。淘宝会预测你每次购物可能还想买什么，爱奇艺正在预测你可能想看什么，百合网和其他约会网站甚至试图预测你会爱上谁……2. NoSQL数据库NoSQL，Not Only SQL，意思是“不仅仅是SQL”，泛指非关系型数据库。NoSQL数据库提供了比关系数据库更灵活、可伸缩和更便宜的替代方案，打破了传统数据库市场一统江山的格局。并且，NoSQL数据库能够更好地处理大数据应用的需求。常见的NoSQL数据库有HBase、Redis、MongoDB、Couchbase、LevelDB等。3. 搜索和知识发现支持来自于多种数据源(如文件系统、数据库、流、api和其他平台和应用程序)中的大型非结构化和结构化数据存储库中自助提取信息的工具和技术。如，数据挖掘技术和各种大数据平台。4. 大数据流计算引擎能够过滤、聚合、丰富和分析来自多个完全不同的活动数据源的数据的高吞吐量的框架，可以采用任何数据格式。现今流行的流式计算引擎有Spark Streaming和Flink。5. 内存数据结构通过在分布式计算机系统中动态随机访问内存(DRAM)、闪存或SSD上分布数据，提供低延迟的访问和处理大量数据。6. 分布式文件存储为了保证文件的可靠性和存取性能，数据通常以副本的方式存储在多个节点上的计算机网络。常见的分布式文件系统有GFS、HDFS、Lustre 、Ceph等。7. 数据虚拟化数据虚拟化是一种数据管理方法，它允许应用程序检索和操作数据，而不需要关心有关数据的技术细节，比如数据在源文件中是何种格式，或者数据存储的物理位置，并且可以提供单个客户用户视图。8. 数据集成用于跨解决方案进行数据编排的工具，如Amazon Elastic MapReduce (EMR)、Apache Hive、Apache Pig、Apache Spark、MapReduce、Couchbase、Hadoop和MongoDB等。9. 数据准备减轻采购、成形、清理和共享各种杂乱数据集的负担的软件，以加速数据对分析的有用性。10. 数据质量使用分布式数据存储和数据库上的并行操作，对大型高速数据集进行数据清理和充实的产品。

354 评论 10小时前发布

好吃的小蓝

实时处理 flink框架，批处理spark框架。

143 评论 11小时前发布

沈阳老五0459

简单点来说，就是Hadoop是继承了Google的MapReduce、GFS思想，开发出来的一套框架，后来又交给了Apache作为开源项目。MapReduce诞生于谷歌实验室，MapReduce与GFS、BigTable并称为谷歌的三驾马车，、而Hadoop则是谷歌三驾马车的开源实现。2003年，Google发表了一篇技术学术论文谷歌文件系统（GFS）。GFS是google公司为了存储海量搜索数据而设计的专用文件系统。2004年，Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。2004年，Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行分析运算。2005年，Doug Cutting又基于MapReduce，在Nutch搜索引擎实现了该功能。2006年，Yahoo雇用了Doug Cutting，Doug Cutting将NDFS和MapReduce升级命名为Hadoop，Yahoo开建了一个独立的团队给Goug Cutting专门研究发展Hadoop。

168 评论 12小时前发布

依钱钱512

这个只能说主流技术吧，不能说核心技术；现在国内很多公司大数据方面的主要使用时Hadoop生态圈内的技术，比如Hadoop、yarn、zookeeper、kafka、flume、spark 、hive、Hbase ,这些事使用比较多的，并不是说就只有这些技术，而且只是应用技术方便的，还有数据分析方向的等等。所以你这个问题首先就有问题，大数据是一个方向领域，就好比你问饮食是什么，饮食有哪些方面一样。

231 评论 12小时前发布

我最亲爱的12345

想学习大数据技术，是不是首先要知道大数据技术有哪些呢？也好知道自己未来应该往哪个方向发展，应该重点学习哪些知识？抽象而言，各种大数据技术无外乎分布式存储 + 并行计算。具体体现为各种分布式文件系统和建立在其上的并行运算框架。这些软件程序都部署在多个相互连通、统一管理的物理或虚拟运算节点之上，形成集群(cluster)。因此不妨说，云计算是大数据的基础。下面介绍几种当前比较流行的大数据技术：1.HadoopHadoop无疑是当前很知名的大数据技术了。2003年到2004年间，Google发布了关于GFS、MapReduce和BigTable三篇技术论文(这几篇论文成为了后来云计算、大数据领域发展的重要基石)。当时一位因公司倒闭赋闲在家的程序员Doug Cutting根据前两篇论文，开发出了一个简化的山寨版GFS – HDFS,以及基于其的MapReduce计算框架，这就是Hadoop当初的版本。后来Cutting被Yahoo雇佣，得以依赖Yahoo的资源改进Hadoop,并将其贡献给了Apache开源社区。简单描述Hadoop原理：数据分布式存储，运算程序被发派到各个数据节点进行分别运算(Map)，再将各个节点的运算结果进行合并归一(Reduce)，生成结果。相对于动辄TB级别的数据，计算程序一般在KB – MB的量级，这种移动计算不移动数据的设计节约了大量网络带宽和时间，并使得运算过程可以充分并行化。在其诞生后的近10年里，Hadoop凭借其简单、易用、高效、免费、社区支持丰富等特征成为众多企业云计算、大数据实施的首选。2.StormHadoop虽好，却有其“死穴”.其一：它的运算模式是批处理。这对于许多有实时性要求的业务就无法做到很好的支持。因此，Twitter推出了他们自己的基于流的运算框架——Storm。不同于Hadoop一次性处理所有数据并得出统一结果的作业(job)，Storm对源源导入的数据流进行持续不断的处理，随时得出增量结果。3.SparkHadoop的另一个致命弱点是：它的所有中间结果都需要进行硬盘存储，I/O消耗巨大，这就使得它很不适合多次迭代的运算。而大多数机器学习算法，恰恰要求大量迭代运算。2010年开始，UC Berkeley AMP Lab开始研发分布式运算的中间过程全部内存存储的Spark框架，由此在迭代计算上大大提高了效率。也因此成为了Hadoop的强有力竞争者。4.NoSQL 数据库NoSQL数据库可以泛指非关系型数据库，不过一般用来指称那些建立在分布式文件系统(例如HDFS)之上，基于key-value对的数据管理系统。相对于传统的关系型数据库，NoSQL数据库中存储的数据无需主键和严格定义的schema。于是，大量半结构化、非结构化数据可以在未经清洗的情况下直接进行存储。这一点满足了处理大量、高速、多样的大数据的需求。当前比较流行的NoSQL数据库有MongoDB,Redis,Cassandra,HBase等。NoSQL并不是没有SQL,而是不仅仅有(not only)SQL的意思。为了兼容之前许多运行在关系型数据库上的业务逻辑，有很多在NoSQL数据库上运行SQL的工具涌现出来，典型的例如Hive和Pig,它们将用户的SQL语句转化成MapReduce作业，在Hadoop上运行。大数据产业已进入发展的“快车道”，急需大量优秀的大数据人才作为后盾。能够在大数据行业崛起的初期进入到这个行业当中来，才有机会成为时代的弄潮儿。

329 评论 12小时前发布

品嵊红木

第一阶段，运营式系统阶段。在上世纪七八十年代，用户购物时产生的记录一条条输入数据库，当时都是由这些运营系统生成这些数据的。

第二阶段，由用户原创内容阶段。2002年的时候，开始有了博客，后来发展成微博，到后来出现的微信，这些让每个网民都成了自媒体，都可以自己随心所欲地向网络发布相关的信息，这个时候数据产生的速度要远远大于之前的仅仅由运营系统产生的数据。

第三阶段，感知式系统阶段。真正让大数据时代由量变到质变是因为数据产生的方式到了第三个阶段——感知式系统阶段。

感知式系统阶段也就是物联网的大规模普及，物联网的迅速发展让大数据时代最终到来。

大数据是互联网发展到一定阶段的必然产物：

由于互联网在资源整合方面的能力在不断增强，互联网本身必须通过数据来体现出自身的价值，所以从这个角度来看，大数据正在充当互联网价值的体现者。

随着更多的社会资源进行网络化和数据化改造，大数据所能承载的价值也必将不断提到提高，大数据的应用边界也会不断得到拓展，所以在未来的网络化时代，大数据自身不仅能够代表价值，大数据自身更是能够创造价值。

233 评论 12小时前发布

googlegfs论文发表

7个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

7个回答默认排序

默认排序

按时间排序