• 回答数

    4

  • 浏览数

    166

hocc豆叮
首页 > 论文发表 > 谷歌发表三篇论文

4个回答 默认排序
  • 默认排序
  • 按时间排序

樱桃啃丸子:)

已采纳

等会让他赶紧染发剂对人体

296 评论

以哩哇啦

1、大数据进化论——在BI之外扩展新的业务边界

大数据不是绣花;它的主要任务是解决业务问题。从某种程度上说,大数据就是利用新的数据技术来拓展和优化业务。传统企业需要聚集一群人来研究这个问题。

如果你想在外部找到一个新的商业模式,如果你想在内部找到一个方案,你可以使用大数据来提高效率。

目前,在大数据可以创造价值的领域,互联网、制造业、公共服务、医疗保健、金融服务等行业有着广阔的前景。

从领域的角度来看,广告、营销、风险控制和供应链都是大数据可以发挥作用的地方。对于电信运营商等具体企业,大数据还可以在网络优化等方面提供新的方法。

大数据应用场景是企业需要思考的地方。传统BI的失败在一定程度上是由于技术对业务的推动和对传统BI使用数据能力的高估所造成的逆向现象。例如,许多油田不能使用传统的BI进行生产。

大数据也面临的大问题,但重要的是要注意,随着大数据的概念的普及和实际应用领域的扩展,对数据管理和业务人员的理解,经历了巨大的变化,和面向数据的思维已深深扎根于人们的思想,这是一个新的大数据。

没有业务,就没有大数据。

2、大数据进化论——颠覆BI,打造大数据技术引擎

这是目前大数据领域最热的地方。许多公司都在构建自己的大数据平台。他们只能解决以下问题。

例如Hadoop、流处理等技术可以解决海量结构化和非结构化数据的ETL问题。Hadoop、MPP等技术可以解决海量数据计算问题;有效阅读的问题可以通过Redis、HBASE等方法来解决。通过Impala等技术实现在线分析。

其实质是基于廉价机器,以分散和分布式的方式解决海量结构化和非结构化数据的存储、处理和读写问题。

要理解这个,我们只需要理解谷歌,谷歌文件系统,谷歌Bigtable,谷歌MapReduce这三篇论文。

然而,并不是每个企业都需要建立自己的大数据平台。你可以根据自己的能力做这件事。你可以自己做,比如BAT,你可以购买,比如传统的大企业,或者你可以租用,比如使用阿里云和AWS。

在技术,传统的BI ETL、数据仓库和OLAP技术,愿景声明,被淘汰的边缘,因为它不解决大量数据,包括结构化和非结构化、处理问题,所有的功能都可以取代相应的大型数据组件,所以没有更多的未来发展,大多数企业即使没有大数据业务驱动,但是大数据技术的成本优势,不要做大数据逆向传输是你使用的大数据技术,不是吗?

当然,传统的BI系统还会存在很长一段时间。毕竟,大数据的推广应用是一个漫长的过程,传统企业对大数据技术稳定性的担忧也是一个障碍。但至少,这种趋势是不可阻挡的。

我记得我的企业一年前使用DB2,一年后GBASE替换了它。我们总是低估了技术革命对我们的影响。

3、大数据进化论——重塑BI,完善人员知识结构

有了商业和技术,让我们再来看看人。很多企业都在努力打造大数据平台,但在搭建之后,发现它仍然是一个报告系统,或者说是原来的BI。领导人会叹气,这不是一件新背心吗?大数据有什么好处?

许多公司,它可以有很多的预算购买昂贵的机器和软件,但是对于引进人才和培训人才有点不知所措,买了1美元大数据的硬件和软件,但是我希望最初的BI团队可以带来繁荣的大数据应用程序,它是穷人,新酒,原来的团队来处理公司的报告系统有一个非常好的工作。

大数据进化论包含哪些内容?注意这些的大数据工程师才算优秀,大数据不是绣花,它的首要任务是解决业务问题,大数据在一定程度上是利用新的数据技术来拓展和优化业务,你能处理好吗?如果您还担心自己入门不顺利,可以点击本站其他文章进行学习。

88 评论

布丁的信仰

你说的可能是这三个吧:2003年发表了《The Google File System》2004年发表了《MapReduce: Simplified Data Processing on Large Clusters 》2006年发表了《Bigtable: A Distributed Storage System for Structured Data》

316 评论

xiaotian0001

江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!

谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机学会推荐会议里属于A类。SOSP在单数年举办,而OSDI在双数年举办。

那么这篇博客就来介绍一下MapReduce。

1. MapReduce是干啥的

因为没找到谷歌的示意图,所以我想借用一张Hadoop项目的结构图来说明下MapReduce所处的位置,如下图。

Hadoop实际上就是谷歌三宝的开源实现,Hadoop MapReduce对应Google MapReduce,HBase对应BigTable,HDFS对应GFS。HDFS(或GFS)为上层提供高效的非结构化存储服务,HBase(或BigTable)是提供结构化数据服务的分布式数据库,Hadoop MapReduce(或Google MapReduce)是一种并行计算的编程模型,用于作业调度。

GFS和BigTable已经为我们提供了高性能、高并发的服务,但是并行编程可不是所有程序员都玩得转的活儿,如果我们的应用本身不能并发,那GFS、BigTable也都是没有意义的。MapReduce的伟大之处就在于让不熟悉并行编程的程序员也能充分发挥分布式系统的威力。

简单概括的说,MapReduce是将一个大作业拆分为多个小作业的框架(大作业和小作业应该本质是一样的,只是规模不同),用户需要做的就是决定拆成多少份,以及定义作业本身。

下面用一个贯穿全文的例子来解释MapReduce是如何工作的。

2. 例子:统计词频

如果我想统计下过去10年计算机论文出现最多的几个单词,看看大家都在研究些什么,那我收集好论文后,该怎么办呢?

方法一:我可以写一个小程序,把所有论文按顺序遍历一遍,统计每一个遇到的单词的出现次数,最后就可以知道哪几个单词最热门了。

这种方法在数据集比较小时,是非常有效的,而且实现最简单,用来解决这个问题很合适。

方法二:写一个多线程程序,并发遍历论文。

这个问题理论上是可以高度并发的,因为统计一个文件时不会影响统计另一个文件。当我们的机器是多核或者多处理器,方法二肯定比方法一高效。但是写一个多线程程序要比方法一困难多了,我们必须自己同步共享数据,比如要防止两个线程重复统计文件。

方法三:把作业交给多个计算机去完成。

我们可以使用方法一的程序,部署到N台机器上去,然后把论文集分成N份,一台机器跑一个作业。这个方法跑得足够快,但是部署起来很麻烦,我们要人工把程序copy到别的机器,要人工把论文集分开,最痛苦的是还要把N个运行结果进行整合(当然我们也可以再写一个程序)。

方法四:让MapReduce来帮帮我们吧!

MapReduce本质上就是方法三,但是如何拆分文件集,如何copy程序,如何整合结果这些都是框架定义好的。我们只要定义好这个任务(用户程序),其它都交给MapReduce。

在介绍MapReduce如何工作之前,先讲讲两个核心函数map和reduce以及MapReduce的伪代码。

3. map函数和reduce函数

map函数和reduce函数是交给用户实现的,这两个函数定义了任务本身。

288 评论

相关问答

  • 谷歌三大论文发表在何处

    等会让他赶紧染发剂对人体

    半透明SKY也 4人参与回答 2023-12-10
  • hadoop谷歌发表的三篇论文是

    hadoop是开源软件。。各个公司都有版本,比如Apache Hadoop和Intel Hadoop,不过使用比较多的是apache hadoop

    小优的爱人 5人参与回答 2023-12-11
  • 谷歌发表三篇论文

    等会让他赶紧染发剂对人体

    hocc豆叮 4人参与回答 2023-12-12
  • 谷歌发表的三篇论文

    Gebru的支持者表示,谷歌的政策“实施得不均衡且具有歧视性”。 最近,科技圈的发生了一件大事,知名AI学者之一、人工智能伦理研究员Timnit Gebru被谷

    我是五叶神 3人参与回答 2023-12-06
  • 谷歌三大论文的发表

    谷歌学术是一个可以免费搜索学术文章的Google网络应用。2004年11月,Google第一次发布了Google学术搜索的试用版。该项索引包括了世界上绝大部分出

    大头的陈小晶 3人参与回答 2023-12-10