社科论文2021-03-251258浏览基于spark的招生数据平台的设计与实现章家宝彭梅粱东海李胜林摘要:近年来随着互联网行业的快速发展,大数据技术已被应用到各行各业,在高校招生这一领域…
入门必读|Spark论文导读.黄赟..22人赞同了该文章.《ResilientDistributedDatasets:Afault-tolerantabstractionforin-Memoryclustercomputing》是讲述SparkRDD的基础论文,通读论文能给我们带来全景的Spark知识面。.摘要:RDD,…
Spark系统是RDD的详细实现,我们使用大量的Benchmark和真有用户应用对其进行评估。.对于大量的应用,Spark的性能都超过了执行它们的专有系统。.同一时候还能支持这些负载之间相互组合,同一时候还能保证容错。.接下来。.我们将从理论和实践两个角度来探讨...
摘要:作为新一代的大数据处理技术,Spark是继Hadoop之后大数据处理中心的首选平台,未来将会在大数据领域发挥非常重要的作用。本篇论文通过对以往文献的研究,详细介绍了Spark的相关概念,执行过程以及生态系统。
基于Spark的推荐系统的研究.李现伟.【摘要】:随着互联网和信息技术的高速发展,有海量的信息数据产生,怎么能够从纷繁复杂的信息中,获取有价值的数据是一个亟待解决的问题。.推荐系统是解决这一问题的有效方法之一,推荐系统是一种从用户的历史行为以及...
本次分享的Spark论文是《ResilientDistributedDatasets:Afault-tolerantabstractionforin-Memoryclustercomputing》.摘要:RDD,全称ResilientDistributedDataset,可伸缩性数据集。.使用它编程,可以有效利用大规模集群的内存,并且兼顾容错。.RDD的流行,完美解决了两类应用难题:迭...
基于Spark的大数据挖掘技术的研究与实现-软件工程专业论文.docx,分类号:TP311分类号:TP311单位代码:10422密级:学号:2013222819⑧∥户蒙力番SHANDoNGUNIVERSITY硕士学位论文ThesisforMasterDegree(专业学位)论文题目...
基于Spark平台推荐系统研究.【摘要】:现代互联网的高速发展产生了大量富有价值的互联网信息,如何从海量的数据中挖掘出有用的信息是具有重大意义的课题。.大数据平台的研究与发展就是在这一背景下兴起。.Hadoop的诞生使人们关注MapReduce这一计算模式的...
基于spark的实时海量数据处理分析与优化.黄彬.【摘要】:随着实时大数据处理框架越来越广泛的应用,对基于大数据框架上的应用程序性能的优化需求也越来越多,且要求也越来越高。.Spark作为业界使用度最广、认可度最高的分布式实时大数据处理框架,由于其...
基于Spark平台的实时流计算推荐系统的研究与实现.【摘要】:用户在面对海量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低,这就是信息超载问题。.推荐系统是一种解决信息超载问题非常有效的办法,它根据用户的信息、兴趣等...
《ResilientDistributedDatasets:Afault-tolerantabstractionforin-Memoryclustercomputing》是讲述SparkRDD的基础论文,通读论文能给我们带来全景的Spark知识面。摘要...
基于Spark的文本分类的研究光顺利【摘要】:随着互联网和信息技术的不断发展,文本形式的非结构化数据正在不断的增加。文本分类技术能够有效地对文本数据进行组织和处理,广泛...
该论文是Spark主要开发者MateiZaharia的博士论文,全文共6章,超过4万字,是一部Spark方面的巨著。从10...
【摘要】:随着智能电网、物联网的快速发展以及电力业务的日益复杂,电力系统数据存在体量大、类型多、要求速度快、缺乏数据整合、数据分析利用价值低等一系列问题,需要大数据...
硕士博士毕业论文—基于Spark的Web日志分析处理系统
到各个分区,并创建一个由RDDs转换,而不是MapReduce任务组成的物理计划。Spark的master使用标准的DAG调度技术执行这个依赖图。第四章离散流4.1简介...
通过优化Sparkmllib机器学习库中的隐含狄利克雷分布(LDA)主题模型,提出一种改进的学术研究热点挖掘方法。采用LDA主题模型对学术论文关键词进行建模,利用困惑度...