• 回答数

    6

  • 浏览数

    119

Elephantwoman
首页 > 期刊论文 > 毕业论文hadoop参考文献

6个回答 默认排序
  • 默认排序
  • 按时间排序

yk小康哥

已采纳

到中国期刊网上看看呗,兴许你可以找到你想要的东西。

287 评论

kiss小妮妮

基于hadoop的电商日志分析系统的设计与实现选题依据这样写:日新月异的IT技术里,大数据绝对是不可忽略的一大部分。它深入到我们的生活中,这一两年来互联网相关的任何活动、会议也必不可少“大数据”板块。第13届“中国互联网大会”也专设了大数据论坛。嘴上说着技术太多学不完,身体却诚实地不放过任何了解大数据的机会。莫慌,我们给你全面的大数据干货。无论你是想进入这个领域,还是已经入门,或者有进阶打算,它都能助你一臂之力!

125 评论

Lucia慢半拍

分布式系统在互联网时代,尤其是大数据时代到来之后,成为了每个程序员的必备技能之一。分布式系统从上个世纪80年代就开始有了不少出色的研究和论文,我在这里只列举最近15年范围以内我觉得有重大影响意义的15篇论文(15 within 15)。1. The Google File System: 这是分布式文件系统领域划时代意义的论文,文中的多副本机制、控制流与数据流隔离和追加写模式等概念几乎成为了分布式文件系统领域的标准,其影响之深远通过其5000+的引用就可见一斑了,Apache Hadoop鼎鼎大名的HDFS就是GFS的模仿之作;2. MapReduce: Simplified Data Processing on Large Clusters:这篇也是Google的大作,通过Map和Reduce两个操作,大大简化了分布式计算的复杂度,使得任何需要的程序员都可以编写分布式计算程序,其中使用到的技术值得我们好好学习:简约而不简单!Hadoop也根据这篇论文做了一个开源的MapReduce;3. Bigtable: A Distributed Storage System for Structured Data:Google在NoSQL领域的分布式表格系统,LSM树的最好使用范例,广泛使用到了网页索引存储、YouTube数据管理等业务,Hadoop对应的开源系统叫HBase(我在前公司任职时也开发过一个相应的系统叫BladeCube,性能较HBase有数倍提升);4. The Chubby lock service for loosely-coupled distributed systems:Google的分布式锁服务,基于Paxos协议,这篇文章相比于前三篇可能知道的人就少了,但是其对应的开源系统zookeeper几乎是每个后端同学都接触过,其影响力其实不亚于前三篇;5. Finding a Needle in Haystack: Facebook's Photo Storage:facebook的在线图片存储系统,目前来看是对小文件存储的最好解决方案之一,facebook目前通过该系统存储了超过300PB的数据,一个师兄就在这个团队工作,听过很多有意思的事情(我在前公司的时候开发过一个类似的系统pallas,不仅支持副本,还支持Reed Solomon-LRC,性能也有较多优化);6. Windows Azure Storage: a highly available cloud storage service with strong consistency:windows azure的总体介绍文章,是一篇很好的描述云存储架构的论文,其中通过分层来同时保证可用性和一致性的思路在现实工作中也给了我很多启发;7. GraphLab: A New Framework for Parallel Machine Learning:CMU基于图计算的分布式机器学习框架,目前已经成立了专门的商业公司,在分布式机器学习上很有两把刷子,其单机版的GraphChi在百万维度的矩阵分解都只需要2~3分钟;8. Resilient Distributed Datasets: A Fault-Tolerant Abstraction forIn-Memory Cluster Computing:其实就是 Spark,目前这两年最流行的内存计算模式,通过RDD和lineage大大简化了分布式计算框架,通常几行scala代码就可以搞定原来上千行MapReduce代码才能搞定的问题,大有取代MapReduce的趋势;9. Scaling Distributed Machine Learning with the Parameter Server:百度少帅李沐大作,目前大规模分布式学习各家公司主要都是使用ps,ps具备良好的可扩展性,使得大数据时代的大规模分布式学习成为可能,包括Google的深度学习模型也是通过ps训练实现,是目前最流行的分布式学习框架,豆瓣的开源系统paracell也是ps的一个实现;10. Dremel: Interactive Analysis of Web-Scale Datasets:Google的大规模(近)实时数据分析系统,号称可以在3秒相应1PB数据的分析请求,内部使用到了查询树来优化分析速度,其开源实现为Drill,在工业界对实时数据分析也是比价有影响力;11. Pregel: a system for large-scale graph processing: Google的大规模图计算系统,相当长一段时间是Google PageRank的主要计算系统,对开源的影响也很大(包括GraphLab和GraphChi);12. Spanner: Google's Globally-Distributed Database:这是第一个全球意义上的分布式数据库,Google的出品。其中介绍了很多一致性方面的设计考虑,简单起见,还采用了GPS和原子钟确保时间最大误差在20ns以内,保证了事务的时间序,同样在分布式系统方面具有很强的借鉴意义;13. Dynamo: Amazon’s Highly Available Key-value Store:Amazon的分布式NoSQL数据库,意义相当于BigTable对于Google,于BigTable不同的是,Dynamo保证CAP中的AP,C通过vector clock做弱保证,对应的开源系统为Cassandra;14. S4: Distributed Stream Computing Platform:Yahoo出品的流式计算系统,目前最流行的两大流式计算系统之一(另一个是storm),Yahoo的主要广告计算平台;15. Storm @Twitter:这个系统不多说,开启了流式计算的新纪元,几乎是所有公司流式计算的首选,绝对值得关注;

97 评论

辉love玉

基于hadoop的电商日志分析系统的设计与实现选题依据写法如下所述:在综合分析用户行为模型的特点以实时系统解决方案的基础上,设计并研发一套基于Hadoop的电商实时用户行为分析系统,并在实际的电商网站中进行使用。对电商网站中的用户行为进行分析和研究;分析用户行为分析系统的应用场景并针对实际的应用场景设计一套基于Hadoop的实时用户行为分析系统;开发JAVAEE框架下的实时用户行为分析系统;将实时用户行为分析系统在电商网站中进行投入使用。

311 评论

贪吃的晨晨

不好找的,可以在那个网站充值买,也花不了多少钱的!

246 评论

villavilla

选题依据包括:选题的学科性质、理论意义及实践意义;国内研究现状的分析。研究方案包括:研究内容、研究中所要突破的难题、拟采取的研究方法,有何特色与创新之处以及与选题有关的参考文献等内容

112 评论

相关问答

  • java毕业论文参考文献

    随便注册一个账号就可以下载了

    Cciiiiiiiiiiiiiiiiii 5人参与回答 2023-12-08
  • 物业毕业论文参考文献

    知网,万方 ,维普,龙源,上面找去呀

    janesmonkey 4人参与回答 2023-12-05
  • 毕业论文参考文献m

    根据GB3469-83《文献类型与文献载体代码》规定,以单字母标识: M——专著(含古籍中的史、志论著) C——论文集 N——报纸文章 J——期刊文章 D——学

    a宝贝洁洁 5人参与回答 2023-12-08
  • 毕业论文hadoop参考文献

    到中国期刊网上看看呗,兴许你可以找到你想要的东西。

    Elephantwoman 6人参与回答 2023-12-07
  • mba毕业论文参考文献

    战略管理会计是帮助 企业管理 当局制定、实施战略计划以取得竞争优势的重要手段。下面是我整理了mba战略管理论文范例,有兴趣的亲可以来阅读一下! 战略管理与战

    蝶澈0825 3人参与回答 2023-12-07