紫蝴蝶CYF
硕士论文开题报告模板4500字
本课题来源于作者在学习和实习中了解到的两个事实,属于自拟课题。
其一,作者在2011年7月在XXX公司调研,了解到现如今各行业都面临着数据量剧增长,并由此带来业务处理速度缓慢,数据维护困难等问题。为了应对此挑战,很多企业开实施大数据发展战略。现如今的大数据发展战略可以概括为两类,一类是垂直扩展。即采用存储容量更大,处理能力更强的设备,此种方式成本较大,过去很多大公司一直采用此种方法处理大数据。但自从2004年Google发布关于GFS,MapReduce和BigTable三篇技术论文之后,云计算开始兴起,2006年Apache Hadoop项目启动。随后从2009年开始,随着云计算和大数据的发展,Hadoop作为一种优秀的数据分析、处理解决方案,开始受到许多 IT企业的关注。相较于垂直扩张所需的昂贵成本,人们更钟情于采用这种通过整合廉价计算资源的水平扩展方式。于是很多IT企业开始探索采用Hadoop框架构建自己的大数据环境。
其二,作者自2013年4月在XXX实习过程中进一步了解到,因为关系数据库在存储数据格式方面的局限,以及其Schema机制带来的扩展性上的不便,目前在大部分的大数据应用环境中都采用非结构化的数据库,如列式存储的Hbase,文档型存储的MangoDB,图数据库neo4j等。这些非结构化数据库因为可扩展性强、资源利用率高,高并发、响应速度快等优势,在大数据应用环境中得到了广泛的应用。但此种应用只解决了前端的业务处理,要真正利用大数据实现商务智能,还需要为决策支持系统和联机分析应用等提供一数据环境——数据仓库。为此,导师指导本文作者拟此题目,研究基于Hadoop框架的数据仓库解决方案。
二、研究目的和意义:
现如今,数据已经渗透到每一个行业,成为重要的生产因素。近年来,由于历史积累和和数据增长速度加快,各行业都面临着大数据的难题。事实上,大数据既是机遇又时挑战。合理、充分利用大数据,将其转变为海量、高增长率和多样化的信息资产,将使得企业具有更强的决策力、洞察发现力和流程优化等能力。因此,很多IT企业都将大数据作为其重要的发展战略,如亚马逊、FaceBook已布局大数据产业,并取得了骄人的成绩。事实上,不止谷歌、易趣网或亚马逊这样的大型互联网企业需要发展大数据,任何规模的企业都有机会从大数据中获得优势,并由此构建其未来业务分析的基础,在与同行的竞争中,取得显著的优势。
相较于大型企业,中小企业的大数据发展战略不同。大公司可以凭借雄厚的资本和技术实力,从自身环境和业务出发,开发自己的软件平台。而中小企业没有那样的技术实力,也没有那么庞大的资金投入,更倾向于选择一个普遍的、相对廉价的解决方案。本文旨在分析大数据环境下数据库的特点,结合当下流行的Hadoop框架,提出了一种适用于大数据环境的数据仓库的解决方案并实现。为中小企业在大数据环境中构建数据仓库提供参考。其具体说来,主要有以下三方面意义:
首先,目前主流的数据库如Oracle、SQL Server都有对应自己数据库平台的一整套的数据仓库解决方案,对于其他的关系型数据库如MySQL等,虽然没有对应数据库平台的数据仓库解决方案,但有很多整合的数据仓库解决方案。而对于非结构化的数据库,因其数据模型不同于关系型数据库,需要新的解决方案,本文提出的基于Hive/Pentaho的数据仓库实现方案可以为其提供一个参考。
其次,通过整合多源非结构化数据库,生成一个面向主题、集成的.数据仓库,可为大数据平台上的联机事务处理、决策支持等提供数据环境,从而有效利用数据资源辅助管理决策。
再次,大数据是一个广泛的概念,包括大数据存储、大数据计算、大数据分析等各个层次的技术细节,本文提出的“大数据环境下的数据仓库解决方案及实现“丰富了大数据应用技术的生态环境,为大数据环境下的数据分析、数据挖掘等提供支撑。
三、国内外研究现状和发展趋势的简要说明:
本文研究的主体是数据仓库,区别于传统基于关系型数据库的数据仓库,本文聚焦大数据环境下基于非结构数据库的数据仓库的构建与实现。因此,有必要从数据仓库和大数据环境下的数据库两方面进行阐述。
(一) 数据仓库国内外研究现状
自从Bill Inmon 在1990年提出“数据仓库”这一概念之后,数据仓库技术开始兴起,并给社会带来新的契机,逐渐成为一大技术热点。目前,美国30%到40%的公司已经或正在建造数据仓库。现如今随着数据模型理论的完善,数据库技术、应用开发及挖掘技术的不断进步,数据仓库技术不断发展,并在实际应用中发挥了巨大的作用。以数据仓库为基础,以联机分析处理和数据挖掘工具为手段的决策支持系统日渐成熟。与此同时,使用数据仓库所产生的巨大效益又刺激了对数据仓库技术的需求,数据仓库市场正以迅猛的势头向前发展。
我国企业信息化起步相对较晚,数据仓库技术在国内的发展还处于积累经验阶段。虽然近年来,我国大中型企业逐步认识到利用数据仓库技术的重要性,并已开始建立自己的数据仓库系统,如中国移动、中国电信、中国联通、上海证券交易所和中国石油等。但从整体上来看,我国数据仓库市场还需要进一步培育,数据仓库技术同国外还有很大差距。为此,我国许多科技工作者已开始对数据仓库相关技术进行深入研究,通过对国外技术的吸收和借鉴,在此基础上提出适合国内需求的技术方案。
(二) 非结化数据库国内外研究现状
随着数据库技术深入应用到各个领域,结构化数据库逐渐显露出一些弊端。如在生物、地理、气候等领域,研究面对的数据结构并不是传统上的关系数据结构。如果使用关系数据库对其进行存储、展示,就必须将其从本身的数据结构强行转换为关系数据结构。采用此种方式处理非结构数据,不能在整个生命周期内对非关系数据进行管理,并且数据间的关系也无法完整的表示出来。在此背景下,非结构化数据库应运而生。相较于关系数据库,非结构数据库的字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成。如此,它不仅可以处理结构化数据,更能处理文本、图象、声音、影视、超媒体等非结构化数据。近年来,随着大数据兴起,非结构数据库开始广泛应用,以支持大数据处理的多种结构数据。
目前,非结构化的数据库种类繁多,按其存储数据类型分,主要包含内存数据库、列存储型、文档数据库、图数据库等。其中,常见的内存数据库有SQLite,Redis,Altibase等;列存储数据库有Hbase,Bigtable等;文档数据库有MangoDB,CouchDB,RavenDB等;图数据库有Neo4j等。近年来,我国非结构数据库也有一定发展,其中最具代表的是国信贝斯的iBASE数据库。可以预见在不久的将来,伴随这大数据的应用,非结构数据库将会得到长足的发展和广泛的应用。
四、主要研究内容和要求达到的深度:
本文研究的方向是数据仓库,并且是聚焦于大数据这一特定环境下的数据仓库建设,其主要内容包括以下几点:
1. 非结构数据库的数据仓库解决方案:本文聚焦于大数据这一特定环境下的数据仓库建设,因为大数据环境下的数据仓库建设理论文献很少,首先需要以研究关系数据库型数据仓库的解决方案为参考,然后对比关系数据库和非结构数据库的特点,最后在参考方案的基础上改进,以得到适合非结构数据库环境的数据仓库解决方案。
2. 非结构数据库和关系数据库间数据转换:非结构数据库是对关系数据库的补充,很多非结构数据库应用环境中都有关系数据库的身影。因此,非结构数据库和关系数据库间数据转换是建立非结构数据库需要解决的一个关键问题。
3. 基于非结构数据库的数据仓库构建:本文拟采用手礼网的数据,分析其具体的数据环境和需求,为其构建基于非结构数据库的数据仓库,主要包括非结构数据库的数据抽取,Hive数据库入库操作和Pentaho前台数据展现等。
五、研究工作的主要阶段、进度和完成时间:
结合研究需要和学校教务管理的安排,研究工作主要分以下四阶段完成:
第一阶段:论文提纲:20XX年6月——7月
第二阶段:论文初稿 :20XX年8月——10月
第三阶段:论文修改:20XX年11月——2014年3月
第四阶段:最终定稿:20XX年4月
六、拟采用的研究方法、手段等及采取的措施:
在论文提纲阶段,本文拟采用调查统计的方法,收集目前大数据环境下数据库应用情况,着重统计各类型数据库的应用比例。同时采用文献分析和个案研究的方法研究数据仓库构建的一般过程和对应的技术细节,并提出解决方案。在论文初稿和修改阶段,本文拟通过实证研究,依据提纲阶段在文献分析中收集到的理论,基于特定的实践环境,理论结合实践,实现某一具体数据仓库的构建。最后采用定性和定量相结合的方法,详细介绍大数据环境下数据库和数据仓库的特点,其数据仓库实现的关键问题及解决方案,以及数据仓库个例实现的详细过程。
七、可能遇见的困难、问题及拟采取的解决办法、措施:
基于本文的研究内容和特点分析,本文在研究过程中最有可能遇到三个关键问题。
其一,非结构数据库种类繁多,每类数据库又对应有不同的数据库产品,由于当下非结构数据库没有统一标准,即便同类数据库下不同产品的操作都不尽相同,难以为所有非结构数据库提出解决方案。针对此问题,本文拟紧贴大数据这一背景,选择当下大数据环境中应用最多的几类数据库的代表性产品进行实现。
其二,虽然经过二十年的发展,数据仓库的理论已日趋完善,但大数据是近几年才发展起来的技术热点,大树据环境下的数据仓库建设理论文献很少。针对此问题,本文拟参考现有的成熟的关系数据库环境下数据仓库构建方案和非结构化数据仓库理论,研究适合非结构数据库的数据仓库构建方案,请导师就方案进行指导,然后再研究具体技术细节实现方案。
其三,基于大数据环境的数据仓库实现是本文重要的组成部分,要完成此部分的工作需要企业提供数据支持,但现在数据在企业当中的保密级别都很高,一般企业都不会将自己的业务数据外传。针对此问题,本文拟采用企业非核心业务数据进行数据仓库实现。
八、大纲
本文的基本构想和思路,文章拟分为导论、大数据环境下的数据库介绍、大数据下数据仓库关键问题研究、基于XX电子商务的大数据下数据仓库实现、结论五部分。
导论
一、研究背景
二、国内外研究现状述评
三、本文的主要内容与研究思路
第一章 大数据环境下的数据库介绍
第一节 大数据对数据库的要求
第二节 关系数据库和非结构数据库比较
第三节 大数据下常用非结构数据库介绍
小结
第二章 大数据下数据仓库关键问题研究
第一节 非结构数据模型和关系数据模型的转换
第二节 基于多源非结构数据库的数据抽取
第三节 数据类型转换
第四节 数据仓库前端展示
第三章 大数据下数据仓库实现方案
第一节 大数据环境介绍
第二节 实现方案
第二节 Hive介绍
第三节 Pentaho介绍
第四章 基于XX电子商务的大数据下数据仓库实现
第一节 需求分析
第二节 模型设计
第三节 概要设计
第四节 基于Hive的数据入库操作实现
第五节 基于Pentaho的数据仓库前端展示实现
结论
痴货小逗逗
开题报告对整个课题研究工作的顺利开展起着关键的作用,以下是我搜集整理的计算机毕业论文开题报告范文,欢迎阅读查看。
论文题目: 批量到达的云中心性能分析模型
一、选题背景
云计算是一种基于网络的计算模型。用户通过网络向提供商申请计算资源,例如申请操作系统、运行环境或者软件包等资源。其实用户被分配资源的时候,并不清楚真正的运行环境和分配的具体细节。也就是说云就是用户和计算环境之间的一层抽象。在1969年,曾说过,计算机网络还处在初步阶段,但是随着它的壮大和成长,我们就会看到与电力系统和电话系统一样的“计算服务”,将会在个人家庭和办公室全面的使用。这种基于“计算服务”的观点预测了整个计算工业在21世纪的大转型。云这种计算服务模型已经和其他基础设施服务一样按需服务。云计算己经成为继电、水、煤气和电话之后的第五个公共基础设施⑴。目前,客户已经不需要在构建和维护大型而复杂的IT基础设施方面投入太多精力和财力。取而代之的是他们只需要支付他们使用的计算服务的费用。云计算的服务模式可以分为三层:设备即服务(laaS),设备就是指硬盘、内存、服务器和网络设备等,这些都可以通过网络访问;平台即服务(PaaS),其中包括一些计算平台,比如说带有操作系统的硬件,虚拟服务器等;软件即服务(SaaS),包括软件应用以及其他相应的服务应用。云计算的定义并不唯一,其中能够较为准确描述其特征的是于2010年提出的,“云计算是一种新型的运算领域,物理设备,硬件平台和应用软件等共享资源通过网络服务方式为用户提供按其需求的服务。”[2]这个定义阐述了云计算的几个重要特点。
(1)大规模基础设施。以超大规模的硬件设备为底层的云计算平台具有超强的计算能力。各大全球知名的企业,如roM、亚马逊、微软等,均拥有数十万台服务器的云服务平台,而谷歌的云计算平台中服务器的数量更是超过百万台。即便是普通的私有云,一般也会购置数百甚至上千台的服务器。
(2)基于虚拟化技术。用户从云计算平台中获取的资源均经过虚拟化的。从运行端而言,用户将应用程序在云中托管运行即可,而无需了解程序运行的具体位置。从终端来讲,用户可以在任何位置通过终端设备获取所需服务。简而言之,用户始终面对的是一个云平台的使用接口,而不是有形的、固定的实体。
(3)高可靠性。云计算采用数据多副本容错技术、计算节点同构互换策略等来确保云中心的可靠性。云计算这一级别的可靠性是本地计算所无法比拟的。
(4)通用性。云计算并不会专门针对任何一个具体的应用而提供服务。事实上,一个用户可以在云计算平台中根据自己的需要去创建多个不同的应用,而一个云计算平台也可以运行多个不同用户的不同应用。
(5)易扩展性。云计算平台的规模可以根据实际需要进行收缩和扩展,从而满足平台请求大小和使用用户数目的变化。
(6)按需服务。用户所应支付的使用费用是根据其使用计算资源的多少进行计算。多使用多付费,少使用少付费,不使用不付费。这样完全可以减少闲暇时用户资源的闲置。
(7)成本低。通过采用容错技术,可以使用大规模廉价的服务器集群作为硬件基础设施建设云计算平台,这对于云计算服务提供商而言,大大降低了成本投入。对于用户而言,以少量租金换取了原本需要高昂价格投入才能获得的计算资源,并且无需考虑软硬件维护的开销,亦是十分划算。
二、研究目的和意义
现有的云中心物理机模型通常都是面向单任务的,而面向批量任务的服务模型,其性能评估和指标的变化目前正属于初步的研宄阶段,并没有成熟的模型。因此,本文采用ikT/G/m/w+t排队系统对面向批量任务的.云中心进行描述,使用嵌入式马尔可夫链法对+排队系统进行建模,从而实现了对云中心进行准确的建模和分析。
三、本文研究涉及的主要理论
排队现象是日常生活中常见的社会现象。等待公交车时需要排队、去医院看病需要排队、在食堂打饭同样需要排队等等。排队现象的出现需要两个方面同时具备,排队的个体需要得到服务并且存在服务的提供者。而所谓的排队论就是仿照这样的排队现象,先抽象成物理模型,然后进一步建立数学模型的理论体系。显然,排队论研究的是一个系统对用户提供某种服务时,系统所呈现的各种状态。在排队论中,通常将要求得到服务的人或物称为顾客,而给予服务的人员或者机构称为服务台。顾客与服务台就构成了一个排队系统。尽管排队系统种类繁多,但从决定排队系统进程的主要因素来看,它主要是由三个部分组成:顾客到达,排队过程和服务过程。
(1)顾客到达:顾客到达过程描述了顾客到达时候的规律。顾客到达的方式通常是一个一个到达的,此外还有批量到达的,也叫做集体到达。顾客既可能逐个到达也可能分批到达,同时顾客到达之间的时间间隔长度也并不唯一。但是到达总会有一定的规律的。这个到达规律指的是到达过程或到达时间的分布。顾客到达过程研究的主要内容便包括相邻顾客到达的时间间隔服从怎样的概率分布、该概率分布的参数取值如何、各到达时间间隔之间是否相互独立等。
(2)排队过程:在排队过程中,需要讨论的主要问题有两个,一个是排队的队列长度,另一个是排队的规则。排队的队列长度分为有限和无限的两种。队列长度的大小不同,讨论问题的难易和结论就不同。很多情况下,队列长度容量设为无限大来处理问题。排队规则中又包括有队列形态和等待制度两个部分。队列形态包括单队列,并联式多队列,串联式多队列以及杂乱队列这四种形态。并联式多队列就是允许在多个窗口的每一个窗口前形成一个队列。到达顾客可根据队列的长短在开始排队时选择一个队列进行排队。串联式队列顾名思义就是指多队列串行形成多个队列,顾客在一个队列接受服务后,再去下一个队列排队接受服务。杂乱队列就是指串联并联队列会杂乱无章的分布。
排队模型仿真的主要目的是寻找服务设置和服务的对象之间的最佳的配置,使得系统具有最合理的配置和最佳的服务效率。马尔可夫过程是研究排队系统的主要方法。马尔可夫过程是一种特殊的随机过程,它具有无后效性的特点,其状态空间是有限的或可数无限的。这种系统中从一个状态跳转到另一个状态的过程仅取决于当前出发时的状态,与之前的历史状态无关。马尔可夫链作为研究排队系统的重要工具有广泛的应用。但并不是所有的排队系统都可以抽象成严格意义上的马尔可夫过程,因此随着排队过程的发展,马尔可夫链也有了许多的扩展模型和再生方法使得马尔可夫链有更加广泛的应用,例如嵌入马尔可夫链、补充变量法、拟生灭过程等。本节首先介绍一下最严格意义上的马尔可夫链,按照时间来划分可以分为两类,离散时间的马尔可夫链和连续时间过程。
四、本文研究的主要内容
本文从政府的立场考虑,围绕如何成功地将REITs应用于公租房建设融资,结合国内相关形势与政策和现有的国内外经验启示,以REITs在公租房建设融资中应用的运作为主要研究对象。除绪论和结论部分,本文的主要内容集中在2至5章,共4部分内容:第一部分,研究国内外REITs的应用经验及其与保障性住房结合的成功经验,国外主要考察美国和亚洲的典型国家与地区,包括日本、新加坡和香港,国内由于经验很少,主要考察中信一凯德科技园投资基金和汇贤产业信托这两个典型的案例。第二部分,深入研究我国发展公租房REITs的必要性和可行性,其中必要性分析指出REITs是拓展公租房建设融资渠道和提高公租房建设管理效率的重要途径,可行性从经济金融环境和法规政策这两大方面进行了详细分析。第三部分,针对目前国内公租房管理现状,详细阐述了目前REITs在公租房建设融资中运作,包括REITs的基本模式和运作流程,并进一步深入研究了REITs内部参与各方的权责关系和利益分配,从而提出了代理人的选择机制和激励机制。值得指出的是,此时政府除了担任REITs补贴的支付者,更主要的,政府还是REITs投资人的代表身份,在REITs运作的不同阶段,政府以不同的身份参与REITs的内部博弈。第四部分,从政府作为监管者的角度,针对REITs在我国公租房建设融资中的应用提出了一系列政策建议,包括政府应当健全REITs和公租房相关的法律法规,并建立一套针对REITs的全方位的监管制度。
五、写作提纲
致谢5-6
中文摘要6-7
ABSTRACT7
第1章绪论10-17
研究背景与意义10-11
研究背景10-11
研究意义11
研究现状11-15
国外研究现状11-12
国内研究现状12-15
论文内容与结构15-17
论文主要内容15
论文结构15-17
第2章国内外REITs的应用经验及启示17-35
美国REITs的应用经验17-26
美国的REITs及其在廉租房建设中的应用17-21
美国REITs的运作模式21-26
洲典型国家和地区REITs的应用经验26-29
日本REITs的运作模式26-27
新加坡REITs的运作模式27-28
香港REITs的运作模式28-29
我国REITs的应用经验29-32
中信—凯德科技园区投资基金29-30
汇贤产业信托30-32
国内外REITs的经验比较及启示32-35
国内外REITs的经验比较32-33
在我国公租房建设融资中应用的经验启示33-35
第3章REITs在我国公租房建设融资中应用的必要性与可行性分析35-43
在公租房建设融资中应用的必要性分析35-37
是拓展公租房建设融资渠道的重要途径35-36
在提高公租房建设管理效率的重要途径36-37
在公租房建设融资中应用的可行性分析37-43
经济金融环境宽松,民间资本充裕37-41
法律法规导向,政策利好不断41-43
第4章REITs在我国公租房建设融资中的运作43-64
在我国公租房建设融资中的基本模式43-47
设计原则43-44
基本形式选择44-45
组织结构搭建45-47
在我国公租房建设建设融资中的运作流程47-50
设立发行阶段47-48
运营管理阶段48-49
终止清盘阶段49-50
在我国公租房建设融资中的运作机制50-64
运作中的代理问题50-52
代理人选择机制52-56
代理人激励机制56-64
第5章REITs在我国公租房建设融资中应用的政策建议64-68
健全法律法规体系64-66
建全REITs的法律法规体系64-65
完善公租房的相关法律法规65-66
建立REITs的监管制度66-68
明确政府监管主体及职责66
建立REITs信息披露制度66-67
引导社会公众进行监督67-68
第6章结论与展望68-70
论文主要工作及结论68
有待进一步研究的问题68-70
参考文献70-73
计算机专业毕业论文的开题报告 导语:开题报告是拉启毕业论文写作的大幕,开题报告的质量高低直接决定论文的质量。那么计算机专业的开题报告怎么写呢?其写作内容和固定格
毕业论文开题报告 论文题目: 学生姓名: 学号: 专业: 指导教师: 年月日 开题报告填写要求 1.开题报告作为毕业设计(论文)答辩委员会对学生答
基于云会计的制造企业成本控制论文 无论是在学习还是在工作中,大家都写过论文吧,论文是学术界进行成果交流的工具。相信写论文是一个让许多人都头痛的问题,下面是我精心
你是做哪类的呀开发语言是什么很多都有现成的 我当时是做ASP的图书管理系统 去小熊仔毕业论文 买个成品自己修改下就好了 或者去联系学哥学姐 要他们当时的 毕设
计算机专业毕业论文的开题报告 导语:开题报告是拉启毕业论文写作的大幕,开题报告的质量高低直接决定论文的质量。那么计算机专业的开题报告怎么写呢?其写作内容和固定格