欢迎来到学术参考网

云计算现状及云数据管理技术研究

发布时间:2016-07-08 15:40

  随着各种新技术的发展,企业的关键信息以几何级速度增长,更多的数据需要保持更长的时间,伴随着云计算技术的发展,云计算已经成为一种全新的互联网应用模式。本文简要论述了云计算的概念和特征以及云数据信息管理技术,云计算的当前发展状况以及未来的研究趋势。

 

  近年来,由于数据的快速增长以及用户对计算机和存储能力的要求越来越高,于此同时物联网三网融合智能电网等应用快速发展也对信息系统的计算和数据管理带来了更高的要求,云计算(cloud computing)是一项正在兴起中的技术。云计算能够改变普通用户使用计算机的模式为用户提供按需分配的计算能力、存储能力及应用服务能力,目的是让用户使用计算资源就像使用水和电一样方便,大大降低用户的软、硬件采购费用。云计算是在分布式系统、网格计算等基础上提出的一个新概念,它面对的是超大规模的分布式环境,其核心是提供海量数据存储以及高效率的计算能力,由此衍生出一系列的应用。但是云计算绝不仅仅是一个计算的问题,它需要融合许许多多的技术与成果。基于云计算的数据管理、海量分布式存储、并行计算都是云计算的重要组成部分。

 

  一、云计算

 

  ()云计算概念。云计算是分布式处理(distributed computing)、并行处理(parallel computing)和网格计算(grid computing)的发展,或者说是这些计算科学概念的商业实现。

 

  云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行与互联哇相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。这是一种革命性的举措,打个比方,这就好比是从古老的单台发电机模式转向了电厂集中供电的模式。它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。

 

  近年来国内外各知名IT企业都在大力开发和推进云计算,如Google推出Google Apps服务,亚马逊推出弹性计算云(EC2)服务,IBM推出蓝云计划,国内浪潮推出面向云计算的云海操作系统,初步的云计算产品已经投入了正式使用,但云计算还处于发展阶段,与之相关的各项技术还不够成熟。

 

  ()云计算特征。云计算管理的特点有很多, 主要具有海量性、 异构性以及非确定性。下面就几种特点作简要介绍。

 

  1、海量性。我国在近些年来逐渐兴起的物联网技术, 很大程度上都是通过一定数量的传感器来采集有效数据。这种应用的规模越来越大,同时在许多领域都有着非常广泛的应用,如果这样发展下去,要采集和处理的数据量将会是非常大的。因此数据处理的方法和技术又很多种,我们应该对其当代的技术改造和创新。在这种环境下应运而生出一种新兴的数据管理技术——云数据管理。云数据管理能够对海量的数据进行有效信息的提取,同时能够进一步融合进而优化。

 

  2、异构性。云计算通过传感器等所采集到的数据,这些数据的数据结构和数据形态都是不一样的;同时云计算中具有很多数量的应用,不同的行业和领域之间,获取所需要的相关信息的途径以及手段等都各不相同。就其中的传感器而言,就可以分成许多种不同的类型。因为传感器中具有不同的类别,行业中广泛使用的湿度传感器、温度传感器以及二氧化碳浓度传感器的收集和处理信息的能力都是不一样的。往往不同的传感器,在采集方面会产生非常大的不同。也正是因为以上的几个原因,数据资源具有很大的异构性。

 

  3、不确定性。云计算之中的数据具有一个非常显的特点:具有很大的不确定性。我们必须对相关的信息和数据进行相应的操作和传输处理,才能够获取有效而且十分准确的数据。不确定性本身所涉及到的概念相当广泛,匹配的不确定性、分析的不确定性、数据查询和数据本身,都具有很大的不确定性。

 

云计算现状及云数据管理技术研究


  二、云数据管理技术

 

  ()GFS技术。GFS主要为云计算提供大量的存储空间,是一种具有文件分布式的大型系统。GFS技术可以和许多其它的技术同时使用, 比如Chubby Big Table 等,从而形成一个解决的方法。GFS 技术将所有的系统结点主要分成了三种类型:主服务器、数据库服务器和客户端。其中,主服务器的主要功能是保存系统的单元数据,而且主服务器也是整个系统的文件处理中心,能够管理整个系统的结点; 数据块服务器能够将所需要存储的数据,转换成相应的文件格式,进而将这些文件存放到Chunk Server 里面, 数据库服务器是系统存取信息的装置。通常来说, Chunk Server 的数量越多, 那么 GFS 的规模也就会越大;客户端能够提供给系统中的应用序一组专门的访问接口,同时这些接口不一定需要依据 POSIX 的规范定义。在连接接口的时候,可以直接与库文件所在的库进行连接,并直接调用序所需要的库函数。

 

  ()Dynamo 技术。Dynamo 技术不仅具有存储系统的分布式、数据库和高可用行,而且还具有专有存储系统的键值结构、Hash 表分布式,因此 Dynamo可直接提供底层支持与 A WS,并且可不用暴露于外网。Dynamo技术的优点是通过它所提供的NRW 三个使用参数,并根据自己来调整需求进行的实例,RiskProject V oldemort 以及 Apache Cassandra是比较典型的 Dynamo 技术,其中N表示的是副本个数,R表示的是可达到读取一致、读取成功的个数,W表示的是认为写入成功的个数,但并不要求副本个数全部成功,当读取成成的个数加上写入成功大于副本个数,就可以保证最终的数据一致性,当读取成成的个数加上写入成功小于副本个数,则不可以保证最终的数据一致性。此外,Dynamo 对于不同版本对象进行的处理功能、 记录功能也是支持的,它的工作原理是将不同版本的应用提供给自己,并让自己达到比对方更加灵活的目的。

 

  ()Big Table 技术。Big Table 是一个规模超过 1024TB 的巨大表,它是根据 MapRedcu 以及 GFS,建立起来的一种拥有大型数据库的分布式,其工作原理是将需要处理的数据形成一个巨大的表格。 同时, Big T able 还是一种拥有数据扩展功能所设计的管理结构化分布式数据存储系统,这就使 Big T able的数据可达到巨大化规模,比如有非常多的计算机用户需要到达 Petabytes 服务器的规模数据,而现在非常多的互联网都是用 Big T able 来建立应用程序。其中,比如典型的是 Hadoop Hbase,其利用 Big T able 基础模型。Big T able是由时间戳、列关键字、行关键字所形成三维定位的单元格,以及一个拥有排序、多维以及稀疏 MAP 等共同组成,单元格所显示的是字符串。

 

  ()Map Reduce技术。MapReduce适合于大规模数据集(大于 1TB)的并行处理,是 Google 设计的一种能够实现高效编程的技术模式。通过这种编程模式,MapReduce 将需要运算的问题分解为两个不同的部分映射和化简。系统能够将在单个节点上完成的运算任务细分为许多个子任务,其是使用Map函数划分的。这些子任务会被分配到不同的计算机中进行运算和处理。Map 函数运算得到的结果数据,会通过 Reduce函数按照系统之前所预先写好的序进行分析处理,最终得到所需要的数据结论。

 

  三、总结

 

  云计算由于具有海量性、异构性以及非确定性等一系列优点,因而在现阶段得到了广泛应用,且展现出了良好的应用前景。然而云计算的云计算管理毕竟发展时间不长,还存在诸多不完善之处,机遇和挑战共存,实际开发研究中,注意对这种机遇和挑战进行把握控制,以促进云计算和云数据管理技术的开发研究与发展应用。

 

  作者:张勇 来源:管理学家·学术版 201410

上一篇:企业销售信息管理分析

下一篇:基于PDMLINK的产品设计及数据管理