本源XML数据库综述
摘 要:摘要:随着XML的大量应用,它已经成为Internet上数据表示和数据交换的标准,如何有效地管理大量的XML数据业已成为非常有价值的问题。由是,一类新型的数据库—本源XML数据库在近年来已成为学术界的研究热点。本文首先介绍了关系数据库和XML使能数据库的不足,接着对本源XML数据库的若干问题进行了阐述,最后简述了当前的本源XML数据库研发产品。
关键词:关键词:XML;本源XML数据库;数据库
中图分类号: TP311.131 文献标志码: A 文章编号:
1.引言
1.1 关系数据库的局限性
关系数据库技术发展到今天,已经有一套成熟的理论,关系数据库产品在当今的数据库市场上也占据着绝对主导的位置。然而随着信息技术的飞速发展,关系数据库的局限性也日益明显的显现出来,主要地有以下几方面的问题
本源XML数据库的结构可分为两大类:基于文本的和基于模型的。
①基于文本的本源XML数据库将XML作为文本存储。它可以是文件系统中的文件、关系数据库中的BLOB或专门的文本格式。索引对所有基于文本的本源XML数据库来说都是一样的,它可以使查询引擎很方便地跳到XML文件内的任何地方。这就可以大大提高数据库存取文件或文件片断的速度。
从这个意义上讲,基于文本的本源XML数据库与层次结构的数据库很相似,当存取预先定义好层次的数据的时候,它比关系数据库更胜一筹。和层次结构的数据库一样,当以其他形式比如转置层次存取数据时,原生XML数据库也会遇到麻烦。
②基于模型的本源XML数据库不是用纯文本存储文件,而是根据文件构造一个内部模型并存储这个模型。至于模型究竟怎样存储取决于数据库:有些数据库将该模型存储于关系型和面向对象的 数据库中,其它数据库使用了专为这种模型作了优化的专有存储格式。建立在其它数据库之上的基于模型的本源XML数据库的文件存取性能与这些数据库相
似。使用专用存储格式的基于模型的本源XML数据库的文件存取性能与基于文本的本源XML数据库相似:如果以文件的存储顺序读取文件,其性能高于关系数据库;如果数据的读取顺序和存储顺序不同,基于模型的本源XML数据库也会出现性能上的问题。
2.3 本源XML数据库的优势
①本源XML数据库能对半结构化数据进行有效存取和管理。其数据模型能够对不规则的数据进行映射,适合于描述异构的和动态变化的Web数据,而且更加便于对层次化的数据进行操作。而把不规则的数据映射到关系数据库中的时候,会产生大量空值的列或大量的表而影响时空效果,所以XML的数据结构比关系数据库更具有表现力。
②将数据存储在本源XML数据库中,可以提高检索速度。本源XML数据库的存储策略是将整个文档物理地存储在一起,使用物理的,而非逻辑的指针在文档各个部分之间实现,所以它比关系数 据库所用的逻辑连接要快。
③XML文件具有可移植性,与平台无关,可以存储所有数据类型。因此,本源XML数据库因XML的这种特征而拥有移植数据的能力。
④本源XML数据库具有集成异构数据库系统的能力。XML具有的可扩展性便于表述各种类型的数据,这使得XML数据库可作为异构数据库的中间件,对相对分散的异构数据库的数据按照DTD进行集成,得到格式统一的XML文档。从而为在远景目标上实现类似于网格计算概念的系统提供了可能性。
⑤本源XML数据库具有Round-tripping能力,即:它可以将XML文档存放在本源XML数据库中,而后再取回同样的文档。对于以“文档为中心”的应用程序来说非常重要,因为XML使能数据库往往会忽略XML文档中的CDATA部分、实体引用、注释和处理指令等不可缺少的组成部分,而这些对于象法律和医学等领域中格式不允许随意窜改的数据文档而言是很重要的。
2.4本源XML数据库研发产品现状
本源XML数据库研发产品在学术界和工业界的推动下,已出现了很多实验室原型系统和商用产品。在Ronald Bourret的《XML Database Products》.计算机应用研究,2006,23(6):5-6.
下一篇:信息技术在建筑管理过程中的应用