论文数据库字段名查重

发布时间：2023-12-07 21:04:51

论文数据库字段名查重

以总文字复制比为指标，进行学位论文全文的文献数据库（全国）联机检测。

以重庆理工大学为例，以总文字复制比为指标，进行学位论文全文的文献数据库（全国）联机检测。校学位办为学校指定的论文查重检测部门，学位论文查重检测系统由学校统一指定。提交检测的学位论文文本在内容、格式与排版上与申请学位的论文文本完全一致。

提交检测的学位论文是经导师审核认定的终稿文本。研究生和导师需确认论文电子版与纸质版的一致性，并对所提交论文的真实性负责。论文电子文档应采取word文档格式，文档命名方式为：姓名—学院—专业—论文题目。

扩展资料：

论文查重的相关要求规定：

1、20%＜总文字复制比≤30%，应在规定时间内由导师负责督促修改后，重新参加查重。如再次查重的总文字复制比≤20%，通过查重环节；否则取消本次申请资格，推迟半年提交论文。

2、总文字复制比≥50%，则认为该论文有抄袭嫌疑，经校学位评定委员会聘请的专家认定为抄袭的，作退学处理。

3、导师要严格审查申请毕业研究生的学位论文，如所指导研究生累计3人次出现因查重结果导致延期答辩的，应停止该导师招生一年，同时扣减所属硕士点招生指标。

参考资料来源：重庆理工大学-重庆理工大学研究生学位论文查重检测与管理办法（试行）

1. 务必选择正规的知网网站进行检测。之前有很多打着知网查重的假网站用低价来吸引客户检测，然后将他们提交的论文进行倒卖，严重影响论文的安全。 2. 知网论文查重时要按照学校要求选择相应正确的论文查重系统提交论文检测。比如，你是本科的毕业论文，那么提交时选择的就应该是知网PMLC。我们在提交检测时一定要选择正确的系统进行查重，以确保论文检测结果的准确性。 3. 知网检测费用那么高，怎么才能有效的保证一次通过呢？由于知网检测的价格相比较其他的检测平台高出了许多，所以如果需要多次查重的话，那么对于大多数的学生来说都是承担不起的。在这小编推荐在论文进行初稿检测时可以先在网络找些便宜、安全、准确度高的查重网站先进行自查，查重完根据检测报告反复修改后再提交到知网检测，这样可以大大的节约成本。我们在自查时一般推荐使用paperfree、papertime等等，品牌时间长安全有保证，而且收录的数据库也多。

先找一个靠谱的查重系统，上传论文，按照系统的提示付费，提交检测等待半小时左右就可以出报告了。

大概当今所有的研究生毕业论文都会经过中国知网的“学术不端检测”，即便最后不被盲审。这个系统的初衷其实是很好的，在一定程度上能够对即将踏入中国科研界的硕士研究生们一个警示作用：杜绝抄袭，踏实学问。但正所谓“世界万物，有矛就有盾”的哲学观，中国知网的这个“学术不端检测系统”并不是完善的。原因有二，其一是目前的图文识别技术还不够先进；其二是目前的机器识别还达不到在含义识别上的智能化。求索阁一贯的观点就是“战略上蔑视，战术上重视”和“知己知彼百战百胜”。要破敌，必先知敌；要过学术检测这一关，当然必先了解这一关的玄机。一、查重原理 1、知网学位论文检测为整篇上传，格式对检测结果可能会造成影响，需要将最终交稿格式提交检测，将影响降到最小，此影响为几十字的小段可能检测不出。对于3万字符以上文字较多的论文是可以忽略的。对比数据库为：中国学术期刊网络出版总库，中国博士学位论文全文数据库/中国优秀硕士学位论文全文数据库，国重要会议论文全文数据库，中国重要报纸全文数据库，中国专利全文数据库，个人比对库，其他比对库。部分书籍不在知网库，检测不到。 2、上传论文后，系统会自动检测该论文的章节信息，如果有自动生成的目录信息，那么系统会将论文按章节分段检测，否则会自动分段检测。 3、有部分同学反映说自己在段落中明明引用或者抄袭了其他文献的段落或句子，为什么没有检测出来，这是正常的。中国知网对该套检测系统的灵敏度设置了一个阀值，该阀值为5%，以段落计，低于5%的抄袭或引用是检测不出来的，这种情况常见于大段落中的小句或者小概念。举个例子：假如检测段落1有10000字，那么引用单篇文献500字以下，是不会被检测出来的。实际上这里也告诉同学们一个修改的方法，就是对段落抄袭千万不要选一篇文章来引用，尽可能多的选择多篇文献，一篇截取几句，这样是不会被检测出来的。 4、一篇论文的抄袭怎么才会被检测出来？知网论文检测的条件是连续13个字相似或抄袭都会被红字标注，但是必须满足3里面的前提条件：即你所引用或抄袭的A文献文字总和在你的各个检测段落中要达到5%。二、快速通过论文查重的七大方法方法一：外文文献翻译法查阅研究领域外文文献，特别是高水平期刊的文献，比如Science，Nature，WaterRes等，将其中的理论讲解翻译成中文，放在自己的论文中。优点：1、每个人语言习惯不同，翻译成的汉语必然不同。因此即使是同一段文字，不同人翻译了之后，也不会出现抄袭的情况。2、外文文献的阅读，可以提升自身英语水平，拓展专业领域视野。缺点：英文不好特别是专业英文不好的同学实施起来比较费劲。方法二：变化措辞法将别人论文里的文字，或按照意思重写，或变换句式结构，更改主被动语态，或更换关键词，或通过增减。当然如果却属于经典名句，还是按照经典的方法加以引用。优点：1．将文字修改之后，按照知网程序和算法，只要不出现连续13个字重复，以及关键词的重复，就不会被标红。2．对论文的每字每句都了如指掌，烂熟于心，答辩时亦会如鱼得水。缺点：逐字逐句的改，费时费力。方法三：google等翻译工具翻译法将别人论文里的文字，用google翻译成英文，再翻译回来，句式和结构就会发生改变，再自行修改下语病后，即可顺利躲过查重。优点：方便快捷，可以一大段一大段的修改。缺点：有时候需要多翻译几遍，必须先由中文翻译成英文，再翻译成阿尔及利亚语，再翻译成中文。方法四：转换图片法将别人论文里的文字，截成图片，放在自己的论文里。因为知网查重系统目前只能查文字，而不能查图片和表格，因此可以躲过查重。优点：比google翻译法更加方便快捷。缺点：用顺手了容易出现整页都是图片的情况，会影响整个论文的字数统计。方法五：插入文档法将某些参考引用来的文字通过word文档的形式插入到论文中。优点：此法比方法四更甚一筹，因为该方法日后还可以在所插入的文档里进行重新编辑，而图片转换法以后就不便于再修改了。缺点：还没发现。方法六：插入空格法将文章中所有的字间插入空格，然后将空格字间距调到最小。因为查重的根据是以词为基础的，空格切断了词语，自然略过了查重系统。优点：从查重系统的原理出发，可靠性高。缺点：工作量极大，课可以考虑通过宏完成，但宏的编制需要研究。方法七：自己原创法自己动手写论文，在写作时，要么不原文复制粘贴；要么正确的加上引用。优点：基本上绝对不会担心查重不通过，哪怕这个查重系统的阈值调的再低。缺点：如果说优缺点的话，就是写完一篇毕业论文，可能会死掉更多的脑细胞。呵呵。。。是否可以解决您的问题？

论文四大数据库名字

国内五大论文数据库如下：

一、中国知网提供的《中国学术期刊（光盘版）》

也称中国期刊全文数据库由清华同方股份有限公司出版。

收录1994年以来国内6 600种期刊，包括了学术期刊于非学术期刊，涵盖理工、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。

收录的学术期刊同时作为“中国学术期刊综合评价数据库统计源期刊”。

但是收录的期刊不很全面，一些重要期刊未能收录。

二、中国生物医学文献数据库（CBMDISC)

数据库是中国医学科学院信息研究所开发研制，收录了自1978年以来1 600余种中国生物医学期刊。

范围涉及基础医学、临床医学、预防医学、药学、中医学及中药学等生物医学的各个领域。

三、中文生物医学期刊数据库（CMCC)

由中国人民解放军医学图书馆数据库研究部研制开发。

收录了1994年以来国内正式出版发行的生物医学期刊和一些自办发行的生物医学刊物1 000余种的文献题录和文摘。

涉及的主要学科领域有：基础医学、临床医学、预防医学、药学、医学生物学、中医学、中药学、医院管理及医学信息等生物医学的各个领域。

并具有成果查新功能医学全在线

四、万方数据资源系统（China Info)

由中国科技信息研究所，万方数据股份有限公司研制。

该数据库收录的期刊学科范围广，包括了学术期刊于非学术期刊，提供约2 000种的电子期刊的全文检索。

被收录的学术期刊都获得了“中国核心期刊（遴选）数据库来源期刊”的收录证书。

个别期刊甚至将“遴选”改成“精选”，或者干脆去掉。

很多作者因此误以为这就是核心期刊。

五、维普数据库

也称中文科技期刊数据库，维普科技期刊数据库，由中国科学技术信息研究所重庆分所出版。

收录了1989年以来我国自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报等学科9 000余种期刊，包括了学术与非学术期刊。

收录期刊数量很大，但不足之处是部分国家新闻出版总署公布的非法期刊也被收录了。

一般的，学术期刊都能进入至少1个国内期刊数据库。

期刊据数据库不是期刊的评价体系，对科研处的期刊性质评价也就缺乏足够的意义，故不宜作为期刊性质评价的依据。

另外还有：

1、万方数据

万方数据提供中国大陆科技期刊检索，是万方数据股份有限公司建立的专业学术知识服务网站。

隶属于万方数据资源系统，对外服务数据由万方数据资源系统统一部署提供。

2、全国报刊索引

收录全国包括港台地区的期刊8000种左右，月报道量在万条以上，年报道量在44万条左右，书本式用户有3500多家，现又出版光盘数据库。

反映了中国政治、经济、军事、科学、文化、文学艺术、历史地理、科技等方面的发展情况，提供了国内外最新学术进展信息。

该索引是我国收录报刊种类最多，内容涉及范围最广，持续出版时间最长，与新文献保持同步发展的权威性检索刊物，也是查找建国以来报刊论文资料最重要的检索工具。

正文采用分类编排，先后采用过《中国人民大学图书分类法》和自编的《报刊资料分类表》，1980年起，仿《中国图书馆图书分类法》分21类编排，1992年全面改用《中国图书资料分类法》（第三版）编排，2000年开始用《中国图书馆分类法》（第四版）标引，计算机编排。

在著录上，《全国报刊索引》从1991年起采用国家标准——《检索期刊条目著录规则》进行著录，包括题名、著译者姓名、报刊名、版本、卷期标识、起止页码、附注等项。

同时，“哲社版”采用电脑编排，增加了“著者索引”、“题中人名分析索引”、“引用报刊一览表”，方便了读者的使用。

3、超星数字图书馆

为目前世界最大的中文在线数字图书馆，提供大量的电子图书资源提供阅读，其中包括文学、经济、计算机等五十余大类，数十万册电子图书，300万篇论文，全文总量4亿余页，数据总量30000GB，大量免费电子图书，并且每天仍在不断的增加与更新。

覆盖范围：涉及哲学、宗教、社科总论、经典理论、民族学、经济学、自然科学总论、计算机等各个学科门类。

本馆已订购67万余册。

收录年限：1977年至今。

4、维普资讯

维普资讯是科学技术部西南信息中心下属的一家大型的专业化数据公司，是中文期刊数据库建设事业的奠基人，公司全称重庆维普资讯有限公司。

目前已经成为中国最大的综合文献数据库。

从1989年开始，一直致力于对海量的报刊数据进行科学严谨的研究、分析，采集、加工等深层次开发和推广应用。

5、中宏数据库

中宏数据库由国家发改委所属的中国宏观经济学会、中宏基金、中国宏观经济信息网、中宏经济研究中心联合研创。

是由18类大库、74类中库组成，涵盖了九十年代以来宏观经济、区域经济、产业经济、金融保险、投资消费、世界经济、政策法规、统计数字、研究报告等方面的详尽内容，是目前国内门类最全，分类最细，容量最大的经济类数据库。

发展现状

在数据库的发展历史上，数据库先后经历了层次数据库、网状数据库和关系数据库等各个阶段的发展，数据库技术在各个方面的快速的发展。特别是关系型数据库已经成为目前数据库产品中最重要的一员，80年代以来，几乎所有的数据库厂商新出的数据库产品都支持关系型数据库，

即使一些非关系数据库产品也几乎都有支持关系数据库的接口。这主要是传统的关系型数据库可以比较好的解决管理和存储关系型数据的问题。随着云计算的发展和大数据时代的到来，关系型数据库越来越无法满足需要，

这主要是由于越来越多的半关系型和非关系型数据需要用数据库进行存储管理，以此同时，分布式技术等新技术的出现也对数据库的技术提出了新的要求，于是越来越多的非关系型数据库就开始出现，这类数据库与传统的关系型数据库在设计和数据结构有了很大的不同，

它们更强调数据库数据的高并发读写和存储大数据，这类数据库一般被称为NoSQL（Not only SQL）数据库。而传统的关系型数据库在一些传统领域依然保持了强大的生命力。

以上内容参考：百度百科——数据库

做科研必备6大文献数据库！

*关于数据库介绍可以点击第一行《做科研必备6大文献数据库！》查看

国内主要有5大期刊数据库一、中国知网提供的《中国学术期刊(光盘版)》也称中国期刊全文数据库由清华同方股份有限公司出版。收录1994年以来国内6 600种期刊,包括了学术期刊于非学术期刊,涵盖理工、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。收录的学术期刊同时作为“中国学术期刊综合评价数据库统计源期刊”。但是收录的期刊不很全面,一些重要期刊未能收录。二、中国生物医学文献数据库(CBMDISC)由数据库是中国医学科学院信息研究所开发研制,收录了自1978年以来1 600余种中国生物医学期刊。范围涉及基础医学、临床医学、预防医学、药学、中医学及中药学等生物医学的各个领域。三、中文生物医学期刊数据库(CMCC)由中国人民解放军医学图书馆数据库研究部研制开发。收录了1994年以来国内正式出版发行的生物医学期刊和一些自办发行的生物医学刊物1 000余种的文献题录和文摘。涉及的主要学科领域有:基础医学、临床医学、预防医学、药学、医学生物学、中医学、中药学、医院管理及医学信息等生物医学的各个领域。并具有成果查新功能医学全在线四、万方数据资源系统(China Info)由中国科技信息研究所,万方数据股份有限公司研制。该数据库收录的期刊学科范围广,包括了学术期刊于非学术期刊,提供约2 000种的电子期刊的全文检索。被收录的学术期刊都获得了“中国核心期刊(遴选)数据库来源期刊”的收录证书。个别期刊甚至将“遴选”改成“精选”,或者干脆去掉。很多作者因此误以为这就是核心期刊。五、维普数据库也称中文科技期刊数据库,维普科技期刊数据库,由中国科学技术信息研究所重庆分所出版。收录了1989年以来我国自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报等学科9 000余种期刊,包括了学术与非学术期刊。收录期刊数量很大,但不足之处是部分国家新闻出版总署公布的非法期刊也被收录了。一般的,学术期刊都能进入至少1个国内期刊数据库。期刊据数据库[3]不是期刊的评价体系,对科研处的期刊性质评价也就缺乏足够的意义,故不宜作为期刊性质评价的依据。1、万方数据万方数据提供中国大陆科技期刊检索，是万方数据股份有限公司建立的专业学术知识服务网站。隶属于万方数据资源系统，对外服务数据由万方数据资源系统统一部署提供。2、全国报刊索引收录全国包括港台地区的期刊8000种左右，月报道量在万条以上，年报道量在44万条左右，书本式用户有3500多家，现又出版光盘数据库。反映了中国政治、经济、军事、科学、文化、文学艺术、历史地理、科技等方面的发展情况，提供了国内外最新学术进展信息。该索引是我国收录报刊种类最多，内容涉及范围最广，持续出版时间最长，与新文献保持同步发展的权威性检索刊物，也是查找建国以来报刊论文资料最重要的检索工具。正文采用分类编排，先后采用过《中国人民大学图书分类法》和自编的《报刊资料分类表》，1980年起，仿《中国图书馆图书分类法》分21类编排，1992年全面改用《中国图书资料分类法》（第三版）编排，2000年开始用《中国图书馆分类法》（第四版）标引，计算机编排。在著录上，《全国报刊索引》从1991年起采用国家标准——《检索期刊条目著录规则》进行著录，包括题名、著译者姓名、报刊名、版本、卷期标识、起止页码、附注等项。同时，“哲社版”采用电脑编排，增加了“著者索引”、“题中人名分析索引”、“引用报刊一览表”，方便了读者的使用。3、超星数字图书馆为目前世界最大的中文在线数字图书馆，提供大量的电子图书资源提供阅读，其中包括文学、经济、计算机等五十余大类，数十万册电子图书，300 万篇论文，全文总量 4亿余页，数据总量30000GB，大量免费电子图书，并且每天仍在不断的增加与更新。覆盖范围：涉及哲学、宗教、社科总论、经典理论、民族学、经济学、自然科学总论、计算机等各个学科门类。本馆已订购67万余册。收录年限：1977年至今。4、维普资讯维普资讯是科学技术部西南信息中心下属的一家大型的专业化数据公司,是中文期刊数据库建设事业的奠基人,公司全称重庆维普资讯有限公司。目前已经成为中国最大的综合文献数据库。从1989年开始，一直致力于对海量的报刊数据进行科学严谨的研究、分析，采集、加工等深层次开发和推广应用。5、中宏数据库中宏数据库由国家发改委所属的中国宏观经济学会、中宏基金、中国宏观经济信息网、中宏经济研究中心联合研创。是由18类大库、74类中库组成，涵盖了九十年代以来宏观经济、区域经济、产业经济、金融保险、投资消费、世界经济、政策法规、统计数字、研究报告等方面的详尽内容，是目前国内门类最全，分类最细，容量最大的经济类数据库。

期刊数据库查重

论文查重是将论文与检测系统的文献资源进行比较，并通过独特的算法进行计算。论文中的查重率检测非常严格，期刊之间的差异也会影响查重率，期刊类型也是影响查重率的因素。在学术检测期刊论文时，论文中的查重率话题非常严肃，因为论文查重率的结果会影响论文的通过，查重率的比例非常关键。那么，期刊论文查重查什么意思？paperfree小编给大家讲解。论文复检是将论文与复检系统的文献资源进行比较，并通过独特的算法进行计算。论文中的复检率检测非常严格，期刊之间的差异也会影响查重率，期刊类型也是影响查重率的因素。期刊论文主要分为核心期刊、普通期刊。核心期刊的重复要求通常高于普通期刊，重复检查标准通常不超过15％，而普通期刊论文的检查标准通常不超过25％。因此，在哪种期刊上发表应明确期刊论文的查重检测规则，以确保我们的论文是准确的。

论文查重就是查论文的重复率，也就是论文中文字的复制比，是很多期刊和高校检测论文中是否存在学术不端行为的检测方式。论文查重是整个论文环节最重要的部分，是真正检测论文是否具有学术研究价值的措施⌄同样也是很多期刊和高校的判定法则，期刊用户只有通过论文查重达到期刊机构稿件发表标准，才能顺利发表论文。当然，在选择查重软件这一阶段，期刊用户要擦亮眼睛，优选知名度比较高的查重系统，如万方检测等，收录数据库庞大，准确率高。

维普是一个中国的学术期刊数据库，提供了大量的学术文献资源。在这个数据库中，维普查重指的是检测文章是否存在抄袭或者剽窃行为。

当作者提交一篇文章时，维普系统会对该篇文章进行文字比对，将其与维普数据库中已经存在的文章进行对比，以检测是否存在重复或者高度相似的内容。

维普查重通常是为了确保学术论文的独立性和原创性，以防止学术不端行为的发生。如果一篇论文被检测出存在抄袭或者剽窃行为，可能会被拒绝发表或者撤回已经发表的文章。

因此，维普查重也是一种保障学术诚信的手段。

ei论文查重数据库

1.知网，大家都知道的一款软件，在知网中查一篇论文的最低价格是 70元/篇，是小分解论文查重，是对于想检测学术不端文献检测系统，而又觉得价格便宜的同学可以选择，限每篇万字符，结果与PMLC、硕博VIP定稿系统有出入！价格虽然在知网是最便宜的，但是效果不好。

本科PMLC大学生论文查重 245元/篇：是最权威的本专科毕业论文查重系统，含”大学生论文联合对比库“，检测结果保证和学校一致！国内95%以上高校使用！知网查重系统是大多数高校都会选择的最终审核系统，但是对于大学生来说，知网查重的收费价格偏高，使用知网查重大学生消费不起，因此，大多数学生都只是使用知网做最后的复查，对于初稿的查重，大学生一般都会选择性价比高的查重网站，但对于家中富裕的大学生，他们可能不会太在乎吧，不过，小编觉得，既然有其他的查重网站可以做到帮你查重，而且性价比也高，大可不必花那么多的冤枉钱，对于知网的看法就是：需要使用，但是只用它做最后的复查。合格率还是需要保证的，不能让你花了钱，毕业论文还不能通过审核吧

2.维普，小编觉得有些复杂，维普查重分为两个版本，个人版和机构版：它们的区别在于

①机构版会有学校的高校自建资源库，学校会上传一部分资料进行比对，这一部分数据是个人版检测没有的。②机构版支持压缩包格式上传检测，管理员帐号有批量上传、下载的功能。个人版不支持上传压缩包，只能单篇上传和下载文档。③没有机构版帐号或检测次数，只能选择个人版付费检测。④机构版是企事业或高校等单位使用，未经单位授权个人无法使用。

收费的话也了解了一下：大学生版、研究生版、编辑部版3元/千字符，职称评定30元/万字符。收费相比与知网来说是比较便宜的。

尝试过使用维普检测，但点击提交论文结果整个网页就卡住了，心情瞬间直线下降，不知道是电脑问题，还是网页问题，

PaperFree是写邦科技于2015年04月03号申请注册的品牌，通过海量的数据对比进行分析，并且给所有的用户提供免费试用，让用户亲身体验，paperfree实时在线改重，改哪里就可以检测哪里，按实际修改句子收费，不改内容不收费，十分的人性化。

收费是元/千字，价格相比于知网，paperfree的的收费是相当低了，小编也在paperfree的官网体验过，感觉是非常不错的。推荐大家使用噢，注册新用户都会送10000+字的。

papertime与paperfree是一家公司的，效果都不错，收费标准一样，小编在知乎上有了解到一位叫做用户写的一篇文章，他亲测过papertime这个查重网站，根据他的经验来看“如果在paperfree/time能降到10以下，在知网应该就稳了。他个人从初稿的20%降到现在的。”最后他在学校知网检测的结果是。

最值得和大家分享的一点就是，papertime与paperfree都可以实现在线改重的功能。根据对比红色、黄色句子和重复文献的来源以及语句的相似程度，可以在网站的右边进行实时改重，边查边改，效率高！

毕业论文怎么降重？有什么技巧么？

ParterTime论文时间-论文查重-免费论文检测

名气比较大的就是知网、维普、万方、PaperPP了，不过知网好像是不对个人开放的，学校机构才可以用。我们一般都是用PaperPP，综合表现比较好吧，准确度、速度什么的都还可以。

1、知网知网是国内最权威、应用最广泛的数据库,想必大家都很熟悉。在国内的晋升考核和毕业考核中,知网查重的要求最为普遍。知网包括了国内绝大多数的期刊和文献,而知网是国内学术论文出版的最终要求,比国内其他数据库使用和认可也更广泛。 Sci是世界上学术价值最高、认可度最高的数据库,可以说是衡量国内外科研水平的最高标尺。国内高水平职称评审有sci 论文发表的相关要求,除此之外,研究生和博士生也有sci 论文出版的要求。 Ei是工程技术的索引,是国际范围内仅次于sci的数据库。具有很强的专业针对性

中国知网期刊检测范围：中国学术期刊网络出版总库中国博士学位论文全文数据库/中国优秀硕士学位论文全文数据库中国重要会议论文全文数据库中国重要报纸全文数据库中国专利全文数据库互联网资源英文数据库(涵盖期刊、博硕、会议的英文数据以及德国Springer、英国Taylor&Francis 期刊数据库等)港澳台学术文献库优先出版文献库互联网文档资源建议先到文天下论文检测网测一下哦，不然杂志社一查，重复率过高，不仅不收，还有可能将作者、二作都放入黑名单中的。

数据库论文8000字

人们把客观存在的事物以数据的形式存储到计算机中，经历了对现实生活中事物特性的认识、概念化到计算机数据库里的具体表示的逐级抽象过程，即现实世界－概念世界－机器世界三个领域。有时也将概念世界称为信息世界；将机器世界称为存储或数据世界。一、三个世界 1、现实世界人们管理的对象存于现实世界中。现实世界的事物及事物之间存在着联系，这种联系是客观存在的，是由事物本身的性质决定的。例如学校的教学系统中有教师、学生、课程，教师为学生授课，学生选修课程并取得成绩。 2、概念世界概念世界是现实世界在人们头脑中的反映，是对客观事物及其联系的一种抽象描述，从而产生概念模型。概念模型是现实世界到机器世界必然经过的中间层次。涉及到下面几个术语：实体：我们把客观存在并且可以相互区别的事物称为实体。实体可以是实际事物，也可以是抽象事件。如一个职工、一场比赛等。实体集：同一类实体的集合称为实体集。如全体职工。注意区分"型"与"值"的概念。如每个职工是职工实体"型"的一个具体"值"。属性：描述实体的特性称为属性。如职工的职工号，姓名，性别，出生日期，职称等。关键字：如果某个属性或属性组合的值能唯一地标识出实体集中的每一个实体，可以选作关键字。用作标识的关键字，也称为码。如"职工号"就可作为关键字。联系：实体集之间的对应关系称为联系，它反映现实世界事物之间的相互关联。联系分为两种，一种是实体内部各属性之间的联系。另一种是实体之间的联系。 3、机器世界存入计算机系统里的数据是将概念世界中的事物数据化的结果。为了准确地反映事物本身及事物之间的各种联系，数据库中的数据必须有一定的结构，这种结构用数据模型来表示。数据模型将概念世界中的实体，及实体间的联系进一步抽象成便于计算机处理的方式。数据模型应满足三方面要求：一是能比较真实地模拟现实世界；二是容易为人所理解；三是便于在计算机上实现。数据结构、数据操作和完整性约束是构成数据模型的三要素。数据模型主要包括网状模型、层次模型、关系模型等，它是按计算机系统的观点对数据建模，用于DBMS的实现。关系数据库采用关系模型作为数据的组织方式。关系数据库因其严格的数学理论、使用简单灵活、数据独立性强等特点，而被公认为最有前途的一种数据库管理系统。它的发展十分迅速，目前已成为占据主导地位的数据库管理系统。自20世纪80年代以来，作为商品推出的数据库管理系统几乎都是关系型的，例如，Oracle，Sybase，Informix，Visual FoxPro等。网络数据库也叫Web数据库。促进Internet发展的因素之一就是Web技术。由静态网页技术的HTML到动态网页技术的CGI、ASP、PHP、JSP等，Web技术经历了一个重要的变革过程。Web已经不再局限于仅仅由静态网页提供信息服务，而改变为动态的网页，可提供交互式的信息查询服务，使信息数据库服务成为了可能。Web数据库就是将数据库技术与Web技术融合在一起，使数据库系统成为Web的重要有机组成部分，从而实现数据库与网络技术的无缝结合。这一结合不仅把Web与数据库的所有优势集合在了一起，而且充分利用了大量已有数据库的信息资源。图1-1是Web数据库的基本结构图，它由数据库服务器（Database Server）、中间件（Middle Ware）、Web服务器（Web Server）、浏览器（Browser）4部分组成。 Web数据库的基本结构它的工作过程可简单地描述成：用户通过浏览器端的操作界面以交互的方式经由Web服务器来访问数据库。用户向数据库提交的信息以及数据库返回给用户的信息都是以网页的形式显示。 Internet技术与相关协议Internet技术在Web数据库技术中扮演着重要的角色。Internet（因特网）专指全球最大的、开放的、由众多网络相互连接而成的计算机网络，并通过各种协议在计算机网络中传递信息。TCP/IP协议是Internet上使用的两个最基本的协议。因此也可以说Internet是全球范围的基于分组交换原理和TCP/IP协议的计算机网络。它将信息进行分组后，以数据包为单位进行传输。Internet在进行信息传输时，主要完成两项任务。（1）正确地将源信息文件分割成一个个数据包，并能在目的地将源信息文件的数据包再准确地重组起来。（2）将数据包准确地送往目的地。TCP/IP协议的作用就是为了完成上述两项任务，规范了网络上所有计算机之间数据传递的方式与数据格式，提供了数据打包和寻址的标准方法。1．TCP/IP协议TCP协议（Transmission Control Protocol，传输控制协议）规定了分割数据和重组数据所要遵循的规则和要进行的操作。TCP协议能保证数据发送的正确性，如果发现数据有损失，TCP将重新发送数据。2．IP协议在Internet上传送数据往往都是远距离的，因此在传输过程中要通过路由器一站一站的转接来实现。路由器是一种特殊的计算机，它会检测数据包的目的地主机地址，然后决定将该数据包送往何处。IP协议（Internet Protocol，网际协议）给Internet中的每一台计算机规定了一个地址，称为IP地址。IP地址的标准是由4部分组成（例如），其中前两部分规定了当前使用网络的管理机构，第3部分规定了当前使用的网络地址，第4部分规定了当前使用的计算机地址。Internet上提供的主要服务有E-mail、FTP、BBS、Telnet、WWW等。其中WWW（World Wide Web，万维网）由于其丰富的信息资源而成为Internet最为重要的服务。3．HTTP协议HTTP协议（Hypertext Transfer Protocol，超文本传输协议）应用在WWW上，其作用是完成客户端浏览器与Web服务器端之间的HTML数据传输。 Web的工作原理与工作步骤万维网简称为Web。Web可以描述为在Internet上运行的、全球的、交互的、动态的、跨平台的、分布式的、图形化的超文本信息系统。1．Web的工作原理Web是伴随着Internet技术而产生的。在计算机网络中，对于提供Web服务的计算机称为Web服务器。Web采用浏览器/服务器的工作方式。每个Web服务器上都放置着大量的Web信息。Web信息的基本单位是Web页（网页），多个网页组成了一个Web节点。每个Web节点的起始页称为“主页”，且拥有一个URL地址（统一资源定位地址）。Web节点之间及网页之间都是以超文本结构（非线性的网状结构）来进行组织的。2．Web的工作步骤Web的工作步骤如下。（1）用户打开客户端计算机中的浏览器软件（例如Internet Explorer）。（2）用户输入要启动的Web主页的URL地址，浏览器将生成一个HTTP请求。（3）浏览器连接到指定的Web服务器，并发送HTTP请求。（4）Web服务器接到HTTP请求，根据请求的内容不同作相应的处理，再将网页以HTML文件格式发回给浏览器。（5）浏览器将网页显示到屏幕上. 图1-2 Web的工作步骤 WWW世界中的标记语言1．HTML语言HTML（Hypertext Markup Language，超文本标记语言）是创建网页的计算机语言。所谓网页实际上就是一个HTML文档。文档内容由文本和HTML标记组成。HTML文档的扩展名就是.html或.htm。浏览器负责解释HTML文档中的标记，并将HTML文档显示成网页。（1）HTML标记HTML标记的作用是告诉浏览器网页的结构和格式。每一个标记用尖括号<>括起来。大多数标记都有一个开始标记和一个结束标记。标记不分大小写。多数标记都带有自己的属性。例如字体标记有FACE、COLOR、SIZE等属性：FACE定义字体；COLOR定义字体的颜色；SIZE定义字体的大小。使用格式： BEIJING 。网页中有很多文本链接和图片链接。链接，又被称为超链接，用于链接到WWW万维网中的其他网页上。在HTML文档中表示超链接的标记是，通过属性HREF指出链接的网页地址URL。使用格式： BEIJING 。（2）HTML程序HTML程序必须以标记开始，以标记结束。在和标记之间主要由两部分组成：文件头和文件体。文件头用标记来标识，文件体用标记来标识。在文件的头部通常包含整个网页的一些信息。例如标记是用来说明网页的名称；标记是用来说明网页的其他信息，如设计者姓名和版权信息等。所有在浏览器中要显示的内容称为网页的主体，必须放在标记中。下面给出的是一个空网页的HTML程序。 (在此标记中写网页的标题) (在此标记中写网页的内容) （3）HTML规范HTML规范又称为HTML标准，它总在不断地发展。每一新版本的出现，HTML都会增加新的特性和内容。有关HTML版本的详细信息请访问网站。在不同的浏览器中，网页的显示效果可能会有所不同。每一个浏览器都使用自己独特的方式解释HTML文档中的标记，并且多数浏览器不完全支持HTML的所有特性。因为，像Microsoft和Netscape公司在HTML标准上又开发了一些特有的HTML标记和属性，称之为HTML的扩展。这些标记和属性只被他们自己的浏览器所识别，不可能被其他公司的浏览器识别。如果浏览器不能识别HTML文档中的标记，则会忽略这个标记。（4）HTML程序的编辑环境与运行环境HTML文档是一个普通的文本文件（ASCII），不包含任何与平台、程序有关的信息。因此HTML文档可以利用任何文本编辑器来方便地生成。要注意的是HTML文档的扩展名必须是.html或.htm。运行HTML文档可以在任何浏览器下进行，并可在浏览器上查看网页的HTML源代码。关于HTML语言中标记的种类与使用方法将会在第5章中更详细地进行介绍。2．可扩展标记语言（XML）HTML是Web上的通用语言，随着Internet的深入人心，WWW上的Web文件日益复杂化、多样化，人们开始感到了HTML这种固定格式的标记语言的不足。1996年W3C开始对HTML的后续语言进行研究，并于1998年正式推出了XML（Extensible Markup Language，可扩展标记语言）。在设计网页时，XML提供了比HTML更灵活的方法。（1）XML语言的特点XML是国际组织W3C为适应WWW的应用，将SGML （Standard Generalized Markup Language）标准进行简化形成的元标记语言。简单地说，XML是使用标记来描述内容或与内容相关的形式信息的通用语言。一个XML文档由标记和字符数据组成。而作为元标记语言，XML不再使标记固定，允许网页的设计者定义数量不限的标记来描述内容，同时还允许设计者创建自己的使用规则。（2）XML的DTDDTD（Document Type Definition,文档类型定义）是一组应用在XML文档中的自定义标记语言的技术规范。DTD中定义了标记的含义及关于标记的语法规则。语法规则中确定了在XML文档中使用哪些标记符，它们应该按什么次序出现，标记符之间如何嵌套，哪些标记符有属性等等。DTD可以包含在它所描述的XML文档中，但通常它是一份单独的文档或者一系列文档。作为外部文件可通过URL链接，被不同的XML文档共享。XML把DTD的定义权开放，不同行业可以根据自己的实际需求定义描述内容的DTD，以适应本行业内部的信息交流和存档需要。因此，适合于不同行业、不同平台的标记语言大批涌现。（3）XML的CSS与XSL强调内容描述与形式描述的分离，一方面可以使XML文件的编写者更集中精力于数据本身，而不受显示方式的细节影响；另一方面允许为相同的数据定义不同的显示方式，从而适合于不同应用、不同媒体，使XML数据得到最大程度的重用。XML文档数据的显示形式是通过样式单定义的。CSS（Cascading Style Sheets）是XML使用的一种标准的级联样式单，XSL（Extensible Style Language）则是可扩展的样式语言。由于XML允许用户创建任何所需的标记，而通用浏览器却既无法预期用户标记的意义，又无法为显示这些标记而提供规则，因此用户必须为自己创建的XML文档编写样式单，样式单可以实现共享。浏览器对一个XML文档的处理过程是，首先去关联它所指定的样式单文件，如果该样式单是一个XSL文件，则按照规定对XML数据进行转换然后再显示，XSL本身也是基于XML语言的，可以将XML转化为HTML后再显示。如果该样式单是一个CSS文件，浏览器就会按照样式单的规定给每个标记赋予一组样式后再显示。 Web数据库访问技术Web数据库访问技术通常是通过三层结构来实现的，如图1-3所示。目前建立与Web数据库连接访问的技术方法可归纳为CGI技术，ODBC技术和ASP、JSP、PHP 技术。 Web数据库访问的三层结构 CGI技术CGI（Common Cateway Interface，通用网关界面）是一种Web服务器上运行的基于Web浏览器输入程序的方法，是最早的访问数据库的解决方案。CGI程序可以建立网页与数据库之间的连接，将用户的查询要求转换成数据库的查询命令，然后将查询结果通过网页返回给用户。一个CGI工作的基本原理如图1-4所示。CGI程序需要通过一个接口才能访问数据库。这种接口多种多样，数据库系统对CGI程序提供了各种数据库接口如Perl、C/C++、VB等。为了使用各种数据库系统，CGI程序支持ODBC方式，通过ODBC接口访问数据库。 CGI工作流程 ODBC技术ODBC（Open Database Connectivity，开放数据库互接）是一种使用SQL的应用程序接口（API）。ODBC最显著的优点就是它生成的程序与数据库系统无关，为程序员方便地编写访问各种DBMS的数据库应用程序提供了一个统一接口，使应用程序和数据库源之间完成数据交换。ODBC的内部结构为4层：应用程序层、驱动程序管理器层、驱动程序层、数据源层。它们之间的关系如图1-5所示。由于ODBC适用于不同的数据库产品，因此许多服务器扩展程序都使用了包含ODBC层的系统结构。 ODBC的内部结构Web服务器通过ODBC数据库驱动程序向数据库系统发出SQL请求，数据库系统接收到的是标准SQL查询语句，并将执行后的查询结果再通过ODBC传回Web服务器，Web服务器将结果以HTML网页传给Web浏览器，工作原理如图1-6所示。 Web服务器通过ODBC访问数据库由于Java语言所显示出来的编程优势赢得了众多数据库厂商的支持。在数据库处理方面，Java提供的JDBC为数据库开发应用提供了标准的应用程序编程接口。与ODBC类似，JDBC也是一种特殊的API，是用于执行SQL语句的Java应用程序接口。它规定了Java如何与数据库之间交换数据的方法。采用Java和JDBC编写的数据库应用程序具有与平台无关的特性。 ASP、JSP、PHP技术ASP是Microsoft开发的动态网页技术，主要应用于Windows NT+IIS或 Windows 9x+PWS平台。确切地说ASP不是一种语言，而是Web服务器端的开发环境。利用ASP可以产生和运行动态的、交互的、高性能的Web服务应用程序。ASP支持多种脚本语言，除了VBScript和Pscript，也支持Perl语言，并且可以在同一ASP文件中使用多种脚本语言以发挥各种脚本语言的最大优势。但ASP默认只支持VBScript和Pscript，若要使用其他脚本语言，必须安装相应的脚本引擎。ASP支持在服务器端调用ActiveX组件ADO对象实现对数据库的操作。在具体的应用中，若脚本语言中有访问数据库的请求，可通过ODBC与后台数据库相连，并通过ADO执行访问库的操作。关于ASP的编程技术将会在第7章中详细介绍。JSP是Sun公司推出的新一代Web开发技术。作为Java家族的一员，几乎可以运行在所有的操作系统平台和Web服务器上，因此JSP的运行平台更为广泛。目前JSP支持的脚本语言只有Java。JSP使用JDBC实现对数据库的访问。目标数据库必须有一个JDBC的驱动程序，即一个从数据库到Java的接口，该接口提供了标准的方法使Java应用程序能够连接到数据库并执行对数据库的操作。JDBC不需要在服务器上创建数据源，通过JDBC、JSP就可以实现SQL语句的执行。PHP是Rasmus Lerdorf推出的一种跨平台的嵌入式脚本语言，可以在Windows、UNIX、Linux等流行的操作系统和IIS、Apache、Netscape等Web服务器上运行，用户更换平台时，无需变换PHP代码。PHP是通过Internet合作开发的开放源代码软件，它借用了C、Java、Perl语言的语法并结合PHP自身的特性，能够快速写出动态生成页面。PHP可以通过ODBC访问各种数据库，但主要通过函数直接访问数据库。PHP支持目前绝大多数的数据库，提供许多与各类数据库直接互连的函数，包括Sybase、Oracle、SQL Server等，其中与SQL Server数据库互连是最佳组合。网络数据库应用系统的层次体系当前，Internet/Intranet技术发展异常迅速，越来越多的数据库应用软件运行在Internet/Intranet环境下。在此之前，数据库应用系统的发展经历了单机结构、集中式结构、客户机/服务器（C/S）结构之后，随着Internet的普及，又出现了浏览器/服务器（B/S）结构与多层结构。在构造一个应用系统时，首先考虑的是系统的体系结构，采用哪种结构取决于系统的网络环境、应用需求等因素。客户机/服务器结构1．二层C/S结构二层C/S结构是当前非常流行的数据库系统结构，在这种结构中，客户机提出请求，服务器对客户机的服务请求做出回答。它把界面和数据处理操作分开在前端（客户端）和后端（服务器端），这个主要特点使得C/S系统的工作速度主要取决于进行大量数据操作的服务器，而不是前端的硬件设备；同时也大大降低了对网络传输速度的要求，因为只须客户端把服务请求发送给数据库服务器，数据库服务器只把服务结果传回前端，如图1-7所示。在设计时，对数据可能有如下不同的处理形式。（1）在处理时，客户机先向服务器索取数据，然后释放数据库，即客户机发出的是文件请求，在客户机端处理数据，最后将结果送回服务器。这种处理方式的缺点很明显：所有的应用处理都在客户端完成，这就要求客户端的计算机必须有足够的能力，以便执行需要的任何程序。更为糟糕的是，由于所有的处理均在客户端完成，每次运行时都要将文件整体传送到客户端，然后才能执行。如：Student表中有30 000条记录，客户端发出命令：Select * From Student Where Sno='200101'这条命令将要求服务器将Student表中的所有记录传送到客户端，然后在客户端执行查询，结果只用到一条记录；如果查询的记录不存在，网络传输的数据实际上是无用的。如此大的数据传输量是不可想象的。因此，人们提出了在服务器中能够执行部分代码的客户机/服务器结构。（2）在处理时，客户机接受用户要求，并发给服务器；在服务器端处理用户要求，最后将结果传回客户机显示或打印。这种处理方式网络通信量较小。客户机向服务器发出的是处理请求，而不是文件请求，处理请求中的代码在服务器端执行后向客户机传送处理后的结果。这样，为了特定任务，客户机上的程序和服务器上的程序协同工作：客户机端的代码用于完成用户的输入输出及数据的检查，而服务器端的代码完成对数据库的操作。客户机/服务器结构的另一个主要特点在于软件、硬件平台的无关性。数据库服务器上的数据库管理系统集中负责管理数据，它向客户端提供一个开放的使用环境，客户端通过数据库接口，如ODBC（开放数据库连接）和SQL语言访问数据库，也就是说，不管客户端采用什么样的硬件和软件，它只要能够通过网络和数据库接口程序连接到服务器，就可对数据库进行访问。在客户机/服务器结构中，常把客户机称为前台，而把服务器端称为后台。前台应用程序的功能包括用户界面、接收用户数据、处理应用逻辑、向后台发出请求、同时接收后台返回的结果，最后再将返回的结果按一定的格式或方式显示给用户。而后台服务器则负责共享外部设备、存取共享数据、响应前台客户端的请求并回送结果等工作。前台的应用程序和数据一般是用户专用的，而后台的数据和代码是所有用户可以共享的。由于数据库服务器不仅要管理共享数据，保证数据的完整性，还要执行一部分代码，完成客户端的一些处理请求，所以对用于服务器的计算机提出较高的要求。最好要采用一台专用的服务器，有较快的处理速度，有大容量的硬盘和内存，支持磁带等大容量的存储设备。上面讲的客户机/服务器结构将应用分在了客户机、服务器两级，称其为两层客户机/ 服务器结构。总之，两层C/S结构的基本工作方式是客户程序向数据库服务器发送SQL请求，服务器返回数据或结果。这种C/S结构有两种实现方式，一种是客户来完成表示部分和应用逻辑部分，而服务器完成数据访问部分，这种情况是以客户为中心的，适用于应用相对简单、数据访问量不是很大的情况。另一种是以服务器为中心的，把一些重要的应用逻辑部分放到服务器上，这样可充分利用服务器的计算能力，减少网络上需要传送的数据。通常以存储过程和触发器的形式出现，但存储过程都依赖于特定数据库，不同数据库之间很难移植，而三层C/S结构可以很好地解决这个问题。注意：触发器（trigger）是数据库系统中，一个在插入、删除、修改操作之后运行的记录级事件代码。不同的事件可以对应不同的动作。通常有3种类型的触发器：INSERT触发器、DELETE触发器和UPDATE触发器。2．三层C/S结构由于两层结构的客户机/服务器系统本身固有的缺陷，使得它不能应用于一些大型、结构较为复杂的系统中，故出现了3层结构的客户机/服务器系统，将两层结构中服务器部分和客户端部分的应用单独划分出来，即采用“客户机—应用服务器—数据库服务器”结构（如图1-8所示）。典型的数据库应用可分为三部分：表示部分、应用逻辑（商业逻辑）部分和数据访问部分，三层结构便是对应于这三部分。图1-8 三层C/S结构其中，应用服务器和数据库服务器可位于同一主机，也可位于不同主机。客户机是应用的用户接口部分，负责用户与应用程序的交互，运行在客户机端的软件也称为表示层软件。应用服务器存放业务逻辑层（也称为功能层）软件，是应用逻辑处理的核心，实现具体业务。它能响应客户机请求，完成业务处理或复杂计算。若有数据库访问任务时，应用服务器层可根据客户机的要求向数据库服务器发送SQL指令。应用逻辑变得复杂或增加新的应用时，可增加新的应用服务器。数据库服务器便是用来执行功能层送来的SQL指令，完成数据的存储、访问和完整性约束等。操作完成后再通过应用服务器向客户机返回操作结果。浏览器/服务器结构随着Internet技术和Web技术的广泛应用，C/S结构已无法满足人们的需要。因为在典型C/S体系中，通常为客户安装前端应用程序的做法已不再现实，并且限制客户端工作环境只能基于Windows、Macintosh或UNIX等操作系统也不切实际。于是基于浏览器/服务器结构（Browser/Server）的系统应运而生。采用B/S结构后，在客户端只需安装一个通用的浏览器即可，不再受具体操作系统和硬件的制约，实现了跨平台的应用。基于B/S结构的典型应用通常采用三层结构：“浏览器—Web服务器—数据库服务器”，B/S模式的工作原理是：通过浏览器以超文本的形式向Web服务器提出访问数据库的请求，Web服务器接受客户请求后，激活对应的CGI程序将超文本HTML语言转化为SQL语法，将这个请求交给数据库，数据库服务器得到请求后，进行数据处理，然后将处理结果集返回给CGI程序。CGI再将结果转化为HTML，并由Web服务器转发给请求方的浏览器，如图1-9所示。图1-9 B/S工作原理在B/S模式中，客户端的标准配置是浏览器，如IE；业务功能处理由独立的应用服务器处理，Web服务器成为应用处理的标准配置；数据处理仍然由数据库服务器处理。从本质上讲，B/S结构与传统的C/S结构都是以同一种请求和应答方式来执行应用的，区别主要在于：C/S是一种两层或三层结构模式，其客户端集中了大量应用软件，而B/S是一种基于超链接（HyperLink）、HTML、Java的三级或多级C/S结构，客户端仅需单一的浏览器软件，是一种全新的体系结构，解决了跨平台问题。到目前，这两种结构在不同方面都有着广泛的应用。虽然C/S结构在Internet环境下明显不如B/S结构具有优势，但它在局域网环境下仍具有优势。 Internet/Intranet信息系统的多层体系结构多层结构应用软件与传统的两层结构应用软件相比，有可伸缩性好、可管理性强、安全性高、软件重用性好等诸多优点，如何在Internet/Intranet环境下构建应用软件体系结构就成为一个非常重要的问题，也是现今软件体系研究的一个新热点。目前各种技术层出不穷，如最初的静态HTML页面、简单的CGI网关程序、Java Applet程序，现在的ASP等Web数据库技术，还有动态的Java在线游戏及PHP技术等。实际上，多层的概念是由Sun公司提出来的。Sun公司提出的多层应用体系包括4层：客户层、顶端Web服务层、应用服务层和数据库层。其中顶端Web服务层是Sun公司多层体系结构中非常重要的一层，它主要起代理和缓存的作用。顶端Web服务器的作用是缓存本地各客户机经常使用的Java Applet程序和静态数据，通常被放置在客户机所在的局域网内，起到一个Java Applet主机（向Web浏览器传送Java Applet程序的计算机）和访问其他服务的代理作用。与普通代理服务器的作用相同。构建多层结构应用软件时，选用Java平台是一个很好的选择，因为它跨越各应用平台。总之，在Java平台上构建多层应用软件体系代表着今后Internet/Intranet应用的趋势。

一、三个世界 1、现实世界人们管理的对象存于现实世界中。现实世界的事物及事物之间存在着联系，这种联系是客观存在的，是由事物本身的性质决定的。例如学校的教学系统中有教师、学生、课程，教师为学生授课，学生选修课程并取得成绩。 2、概念世界概念世界是现实世界在人们头脑中的反映，是对客观事物及其联系的一种抽象描述，从而产生概念模型。概念模型是现实世界到机器世界必然经过的中间层次。涉及到下面几个术语：实体：我们把客观存在并且可以相互区别的事物称为实体。实体可以是实际事物，也可以是抽象事件。如一个职工、一场比赛等。实体集：同一类实体的集合称为实体集。如全体职工。注意区分"型"与"值"的概念。如每个职工是职工实体"型"的一个具体"值"。属性：描述实体的特性称为属性。如职工的职工号，姓名，性别，出生日期，职称等。关键字：如果某个属性或属性组合的值能唯一地标识出实体集中的每一个实体，可以选作关键字。用作标识的关键字，也称为码。如"职工号"就可作为关键字。联系：实体集之间的对应关系称为联系，它反映现实世界事物之间的相互关联。联系分为两种，一种是实体内部各属性之间的联系。另一种是实体之间的联系。 3、机器世界存入计算机系统里的数据是将概念世界中的事物数据化的结果。为了准确地反映事物本身及事物之间的各种联系，数据库中的数据必须有一定的结构，这种结构用数据模型来表示。数据模型将概念世界中的实体，及实体间的联系进一步抽象成便于计算机处理的方式。数据模型应满足三方面要求：一是能比较真实地模拟现实世界；二是容易为人所理解；三是便于在计算机上实现。数据结构、数据操作和完整性约束是构成数据模型的三要素。数据模型主要包括网状模型、层次模型、关系模型等，它是按计算机系统的观点对数据建模，用于DBMS的实现。关系数据库采用关系模型作为数据的组织方式。关系数据库因其严格的数学理论、使用简单灵活、数据独立性强等特点，而被公认为最有前途的一种数据库管理系统。它的发展十分迅速，目前已成为占据主导地位的数据库管理系统。自20世纪80年代以来，作为商品推出的数据库管理系统几乎都是关系型的，例如，Oracle，Sybase，Informix，Visual FoxPro等。网络数据库也叫Web数据库。促进Internet发展的因素之一就是Web技术。由静态网页技术的HTML到动态网页技术的CGI、ASP、PHP、JSP等，Web技术经历了一个重要的变革过程。Web已经不再局限于仅仅由静态网页提供信息服务，而改变为动态的网页，可提供交互式的信息查询服务，使信息数据库服务成为了可能。Web数据库就是将数据库技术与Web技术融合在一起，使数据库系统成为Web的重要有机组成部分，从而实现数据库与网络技术的无缝结合。这一结合不仅把Web与数据库的所有优势集合在了一起，而且充分利用了大量已有数据库的信息资源。图1-1是Web数据库的基本结构图，它由数据库服务器（Database Server）、中间件（Middle Ware）、Web服务器（Web Server）、浏览器（Browser）4部分组成。 Web数据库的基本结构它的工作过程可简单地描述成：用户通过浏览器端的操作界面以交互的方式经由Web服务器来访问数据库。用户向数据库提交的信息以及数据库返回给用户的信息都是以网页的形式显示。 Internet技术与相关协议 Internet技术在Web数据库技术中扮演着重要的角色。Internet（因特网）专指全球最大的、开放的、由众多网络相互连接而成的计算机网络，并通过各种协议在计算机网络中传递信息。TCP/IP协议是Internet上使用的两个最基本的协议。因此也可以说Internet是全球范围的基于分组交换原理和TCP/IP协议的计算机网络。它将信息进行分组后，以数据包为单位进行传输。Internet在进行信息传输时，主要完成两项任务。（1）正确地将源信息文件分割成一个个数据包，并能在目的地将源信息文件的数据包再准确地重组起来。（2）将数据包准确地送往目的地。 TCP/IP协议的作用就是为了完成上述两项任务，规范了网络上所有计算机之间数据传递的方式与数据格式，提供了数据打包和寻址的标准方法。 1．TCP/IP协议 TCP协议（Transmission Control Protocol，传输控制协议）规定了分割数据和重组数据所要遵循的规则和要进行的操作。TCP协议能保证数据发送的正确性，如果发现数据有损失，TCP将重新发送数据。 2．IP协议在Internet上传送数据往往都是远距离的，因此在传输过程中要通过路由器一站一站的转接来实现。路由器是一种特殊的计算机，它会检测数据包的目的地主机地址，然后决定将该数据包送往何处。IP协议（Internet Protocol，网际协议）给Internet中的每一台计算机规定了一个地址，称为IP地址。IP地址的标准是由4部分组成（例如），其中前两部分规定了当前使用网络的管理机构，第3部分规定了当前使用的网络地址，第4部分规定了当前使用的计算机地址。 Internet上提供的主要服务有E-mail、FTP、BBS、Telnet、WWW等。其中WWW（World Wide Web，万维网）由于其丰富的信息资源而成为Internet最为重要的服务。 3．HTTP协议 HTTP协议（Hypertext Transfer Protocol，超文本传输协议）应用在WWW上，其作用是完成客户端浏览器与Web服务器端之间的HTML数据传输。 Web的工作原理与工作步骤万维网简称为Web。Web可以描述为在Internet上运行的、全球的、交互的、动态的、跨平台的、分布式的、图形化的超文本信息系统。 1．Web的工作原理 Web是伴随着Internet技术而产生的。在计算机网络中，对于提供Web服务的计算机称为Web服务器。Web采用浏览器/服务器的工作方式。每个Web服务器上都放置着大量的Web信息。Web信息的基本单位是Web页（网页），多个网页组成了一个Web节点。每个Web节点的起始页称为“主页”，且拥有一个URL地址（统一资源定位地址）。Web节点之间及网页之间都是以超文本结构（非线性的网状结构）来进行组织的。 2．Web的工作步骤 Web的工作步骤如下。（1）用户打开客户端计算机中的浏览器软件（例如Internet Explorer）。（2）用户输入要启动的Web主页的URL地址，浏览器将生成一个HTTP请求。（3）浏览器连接到指定的Web服务器，并发送HTTP请求。（4）Web服务器接到HTTP请求，根据请求的内容不同作相应的处理，再将网页以HTML文件格式发回给浏览器。（5）浏览器将网页显示到屏幕上. 图1-2 Web的工作步骤 WWW世界中的标记语言 1．HTML语言 HTML（Hypertext Markup Language，超文本标记语言）是创建网页的计算机语言。所谓网页实际上就是一个HTML文档。文档内容由文本和HTML标记组成。HTML文档的扩展名就是.html或.htm。浏览器负责解释HTML文档中的标记，并将HTML文档显示成网页。（1）HTML标记 HTML标记的作用是告诉浏览器网页的结构和格式。每一个标记用尖括号<>括起来。大多数标记都有一个开始标记和一个结束标记。标记不分大小写。多数标记都带有自己的属性。例如字体标记有FACE、COLOR、SIZE等属性：FACE定义字体；COLOR定义字体的颜色；SIZE定义字体的大小。使用格式： BEIJING 。网页中有很多文本链接和图片链接。链接，又被称为超链接，用于链接到WWW万维网中的其他网页上。在HTML文档中表示超链接的标记是，通过属性HREF指出链接的网页地址URL。使用格式： BEIJING 。（2）HTML程序 HTML程序必须以标记开始，以标记结束。在和标记之间主要由两部分组成：文件头和文件体。文件头用标记来标识，文件体用标记来标识。在文件的头部通常包含整个网页的一些信息。例如标记是用来说明网页的名称；标记是用来说明网页的其他信息，如设计者姓名和版权信息等。所有在浏览器中要显示的内容称为网页的主体，必须放在标记中。下面给出的是一个空网页的HTML程序。 (在此标记中写网页的标题) (在此标记中写网页的内容) （3）HTML规范 HTML规范又称为HTML标准，它总在不断地发展。每一新版本的出现，HTML都会增加新的特性和内容。有关HTML版本的详细信息请访问网站。在不同的浏览器中，网页的显示效果可能会有所不同。每一个浏览器都使用自己独特的方式解释HTML文档中的标记，并且多数浏览器不完全支持HTML的所有特性。因为，像Microsoft和Netscape公司在HTML标准上又开发了一些特有的HTML标记和属性，称之为HTML的扩展。这些标记和属性只被他们自己的浏览器所识别，不可能被其他公司的浏览器识别。如果浏览器不能识别HTML文档中的标记，则会忽略这个标记。（4）HTML程序的编辑环境与运行环境 HTML文档是一个普通的文本文件（ASCII），不包含任何与平台、程序有关的信息。因此HTML文档可以利用任何文本编辑器来方便地生成。要注意的是HTML文档的扩展名必须是.html或.htm。运行HTML文档可以在任何浏览器下进行，并可在浏览器上查看网页的HTML源代码。关于HTML语言中标记的种类与使用方法将会在第5章中更详细地进行介绍。 2．可扩展标记语言（XML） HTML是Web上的通用语言，随着Internet的深入人心，WWW上的Web文件日益复杂化、多样化，人们开始感到了HTML这种固定格式的标记语言的不足。1996年W3C开始对HTML的后续语言进行研究，并于1998年正式推出了XML（Extensible Markup Language，可扩展标记语言）。在设计网页时，XML提供了比HTML更灵活的方法。（1）XML语言的特点 XML是国际组织W3C为适应WWW的应用，将SGML （Standard Generalized Markup Language）标准进行简化形成的元标记语言。简单地说，XML是使用标记来描述内容或与内容相关的形式信息的通用语言。一个XML文档由标记和字符数据组成。而作为元标记语言，XML不再使标记固定，允许网页的设计者定义数量不限的标记来描述内容，同时还允许设计者创建自己的使用规则。（2）XML的DTD DTD（Document Type Definition,文档类型定义）是一组应用在XML文档中的自定义标记语言的技术规范。DTD中定义了标记的含义及关于标记的语法规则。语法规则中确定了在XML文档中使用哪些标记符，它们应该按什么次序出现，标记符之间如何嵌套，哪些标记符有属性等等。DTD可以包含在它所描述的XML文档中，但通常它是一份单独的文档或者一系列文档。作为外部文件可通过URL链接，被不同的XML文档共享。 XML把DTD的定义权开放，不同行业可以根据自己的实际需求定义描述内容的DTD，以适应本行业内部的信息交流和存档需要。因此，适合于不同行业、不同平台的标记语言大批涌现。（3）XML的CSS与XSL 强调内容描述与形式描述的分离，一方面可以使XML文件的编写者更集中精力于数据本身，而不受显示方式的细节影响；另一方面允许为相同的数据定义不同的显示方式，从而适合于不同应用、不同媒体，使XML数据得到最大程度的重用。XML文档数据的显示形式是通过样式单定义的。CSS（Cascading Style Sheets）是XML使用的一种标准的级联样式单，XSL（Extensible Style Language）则是可扩展的样式语言。由于XML允许用户创建任何所需的标记，而通用浏览器却既无法预期用户标记的意义，又无法为显示这些标记而提供规则，因此用户必须为自己创建的XML文档编写样式单，样式单可以实现共享。浏览器对一个XML文档的处理过程是，首先去关联它所指定的样式单文件，如果该样式单是一个XSL文件，则按照规定对XML数据进行转换然后再显示，XSL本身也是基于XML语言的，可以将XML转化为HTML后再显示。如果该样式单是一个CSS文件，浏览器就会按照样式单的规定给每个标记赋予一组样式后再显示。 Web数据库访问技术 Web数据库访问技术通常是通过三层结构来实现的，如图1-3所示。目前建立与Web数据库连接访问的技术方法可归纳为CGI技术，ODBC技术和ASP、JSP、PHP 技术。 Web数据库访问的三层结构 CGI技术 CGI（Common Cateway Interface，通用网关界面）是一种Web服务器上运行的基于Web浏览器输入程序的方法，是最早的访问数据库的解决方案。CGI程序可以建立网页与数据库之间的连接，将用户的查询要求转换成数据库的查询命令，然后将查询结果通过网页返回给用户。一个CGI工作的基本原理如图1-4所示。 CGI程序需要通过一个接口才能访问数据库。这种接口多种多样，数据库系统对CGI程序提供了各种数据库接口如Perl、C/C++、VB等。为了使用各种数据库系统，CGI程序支持ODBC方式，通过ODBC接口访问数据库。 CGI工作流程 ODBC技术 ODBC（Open Database Connectivity，开放数据库互接）是一种使用SQL的应用程序接口（API）。ODBC最显著的优点就是它生成的程序与数据库系统无关，为程序员方便地编写访问各种DBMS的数据库应用程序提供了一个统一接口，使应用程序和数据库源之间完成数据交换。ODBC的内部结构为4层：应用程序层、驱动程序管理器层、驱动程序层、数据源层。它们之间的关系如图1-5所示。由于ODBC适用于不同的数据库产品，因此许多服务器扩展程序都使用了包含ODBC层的系统结构。 ODBC的内部结构 Web服务器通过ODBC数据库驱动程序向数据库系统发出SQL请求，数据库系统接收到的是标准SQL查询语句，并将执行后的查询结果再通过ODBC传回Web服务器，Web服务器将结果以HTML网页传给Web浏览器，工作原理如图1-6所示。 Web服务器通过ODBC访问数据库由于Java语言所显示出来的编程优势赢得了众多数据库厂商的支持。在数据库处理方面，Java提供的JDBC为数据库开发应用提供了标准的应用程序编程接口。与ODBC类似，JDBC也是一种特殊的API，是用于执行SQL语句的Java应用程序接口。它规定了Java如何与数据库之间交换数据的方法。采用Java和JDBC编写的数据库应用程序具有与平台无关的特性。 ASP、JSP、PHP技术 ASP是Microsoft开发的动态网页技术，主要应用于Windows NT+IIS或 Windows 9x+PWS平台。确切地说ASP不是一种语言，而是Web服务器端的开发环境。利用ASP可以产生和运行动态的、交互的、高性能的Web服务应用程序。ASP支持多种脚本语言，除了VBScript和Pscript，也支持Perl语言，并且可以在同一ASP文件中使用多种脚本语言以发挥各种脚本语言的最大优势。但ASP默认只支持VBScript和Pscript，若要使用其他脚本语言，必须安装相应的脚本引擎。ASP支持在服务器端调用ActiveX组件ADO对象实现对数据库的操作。在具体的应用中，若脚本语言中有访问数据库的请求，可通过ODBC与后台数据库相连，并通过ADO执行访问库的操作。关于ASP的编程技术将会在第7章中详细介绍。 JSP是Sun公司推出的新一代Web开发技术。作为Java家族的一员，几乎可以运行在所有的操作系统平台和Web服务器上，因此JSP的运行平台更为广泛。目前JSP支持的脚本语言只有Java。JSP使用JDBC实现对数据库的访问。目标数据库必须有一个JDBC的驱动程序，即一个从数据库到Java的接口，该接口提供了标准的方法使Java应用程序能够连接到数据库并执行对数据库的操作。JDBC不需要在服务器上创建数据源，通过JDBC、JSP就可以实现SQL语句的执行。 PHP是Rasmus Lerdorf推出的一种跨平台的嵌入式脚本语言，可以在Windows、UNIX、Linux等流行的操作系统和IIS、Apache、Netscape等Web服务器上运行，用户更换平台时，无需变换PHP代码。PHP是通过Internet合作开发的开放源代码软件，它借用了C、Java、Perl语言的语法并结合PHP自身的特性，能够快速写出动态生成页面。PHP可以通过ODBC访问各种数据库，但主要通过函数直接访问数据库。PHP支持目前绝大多数的数据库，提供许多与各类数据库直接互连的函数，包括Sybase、Oracle、SQL Server等，其中与SQL Server数据库互连是最佳组合。网络数据库应用系统的层次体系当前，Internet/Intranet技术发展异常迅速，越来越多的数据库应用软件运行在Internet/Intranet环境下。在此之前，数据库应用系统的发展经历了单机结构、集中式结构、客户机/服务器（C/S）结构之后，随着Internet的普及，又出现了浏览器/服务器（B/S）结构与多层结构。在构造一个应用系统时，首先考虑的是系统的体系结构，采用哪种结构取决于系统的网络环境、应用需求等因素。客户机/服务器结构 1．二层C/S结构二层C/S结构是当前非常流行的数据库系统结构，在这种结构中，客户机提出请求，服务器对客户机的服务请求做出回答。它把界面和数据处理操作分开在前端（客户端）和后端（服务器端），这个主要特点使得C/S系统的工作速度主要取决于进行大量数据操作的服务器，而不是前端的硬件设备；同时也大大降低了对网络传输速度的要求，因为只须客户端把服务请求发送给数据库服务器，数据库服务器只把服务结果传回前端，如图1-7所示。在设计时，对数据可能有如下不同的处理形式。（1）在处理时，客户机先向服务器索取数据，然后释放数据库，即客户机发出的是文件请求，在客户机端处理数据，最后将结果送回服务器。这种处理方式的缺点很明显：所有的应用处理都在客户端完成，这就要求客户端的计算机必须有足够的能力，以便执行需要的任何程序。更为糟糕的是，由于所有的处理均在客户端完成，每次运行时都要将文件整体传送到客户端，然后才能执行。如：Student表中有30 000条记录，客户端发出命令： Select * From Student Where Sno='200101' 这条命令将要求服务器将Student表中的所有记录传送到客户端，然后在客户端执行查询，结果只用到一条记录；如果查询的记录不存在，网络传输的数据实际上是无用的。如此大的数据传输量是不可想象的。因此，人们提出了在服务器中能够执行部分代码的客户机/服务器结构。（2）在处理时，客户机接受用户要求，并发给服务器；在服务器端处理用户要求，最后将结果传回客户机显示或打印。这种处理方式网络通信量较小。客户机向服务器发出的是处理请求，而不是文件请求，处理请求中的代码在服务器端执行后向客户机传送处理后的结果。这样，为了特定任务，客户机上的程序和服务器上的程序协同工作：客户机端的代码用于完成用户的输入输出及数据的检查，而服务器端的代码完成对数据库的操作。客户机/服务器结构的另一个主要特点在于软件、硬件平台的无关性。数据库服务器上的数据库管理系统集中负责管理数据，它向客户端提供一个开放的使用环境，客户端通过数据库接口，如ODBC（开放数据库连接）和SQL语言访问数据库，也就是说，不管客户端采用什么样的硬件和软件，它只要能够通过网络和数据库接口程序连接到服务器，就可对数据库进行访问。在客户机/服务器结构中，常把客户机称为前台，而把服务器端称为后台。前台应用程序的功能包括用户界面、接收用户数据、处理应用逻辑、向后台发出请求、同时接收后台返回的结果，最后再将返回的结果按一定的格式或方式显示给用户。而后台服务器则负责共享外部设备、存取共享数据、响应前台客户端的请求并回送结果等工作。前台的应用程序和数据一般是用户专用的，而后台的数据和代码是所有用户可以共享的。由于数据库服务器不仅要管理共享数据，保证数据的完整性，还要执行一部分代码，完成客户端的一些处理请求，所以对用于服务器的计算机提出较高的要求。最好要采用一台专用的服务器，有较快的处理速度，有大容量的硬盘和内存，支持磁带等大容量的存储设备。上面讲的客户机/服务器结构将应用分在了客户机、服务器两级，称其为两层客户机/ 服务器结构。总之，两层C/S结构的基本工作方式是客户程序向数据库服务器发送SQL请求，服务器返回数据或结果。这种C/S结构有两种实现方式，一种是客户来完成表示部分和应用逻辑部分，而服务器完成数据访问部分，这种情况是以客户为中心的，适用于应用相对简单、数据访问量不是很大的情况。另一种是以服务器为中心的，把一些重要的应用逻辑部分放到服务器上，这样可充分利用服务器的计算能力，减少网络上需要传送的数据。通常以存储过程和触发器的形式出现，但存储过程都依赖于特定数据库，不同数据库之间很难移植，而三层C/S结构可以很好地解决这个问题。注意：触发器（trigger）是数据库系统中，一个在插入、删除、修改操作之后运行的记录级事件代码。不同的事件可以对应不同的动作。通常有3种类型的触发器：INSERT触发器、DELETE触发器和UPDATE触发器。 2．三层C/S结构由于两层结构的客户机/服务器系统本身固有的缺陷，使得它不能应用于一些大型、结构较为复杂的系统中，故出现了3层结构的客户机/服务器系统，将两层结构中服务器部分和客户端部分的应用单独划分出来，即采用“客户机—应用服务器—数据库服务器”结构（如图1-8所示）。典型的数据库应用可分为三部分：表示部分、应用逻辑（商业逻辑）部分和数据访问部分，三层结构便是对应于这三部分。图1-8 三层C/S结构其中，应用服务器和数据库服务器可位于同一主机，也可位于不同主机。客户机是应用的用户接口部分，负责用户与应用程序的交互，运行在客户机端的软件也称为表示层软件。应用服务器存放业务逻辑层（也称为功能层）软件，是应用逻辑处理的核心，实现具体业务。它能响应客户机请求，完成业务处理或复杂计算。若有数据库访问任务时，应用服务器层可根据客户机的要求向数据库服务器发送SQL指令。应用逻辑变得复杂或增加新的应用时，可增加新的应用服务器。数据库服务器便是用来执行功能层送来的SQL指令，完成数据的存储、访问和完整性约束等。操作完成后再通过应用服务器向客户机返回操作结果。浏览器/服务器结构随着Internet技术和Web技术的广泛应用，C/S结构已无法满足人们的需要。因为在典型C/S体系中，通常为客户安装前端应用程序的做法已不再现实，并且限制客户端工作环境只能基于Windows、Macintosh或UNIX等操作系统也不切实际。于是基于浏览器/服务器结构（Browser/Server）的系统应运而生。采用B/S结构后，在客户端只需安装一个通用的浏览器即可，不再受具体操作系统和硬件的制约，实现了跨平台的应用。基于B/S结构的典型应用通常采用三层结构：“浏览器—Web服务器—数据库服务器”，B/S模式的工作原理是：通过浏览器以超文本的形式向Web服务器提出访问数据库的请求，Web服务器接受客户请求后，激活对应的CGI程序将超文本HTML语言转化为SQL语法，将这个请求交给数据库，数据库服务器得到请求后，进行数据处理，然后将处理结果集返回给CGI程序。CGI再将结果转化为HTML，并由Web服务器转发给请求方的浏览器，如图1-9所示。图1-9 B/S工作原理在B/S模式中，客户端的标准配置是浏览器，如IE；业务功能处理由独立的应用服务器处理，Web服务器成为应用处理的标准配置；数据处理仍然由数据库服务器处理。从本质上讲，B/S结构与传统的C/S结构都是以同一种请求和应答方式来执行应用的，区别主要在于：C/S是一种两层或三层结构模式，其客户端集中了大量应用软件，而B/S是一种基于超链接（HyperLink）、HTML、Java的三级或多级C/S结构，客户端仅需单一的浏览器软件，是一种全新的体系结构，解决了跨平台问题。到目前，这两种结构在不同方面都有着广泛的应用。虽然C/S结构在Internet环境下明显不如B/S结构具有优势，但它在局域网环境下仍具有优势。 Internet/Intranet信息系统的多层体系结构多层结构应用软件与传统的两层结构应用软件相比，有可伸缩性好、可管理性强、安全性高、软件重用性好等诸多优点，如何在Internet/Intranet环境下构建应用软件体系结构就成为一个非常重要的问题，也是现今软件体系研究的一个新热点。目前各种技术层出不穷，如最初的静态HTML页面、简单的CGI网关程序、Java Applet程序，现在的ASP等Web数据库技术，还有动态的Java在线游戏及PHP技术等。实际上，多层的概念是由Sun公司提出来的。Sun公司提出的多层应用体系包括4层：客户层、顶端Web服务层、应用服务层和数据库层。其中顶端Web服务层是Sun公司多层体系结构中非常重要的一层，它主要起代理和缓存的作用。顶端Web服务器的作用是缓存本地各客户机经常使用的Java Applet程序和静态数据，通常被放置在客户机所在的局域网内，起到一个Java Applet主机（向Web浏览器传送Java Applet程序的计算机）和访问其他服务的代理作用。与普通代理服务器的作用相同。构建多层结构应用软件时，选用Java平台是一个很好的选择，因为它跨越各应用平台。总之，在Java平台上构建多层应用软件体系代表着今后Internet/Intranet应用的趋势。

有图片的，这里发不了图片，满意我的论文加分后联系我，我发给你。基于关系数据库的模式匹配技术研究摘要随着网络技术的发展，信息处理需要对大量的、异构的数据源的数据进行统一存取，多源异构数据的集成问题就显得十分重要。而模式匹配是数据集成领域的一个基本技术。文章提出一种解决关系数据库语义冲突问题的模式匹配技术，以实现异构数据的共享与互操作。关键词数据集成；模式匹配；语义冲突1 引言随着计算机及网络技术的快速发展，网络上的各种信息以指数级爆炸性增长，成为了一个巨大的信息库，同时各企业单位开发了大量的软硬件平台各异的应用系统，在各种应用系统下又积累了丰富的数据资源。这样就形成了成千上万个异构的数据源，多为传统的关系数据库数据。这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据，使各数据源间的互操作变得复杂。为了更好地利用这些异构信息，以及不造成企业应用系统的重复建设和数据资源的浪费，模式匹配技术吸引了众多关注。本文针对模式匹配过程中存在的语义冲突进行分类，并提出了相应的解决策略，以达到异构数据源的共享和互操作。2 模式匹配中的冲突问题在数据集成领域中，由于数据源系统多是独立开发，数据源是相对自治的，因此描述数据的数据模型或存储结构经常会出现模式的不一致，数据源的自治性和数据源模式的异构性使数据源在共享和互操作上存在了语义冲突。这些正是模式匹配的焦点问题，它们形式上的性质使得人们很容易想到要用模式匹配去解决逻辑、语义和知识的描述问题。对于描述模式匹配中的语义冲突有两种较有代表性的分类[4]。第一种分类将冲突分为异类冲突、命名冲突、语义冲突和结构冲突。第二种分类主要是对第一类异类冲突概念的一个细致的改进，但和其它分类仍有细微的不同，它把异类冲突看作是语义不一致的一类(如语义冲突)，把冲突分为命名冲突、域冲突、元数据冲突、结构冲突、属性丢失和硬件/软件不同。模式匹配是一项复杂而繁重的任务，所能集成的数据源越来越多，上述冲突情况也会越来越普遍，想解决所有的模式冲突是不现实的。本文主要解决关系数据模式之间的语义冲突。3 模式匹配中的语义冲突本文所提出的模式匹配方法是根据关系数据库的特点设计的。关系数据库中关系的基本单位是属性，属性本身就包含着语义信息，因此异构数据源语义相似性就围绕着数据源模式中的属性来进行，并在匹配的过程中解决异构数据源模式之间的一系列语义冲突。语义匹配体系结构本文提出的语义匹配体系结构采用数据集成中的虚拟法数据集成系统的典型体系结构，采用将局部模式匹配到全局模式的语义匹配体系结构，自下而上地建立全局模式。首先进行模式转化，消除因各种局部数据模式之间的差异所带来的影响，解决各种局部模式之间的语义冲突等，然后在转化后的模式的基础上进行模式匹配，其主要手段是提供各数据源的虚拟的集成视图。数据仍保存在各数据源上，集成系统仅提供一个虚拟的集成视图和对该集成视图的查询的处理机制。系统能自动地将用户对集成模式的查询请求转换成对各异构数据源的查询。在这种体系结构中，中间层根本不实际存储数据，当客户端发出查询请求时，仅是简单地将查询发送到适当的数据源上。由于该方法不需要重复存储大量数据，并能保证查询到最新的数据，因此比较适合于高度自治、集成数量多且更新变化快的异构数据源集成。本文中的语义匹配的体系结构如图1所示。关系数据库模式中语义冲突问题分类及其解决策略大多数数据库系统提供了一套概念结构来对现实世界的数据进行建模。每一个概念结构被认为是一个类型，它可以是一种复杂类型或一种基本类型。类型和它所表示的数据间的联系就称为语义[3]。在关系数据库中，一个关系模式是一个有序对(R，c)，其中R为模式所指向的关系(表)的名称，而c则为具有不同名称的属性的有限集。同时，属性也是一个有序对(N，D)，其中N为属性的名称，而D则为一个域。可以看出关系模式的基本单位是属性。属性本身就包含着语义信息，因此模式语义相似性就围绕模式中的属性来进行，并在模式匹配的过程中解决异构数据库模式之间的一系列语义冲突。根据语义的定义，在关系数据库系统中，语义系统是由模式、模式的属性、模式中属性之间的联系和模式间的属性之间的联系构成。这里将语义分为3级：模式级、属性级和实例级。下面将异构模式中存在的语义冲突问题进行了分类，并阐述了各种语义冲突的解决策略：1)模式级冲突(1)关系命名冲突。包括关系名同义词和关系名同形异义词。前者进行换名或建立关系名同义词表以记载该类冲突；后者进行换名或建立关系名同形异义词表以记载该类冲突。(2)关系结构冲突。分为包含冲突和相交冲突。包含冲突是指在含义相同的两个关系 R1 和 R2 中一个关系的属性集是另一个的属性子集。相交冲突是指两关系属性集的交不为空，我们用 attrset 代表关系的属性集。对包含冲突：①如果两个关系的属性集相同即attrset(R1)=attrset(R2)，则合并这两个对象，Merge(R1， R2)into R3；②如果 attrset(R1) attrset(R2)，则 attrset(R2')=attrset(R2)－attrset(R1)，attrset(R1') = attrset(R1)；③对相交冲突：通常概括语义进行如下解决：generalize(R1，R2)其中 attrset(R3)=attrset(R1)∩attrset(R2)， attrset(R1')= attrset(R1)－attrset(R3)；attrset(R2')=attrset(R2)－attrset(R3)。(3)关系关键字冲突：两个含义相同的关系具有不同的关键字约束。包括候选关键字冲突和主关键字冲突。解决候选关键字冲突的方法是，将两关系的候选关键字的交集作为两关系的候选关键字；解决主关键字冲突的方法是，从两关系的公共候选关键字中选一个分别作为两关系的主关键字。(4)多对多的关系冲突：两个数据库中用不同数量的关系来表达现实世界的相同语义信息，就产生了多对多的关系冲突，这种冲突分3种：一对多，多对一和多对多。解决方法是在表示相同语义信息的数据库中关系之间建立映射来表示多对多的关系。2)属性级冲突(1)属性命名冲突：分属性名同义词冲突和属性名同形异义词。前者的解决方法是，换名或建立属性名同义词字典；后者的解决方法是，换名或建立属性名同形异义词字典。(2)属性约束冲突：分属性类型冲突和属性长度冲突两种。当在两个相关的关系R1和R2的属性N1和N2具有不同的属性类型时，就发生属性类型冲突。解决方法是在全局模式中将发生属性类型冲突的属性统一到某种属性类型。对属性长度的解决方法是，在全局模式中将发生属性长度类型冲突的属性对统一定义为最大者就可。(3)多对多的属性冲突：两个数据库中的关系分别用不同数量的属性来表达现实世界中相同的语义信息时，就发生了多对多的属性冲突，这种冲突分3种：一对多，多对一和多对多。解决方法是在表示相同语义信息的数据库中关系的属性之间建立映射来表示这种多对多的关系。3)实例级冲突(1)不兼容关系实例冲突：当含义相同的数据项在不同的数据库中存在不一致的数据值时就发生了不兼容关系实例冲突。其解决方法是：将关系实例的最近修改作为关系实例冲突部分的值，但不能保证数据的正确性。(2)关系实例表示冲突：关系实例表示冲突是指用不兼容的符号、量纲和精度来表示相关关系实例中等价的数据元素，主要包括表达冲突、量纲冲突和精度冲突。表达冲突是指在两个相关的关系R1和R2中含义相同的属性N1和N2具有不同的数据表达时，这种冲突使用语义值的概念来解决，即将表示同一概念的多种表达在全局数据中进行统一即可。量纲冲突是指在两个相关的关系R1和R2和中含义相同的属性N1和N2具有不同的量纲表示。量纲冲突也可以语义值加以解决，解决过程如下：分别定义发生量纲冲突的局部数据源的语义值模式和语义值说明，然后再定义全局数据模式中相应的语义值模式和语义值说明，将发生量纲冲突的属性值在全局模式中进行统一。精度冲突是指在两个相关的关系 R1 和 R2 中含义相同的属性具有不同的精度。其解决方法是在全局模式中将发生精度冲突的数据项定义为最高精度即可。4 总结本文针对异构数据源管理自治和模式异构的特点，提出了数据源集成模式匹配的体系结构，制定了匹配策略，研究了基于语义的模式匹配过程。以关系模式为参考模式，对异构数据源关系模式间可能存在的语义冲突问题进行了分类，并阐述了解决这些语义冲突的策略。参考文献[1] Bergamaschi S， Castano S， Vincini M. Semantic Integration of Semistructured and Structured Data Sources [J]. SIGMOD Record， 1999， 28(1)： 54-59.[2] Li W， Clifton C， Liu S. Database Integration Using Neural Network： Implementation and Experiences [J]. Knowledge and Information Systems， 2000， 2(1).[3] Reddy M P， Prasad B E， GReddy P. A Methodology for Integration of Heterogeneous Databases [J]. Information System， 1999，24(5).[4] Rahm E，Bernstein Survey of Approaches to Automatic Schema Matching[J]. The International Journal on Very Large Data Bases (VLDB)，2001，10(4)：334-350.[5] 孟小峰，周龙骧，王珊.数据库技术发展趋势[J].软件学报，2004，15(12)：1822-1835[6] 邓志鸿，唐世渭，张铭，等.Ontology研究综述[J].北京大学学报( 自然科学版)，2002，38(5)：730-738[7] 郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息，2006，22(6-3)相关文献：基于XML的多数据库系统集成数据模型 - 华中科技大学学报：自然科学版 - 卢晓蓉陈传波等基于CORBA和XML的多数据库系统研究 - 郑州轻工业学院学报：自然科学版 - 张素智,钱慎一,卢正鼎,集成数据库和文件系统的多数据库事务模型 - 华中理工大学学报 - 卢正鼎肖卫军基于主动规则对象的分布式多数据库系统集成 - 小型微型计算机系统 - 胡华,高济,基于CORBA的多数据库系统 - 计算机科学 - 石祥滨张斌基于XML的文件系统与多数据库系统的集成 - 小型微型计算机系统 - 卢正鼎李兵等基于CORBA／XML的多数据库系统的研究与实现 - 计算机研究与发展 - 卢正鼎李兵等多数据库系统集成平台CMDatabase体系结构 - 计算机工程 - 魏振钢郭山清贾忠伟多数据库系统的数据模式集成与查询处理 - 电脑开发与应用 - 陶世群数据库网格：基于网格的多数据库系统 - 计算机工程与应用 - 任浩李志刚肖侬高校学生收费系统基于多数据库系统集成的一种实践 - 昆明冶金高等专科学校学报 - 杨滨生,蒋涛勇,张中祥,谢静静,基于RDBMS的地理信息集成数据库系统 - 计算机工程 - 江崇礼王丽佳等基于CORBA的异构数据库系统集成模型的研究 - 现代计算机：下半月版 - 陈刚基于分布式对象技术的多数据库系统 - 计算机工程与科学 - 韩伟红隋品波基于CORBA的多数据库系统互操作技术 - 计算机科学 - 肖明,肖毅,

索引序列
论文数据库字段名查重
论文四大数据库名字
期刊数据库查重
ei论文查重数据库
数据库论文8000字
返回顶部

论文数据库字段名查重