以大规模数据库为基础的数据挖掘系统构建
摘 要:基于大规模数据库构建数据挖掘系统的目的在信息化迅速发展的今天对数据库功能实现更深度的发掘,促进决策者从巨大的数据量中迅速、准确的找到所需的数据资源,并基于此来实现有效决策。本研究就笔者工作经验提出了数据挖掘系统的构建方法,期望与同行业者分享和相互学习。
关键词:数据库;数据挖掘;系统构建;大规模
数据库技术的建立使大量的电子信息得以储存和抽取,但在浩瀚如烟的数字式化信息资源库中,如何更快、更好的将需要的有效信息提炼和挖掘出来,逐渐成为大规模数据库系统的重要课题研究之一[1]。数据挖掘技术是一种在数据库中提取具有未知性、隐含性、潜在性的有用信息的特殊方法和过程,包含了关联规则、分类、聚类、泛化、预测等多个方面,而获取信息的准确性、挖掘操作的伸缩性、数据分析工具的实用性等成为近些年的研究热点。本研究就笔者工作经验提出了数据挖掘系统的构建方法,期望与同行业者分享和相互学习。
1.数据挖掘系统的功能
1.1数据的泛化与清洗功能
该数据挖掘系统可使已有数据泛化至更高的层次,利用GDBR的泛化集成算法将时间和空间的复杂度进行条件关联,并采用N-Gram技术高效、准确的对系统中具有相似性的重复记录进行检测和梳理[2],对较常见的拼写错误进行规范的删除、插入、替换、交换等智能操作,达到清洗效果。由于常规的消除基本算法在检测的精度方面存在一定的缺陷,本系统对该消除基本算法进行了一定的改进,合理应用统计学原理减噪,结合正、逆双向的重复矩阵,加大了对拼写错误的检出率和修改准确率。
1.2数据的挖掘功能
该系统对数据的挖掘是在相关的关联、时序等规则下,对数据进行有效分类、聚类,达到期望的数据挖掘系统应用目的。
数据中具有频繁性的项集进行寻找和整合,实现Apriori算法,再通过频繁的项集形成关联规则。其方法是:假设频繁项集记为l,l中的所有非空子集记为a,若support(l)/support(a)的值超过min conf,那么规则a=>(l-a)直接输出;若l的非空子集不满足以上条件,即无法输出相应规则,则不以a来形成关联规则。时序规则类似于关联规则,但其更倾向于对系统内项集在时间上的关联性,该系统应用AprioriAll算法来实现时序规则[3]。
关联规则从广义上而言包含了强规则、随机规则和例外规则。例外规则呈现了小部分数据所服从的规则,其虽然数量不多,但具有高可信度,是对可预测信息以外的、不被我们现阶段所知的信息产生的规则。例外关联规则可满足最小可信度的系统设置,本系统还可由此生成CAR、ECAR和删除SCAR。
对于已经有明确定义和分类的数据信息,可对其产生具有描述性的数据类别,也可对未知类别的数据产生相应的分类标准,即分类器。在本系统中,应用了区间分类器,可达到更高的准确率和分类精度,并减少决策树分类器可能产生的过深树状延伸。
聚类算法则是将一些密度较高的簇进行合并,采用CURE算法,以多个代表点标记不同的簇,从而形成一定的簇分布框架,再对特殊形状进行有效识别,扩大数据处理量和增强处理能力。层次聚类法是该系统主要应用的聚类方法,在方法启用前,数据挖掘系统会自动将所有信息对象进行数据空间分布的划分,使其形成多个数据单元,并根据单元特性计算簇的分布。另一种比较具有特色的聚类方法是密度聚类法,通过改进Dbscan算法,以代表性邻居对象的扩展种子点选取加快算法速度、以较小分区聚类来实现数据分区、以取样数据聚类来实现整个数据库的聚类,实现更加有效的系统聚类运算。
2.数据挖掘系统的构建方法
2.1整体框架结构
该系统把各类相关模块进行紧密的结合,并形成具有层次性的数据结构,包括多数据源、多类输出、多种参数的差别性操作功能,从而实现各挖掘操作模块之间的相互独立,使系统的功能性更强、运行更稳定。但作为一个系统整体,各模块间又存在着协调统一的相互关联性,使各个模块所应用的数据源、数据参数及挖掘结果能够实现规范化、系统性操作。由于该系统扩大了数据挖掘的范围,使挖掘对象不仅存在于数据库当中,还可能存在于相应的文件当中,故而系统中亦提供了相应的文件信息处理方法。为方便挖掘结果的呈现、并对决策分析实现远期性的支持,系统还设置了对数据挖掘结果的自动保留功能,扩大了应用范围。当然,由于计算机的操作者是人,整个系统还具有友好的操作界面,便于系统的应用者和决策者进行决策分析,实现准确决策。
2.2模块设置
根据以上对本系统框架结构的诠释,特别设置了如下模块以实现该数据挖掘系统的相关功能。
挖掘模块用来对数据库中不同数据实现挖掘操作功能,不同的挖掘模块相互独立,但统一受数据库的管理模块控制,其数据来源由存储控制模块产生,通过挖掘将相应数据写入到挖掘库中,为其它模块提供数据依据。
预处理模块以数据源定义、格式化、过滤等为主要功能,使整个系统更具有实用性和操作性,其中以数据映射、类型映射和列映射为主要子模块。数据映射是将源表数据映射成为ID形式[4],再生成相应的对照表,使形式不同的数据通过映射形成统一的、具有挖掘性的模块形式。类型映射是对源数据进行类型的转换,这种转换具有强制性,使不同类型的数据库数据形成统一,便于挖掘。列映射从源数据中提取需要的列,便于减少数据量、加速运算速度。
存储控制模块是对整个数据库中的各数据进行统一的操作,而外部文件则需要先行导入后再进行存储控制。底层接口采用ODBC技术,并应用缓冲和内存索引功能来加速系统的运算能力。
挖掘管理模块是整个数据挖掘系统的核心模块,对于用户在数据库中挖掘到的各类信息结果,均利用挖掘库进行存放。挖掘库直接设立在系统数据库当中,便于管理和调用。挖掘库管理包括数据准备、数据挖掘和数据存放过程中的各类操作,这些操作信息在挖掘库中的存放具有顺序性,有利于操作的便捷。但是,数据挖掘操作在整个挖掘过程中具有非独立性,需要以另一个数据挖掘操作结果为源头,并生成新的挖掘结果,而这一新结果很可能又成为另一个挖掘过程的数据源头。
2.3界面设置
该系统的主界面类似于Explorer的界面风格,具有人性化、可操作性、美观等特点。利用不同的图形技术来对不同挖掘结果进行表述。系统应用表格来表示泛化及清洗结果,利用
树状结构来对决策树进行呈现,用二维和三维点来对聚类结果进行显示,用文本显示各类规则与模式。
3.结语
目前基于大规模数据库构建数据挖掘系统的研究较多,目的在信息化迅速发展的今天对数据库功能实现更深度的发掘,促进决策者从巨大的数据量中迅速、准确的找到所需的数据资源,并基于此来实现有效决策。在本文的相关介绍中,笔者仅对某数据挖掘系统的构建方法进行了简单介绍,由于目前相关的数据集成系统越来越多的被发布和认可,建议有效应用如Quest、DBMiner等的优点,并进一步行系统改进,结合企业的特点和需求进行数据挖掘系统的构建,从而达到更好的经济和应用效益。
参考文献:
. 广西科学院学报,2010,26(4):520-522.
下一篇:广播电视编导专业实习模式的探索