欢迎来到学术参考网

基于频繁模式的并行挖掘算法及其应用

发布时间:2015-12-15 14:06

摘 要: 研究了基于频繁模式的数据挖掘,介绍了它的分类和面临的挑战,同时给出了一个并行挖掘算法,并介绍了频繁模式挖掘在网络入侵检测中的应用技术。

关键词:并行数据挖掘;频繁模式;入侵检测
  一.引言
  频繁模式挖掘是数据挖掘领域的一个重要方面,研究内容一般包括事务、序列、树和图。其方法被广泛应用于许多其它数据挖掘任务中,如相关性分析、最大模式、闭合模式等。随着Internet的广泛使用和高性能工作站的不断普及,高效实用的并行挖掘算法成为了提高数据挖掘的时效性和适应性的有效途径。
  4.2基于数据挖掘的入侵检测实现过程
  将频繁模式数据挖掘技术应用于入侵检测的过程中,挖掘算法起到了关键作用。将基于数据挖掘入侵检测实现分为如下四步:
  (1)从原始审计数据中提取ASCII网络包(网络型)或主机事件数据(主机型),形成连接记录( 网络型)或主机会话记录(主机型),包括一系列基本特征,放入数据仓库。
  (2)使用频繁模式挖掘算法找出关联模式,抽取出频繁模式。
  (3)通过模式编码、比较、可视化,并进行模式的使用和积累,找出纯入侵模式,然后构建特征。
  (4)利用分类器(如RIPPER等分类算法)建立分类模型以得到检测模型。
  4.3基于数据挖掘的入侵检测系统组成框架(图1)
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  


  
                            图1: 一个基于数据挖掘的入侵检测系统
  (l)信息的收集。信息的收集分为两种情况,一是分析历史数据,从中进行挖掘形成规则库;二是收集实时的网络数据,根据已经形成的规则库的规则,判断这些网络数据包是否可疑。
  (2)数据预处理。所收集的事件信息需要经过转换以供事件分析器使用,它们被修改成通用或规范的数据格式,或者被结构化,以便执行一些特性选择或执行其它一些处理。
  (3)规则挖掘。作为分析器的规则挖掘将对经过预处理的数据进行分析处理。对于历史数据,规则挖掘模块将对这些数据进行分析,把得到的规则的存放在规则库中;对于实时的网络数据,该模块同样进行分析,分析的结果是实时数据的频繁项目集,结果将交给规则匹配模块进行进一步的分析。
  (4)规则匹配。该模块把经过挖掘分析的实时网络数据与规则库的规则进行规则匹配分析,并把匹配的结果交给作为响应组件的决策和告警模块。
  (5)决策和告警。决策模块根据规则匹配的结果进行响应,若数据是正常的,表明没有攻击行为,则直接把这些数据写到规则库中,对规则库进行更新;若数据是异常的,表明有攻击行为出现,则发出告警,然后也可以把攻击的行为模式保存起来。
  五.结束语
  频繁模式挖掘是数据挖掘研究中一个最基本的问题,它可以从海量数据中得到正常的和异常的行为模式,将其用于入侵检测不仅可以有效地检测已知入侵,而且还具有检测未知攻击模式的能力,具有更高的准确性和适应性。由于现有频繁模式挖掘技术存在诸多问题,特别是针对入侵检测中数据的海量、分布和动态更新等特点,传统的挖掘与更新方法显得低效和昂贵。因此,研究快速高效的频繁模式挖掘算法及其并行化策略以提高入侵检测系统的准确性和时效性显得十分迫切,而且具有非常重要的理论意义和应用价值。
  
参考文献:
[1]杨明,孙志挥,吉根林.快速挖掘全局频繁项目集.计算机研究与发展,2003,40(4):620-625
[2]林杰斌,刘明德,陈湘.数据挖掘与OLAP理论与实务.清华大学出版社,2003:2-3
[3]蒋建春,冯登国.网络入侵检测原理与技术[M].北京:国防工业出版社,2001
[4]胡笑蕾,胡华平,宋世杰. 数据挖掘算法在入侵检测系统中的应用.计算机应用研究,2004,(7)

上一篇:浅析动漫教学中的创新性培养

下一篇:基于SNS的地方门户系统的建设