数据挖掘算法在交通数据中的研究创新
随着现代交通信息化技术的发展,数据的科学处理在交通发展过程中显得越来越重要。通常,在交通系统的数据库中存储着海量数据,需要用科学的方法进行数据的分析和管理,而一般的数据库只是对数据进行查询,得到的只是数据的表层信息,不能获得数据中的隐含关系,不能得到隐藏在数据中的深层次的,有关数据之间关联特性的预测信息。在信息技术高速发展的大数据时代,仅停留在表层处理的数据分析方式已经不能适应现代科技发展的需求,研究基于数据挖掘技术的交通数据分析处理技术已经成为交通系统迫切需要解决的问题。
1 数据挖掘技术概述
数据挖掘是一个决策支持过程,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中但潜在有用的信息和知识的过程。数据挖掘对挖掘中的大量数据进行抽取、转换、分析以及模型化处理,从中提取辅助决策的关键性数据。数据挖掘就是从大量数据中提取或“挖掘”知识。数据挖掘的工作过程大致可分为:数据准备(data preparation),数据挖掘,以及结果的解释和评价(interpretation and evaluation)三个部分。
2 数据挖掘技术在交通数据中的运用研究
在交通数据的处理中,由于交通信息的特点,交通数据量非常庞大,而且每天在迅速增多,历史数据众多,数据挖掘技术应用在交通系统中主要是挖掘交通数据历史知识,得出一些有用信息,提供给用户,方便用户出行,方便交通管理部门对数据进行管理。该文介绍常用的三种数据挖掘算法。
2.1 决策树算法在交通数据中的运用
决策树方法是数据挖掘方法中的一种重要的方法,该方法广泛用于解决与分类相关的各种问题,属于有指导的归纳学习算法。该方法着眼于从一组无次序、无规则的数据中归纳出一个分类描述,从中发现潜在的、具有商业价值的信息。
本算法在交通数据处理中可以应用到实时路况数据挖掘中。实时路况数据库如表1所示,其中影响到道路的通行有两个属性:天气、是否为上班时间。在天气属性中,天气属性的可能取值为晴、小雨、大雨、冰雪等;是否为上班时间属性取值为两个:是或者否。将这些取值都作为关联算法中的一个项,故关联算法中的数据项集I为:{晴、小雨、大雨、冰雪、是上班时间、不是上班时间},分别用i来表示,则数据项集I为:{i1、i2、i3、i4、i5、i6}。最后得出实时路况的类别为:通路畅通、道路阻断。并将其作为数据项i7、i8,加入到数据项集中。利用关联规则找出i1i7、i2i7、i3i7、i4i7、i5i7、i6i7、的关联支持度,得出为:i1i7=4、i2i7=4、i3i7=3、i4i7=1、i5i7=6、i6i7=6。
故从关联规则支持度分析,属于天气属性的和比是否为上班属性的支持度大,故首先使用天气属性进行决策树的分支;然后在利用是否为上班时间作为节点分支得到决策树。
本算法中融合了关联算法的思想,通过支持度的策略进行决策树的节点分支,针对特定的交通实时路况数据库进行决策树分支。考虑到交通实时路况数据库的无规律,复杂,比较凌乱的情况,对于决策树的分支做了个改进,最终只考虑了道路通畅的情况,否则,如果将道路阻断也考虑进去,最后导致决策树所有的分支都能有两种情况,通畅和阻断,这是因为实时路况数据库本身无规律决定的,不能肯定在什么情况下一定是什么状态,什么情况都有可能,故进行决策分支时,无法完全分开。
2.2 关联规则算法在交通数据中的应用
关联规则挖掘算法主要是挖掘数据之间的内在关系,关联规则用于分析购物篮、人口普查等系统数据,已经证明了能够产生一些对实际问题有意义的规则。该文在分析关联规则算法在交通数据中的应用时,将该方法应用到交通事故数据中,挖掘出交通事故中各个属性的内在联系。
关联规则算法是挖掘交通数据中各种属性常见的一种方法,比如驾驶员属性、车辆属性、天气属性等可能引起交通事故发生的原因之间的规则,从而得到规律,那么交通管理部门就可以对驾驶员、车辆、道路、天气等因数的某些特征来判断导致道路交通事故发生的可能性,从而指导交通管理部门的工作,减少事故的发生。
在关联规则算法中常见的算法是Apriori算法。该算法是挖掘产生关联规则所需要频繁项集的基本算法,利用层次顺序搜集的循环方法来完成频繁项集的挖掘工作,这一循环方法就是利用K项集来产生(K+1)项集,例如在交通事故数据库中,利用存在酒后驾车的记录,来产生既存在酒后驾车也存在驾驶员文化水平因数的记录,这样递归产生,最后就能显示出不同事故原因同时发生的几率。
2.3 贝叶斯算法在交通路况的应用
贝叶斯数据挖掘算法,主要是通过以往的知识利用概率来分析一件事发生的概念,这与交通实时路况预测相符,对于交通实时路况,主要是通过以往道路的路况,分析目前或者是以后一段时间内,道路路况如何,项目中,采用了贝叶斯网路推理,利用历史数据,推出以后的在特定情况下道路的路况。
交通实时路况是一个动态过程,随机性和偶然性高,有可能通过对交通状态的现状和历史进行综合分析,推测它发生的可能。可以采用天气、交通事故、上班时间、车辆速度等作为贝叶斯网的变量。利用Y表示交通状态,有两种可能:阻塞和畅通;利用A表示交通事故,有两种可能:是和否;利用T表示上班时间,有两种可能:是上班时间和不是上班时间;利用W表示天气状况,有两种可能:天气良好和天气恶劣;利用S表示车辆速度,有两种可能:缓慢和正常。利用上述五个变量可以组成贝叶斯网络模型。有贝叶斯网络模型推算出如果一条道路阻塞了,可以判定发生交通事故的概率。
3 小结
本章主要介绍了三种数据挖掘的算法在交通数据库中的应用,其中,利用决策树算法和贝叶斯算法可以对交通运行状况进行预测,利用关联规则算法可以对交通事故原因进行分析和预测。交通系统数据库庞大,数据量随机性强,偶然性高,数据挖掘技术的引入可以提高数据资源的利用率,方便用户出行,便于管理部门进行管理,促进交通运输行业的发展。
参考文献:
[1] 刘明亮.数据挖掘标准技术综述.计算机应用与研究[J],2008.
[2] 莫富强.基于领域知识的贝叶斯网络结构学习算法[J].计算机工程与应用,2008(7).
[3] 董立岩.数据挖掘在交通事故分析中的应用[J].吉林大学学报,2006(4).
本文选自《湖北农业科学》2014年第6期,版权归原作者和期刊所有,如有异议,请联系第一论文网QQ712086967,我们将在第一时间处理。