基于数据挖掘的接触网检测数据处理方法研究
摘 要:在接触网检测的数据处理过程当中合理使用数据挖掘技术,第一步就是要预处理那些很原始的数据,并且为数据挖掘的过程做好充足的准备,第二步就是使用聚类的方法把所需要检测的数据按照空间的位置进行分类,之后就可以得到聚类结果,第三步就是对检测的数据进行线性回归,这样就可以得到检测参数的所有数学模型。
关键词:数据;处理方法;检测;研究;接触网
在当今智能系统的理论以及实际的技术内容当中,数据挖掘技术属于一种很先进的技术,综合使用了智能化、数据统计以及神经网络等等技术,从而在所收集的大量数据当中发现那些隐含的,而且是有价值的信息。本文把数据挖掘技术运用于接触网检测车检测数据处理中,通过对接触网检测数据进行数据挖掘分析,得到隐含的知识关系,建立相应的数学模型,以便根据接触网的动态特性,采用最有效的维护方式。
1接触网检测数据的预处理的内容
1.1、数据的清洗
这部分的工作首先要做的就是去除原有数据当中的没用的数据以及噪声的数据,并且要做好遗漏数据的处理工作以及脏数据清洗的工作,之后要把空白的数据都清除掉,把背景的噪声也要处理掉,并且要考虑时间的顺序以及数据的变化所带来的影响。检测车检测到的接触网参数,可以通过自带的专家系统对单项数据进行判断。对于远远大于或小于正常数值的检测数据,表明这段接触网可能存在故障。因此在进行聚类分析的时候,出现了故障的数据我们是坚决不能用的,要不然所处理的结果的偏差会很大,结果会是错误的,这就是必须清洗故障数据的原因。
1.2数据的规约
对大量的接触网检测数据进行复杂的数据分析需要比较长的时间,所以这种分析的方式并不可行。而数据归约的技术不需要太长的时间,可以得到数据集的归约表示,但是需要把握保持数据完整性的原则。在归约后的数据集上来进行挖掘的工作可以取得事半功倍的效果,而且所分析的结果偏差不大。例如,在接触网检测数据中,对应每个杆号的高度值,这些数值都可以对对方产生很大的影响。在进行计算的时候合理使用高度差,使得我们能够更容易去理解模式,还能够减少计算的时间。除此之外,杆距以及杆号等无关的数据,也需要进行维归约的工作的。
1.3数据标准化处理
数据的中心化处理是相平移变换,即
其中 i=1,2……n j=1,2……p
该处理能够让新的坐标的原点与样本的重心这两个点重合,这样不好改变变量之间的关联性。数据处理当中经常使用的方法有无量刚化处理这种方式。对于不同的变量进行压缩处理,让每个变量的方差成为1,也就是
即
对数据同时进行中心化压缩处理也叫做数据的标准化处理,即
其中 =1,2……n =1,2……p
新数据可表示为
2接触网检测数据挖掘算法的选择
接触网检测数据是一组大未分类的数据,可以采用数据挖掘中的聚类技术来完成,把检测数据合理的分为几类。在进行分析的时候需要输入未分类记录的数据,这些数据的分类也不知道。聚类分析的方式有分类的规则,在处理数据的时候要合理划分,保证分类的正确性。
K-means的算法属于分层聚类的方法,一定要假设类的数量,之后再一层层找出所有的点。层次聚类的方法是把数据看成一个类别,之后再向上进行合并,最后成为一个点。这两种算法的过程是完全相反的。为了能够取得很好的结果,可以先用向上聚类算法,找到初始的原形,之后使用K-means进行处理,得到聚类的结果。
3接触网检测数据挖掘算法的描述
3.1层次聚类,得到类的个数
假设有n组数据,可以把各组的数据当做一个类别,这样就有n个类别。先找到距离最近的两组数据,然后合并成为一个组,成为新组。之后再像这样一个个继续合并,直到数据间的距离大于阈值T,就把之前的数据作为一类;重复上面的做法,归类所有的数据。由上可知,在层次聚类的算法当中,阈值T很重要。如果所找到的T值很合适,就成功了。T值要根据实际的情况来进行调整,类的数量少了,加大T值,类的数量多了,减少T值。
3.2使用K-means算法来得到最终结果
由于在聚类前,无法确定类数的,可先假设聚类的个数,然后再进行运算,通过聚类的效果来判定假设是否正确。K-means算法便采用的是这种方法。K-means算法以k为参数,把n个对象分为k个簇,以使类内具有较高的相似度,而类间的相似度最低。相似度的计算根据一个簇中对象的平均值(被看作簇的重心)来进行。
,k },将原形更新为当前的Cj中所有样本的中心点。
(5)Until聚类的成员不再变化。
流程如下图所示:
3.3检查聚类结果的好坏
聚类,直接的意思就是聚成一类,也就是把相同属性的点聚集成为一类,k-means算法的衡量标准就是距离。所以说,我们可以做一下拓展,把类内的点距离和类外的点距离之间接近的程度来衡量聚类的效果。设类内两个点之间的距离是x,其中一个点到另一个类的任意一点的距离为y。如果取得了很好的聚类效果,那么一个类当中的点到类内别的点的距离肯定会小于这个点到类外点的距离,也就是x<y。如果聚类所取得的效果不好,则xy。
X轴表示评估的范围,区间为[-1,1]。其中,+1表示点到邻近类的距离非常远,0表示点该属于那一类并不明了,-1则表示聚类结果可能是错误的。其计算公式如下:
式中a(i)表示一个类的第个点到同一类中的其它点间的平均距离;b(i,k)表示一个类的第个点到另一个类(第个类)的所有点的平均距离。
4线性回归分析
在回归分析中,将检测检测数据中硬点作为因变量用y表示,其它检测数据如高度差、网压差和车速等作为自变量,用x1, x2
……xp表示,线性模型一般形式为
其中Y为n1维的因变量值向量,X为np维自变量回归矩阵。
聚类处理后的接触网检测数据,已被分为几类,再经过线性回归的分析,找到车速以及硬点的关系,最后建立数学模型。
5结论
接触网很容易发生问题,但是它也是很重要的供电设备之一。对于接触网检测车检测结果必须进行分析、验证,通过数据挖掘算法及回归分析找到接触网动态参数间的关系。要通过具体的工作实践找到设备运行的规律,从而发现隐患,解决问题,保持良好的工作状态。
参考文献:
[1]于万聚.高速电气化铁路接触网.西南交通大学出版社,2002.
[2]召峰晶,于忠清.数据挖掘原理与算法.中国水利水电出版社.2003.
[3]朱琳.数据挖掘的基本过程及方法.西昌学院学报.2005年03期.
[4] 徐可佳,吴积钦;基于局域网的接触网实时检测系统设计与实现[J];电气化铁道;2003年05期.
[5] 董建军;莫易敏;;基于DSP和线阵CCD的接触网检测系统[J];机车电传动;2006年03期.
[6] 刘彦卿,朱飞雄,王章刊;受电弓动态包络线检测[J];铁道机车车辆;2004年06期.
下一篇:刍议矿山测量中的新技术运用