计算机网络故障管理智能化研究
[论文关键词]网络 故障 智能化 事件知识库
[论文摘要]故障管理是计算机网络的管理最基本、最重要的功能。文中针对网络故障管理进行研究,并提出了网络故障管理智能化的方法,为网络故障智能化的进一步发展奠定了基础。
一个网络管理系统有五大功能域:故障管理、配置管理、性能管理、计费管理和安全管理其中,故障管理是最基本,也是最重要的功能。目的是保证网络能够连续可靠地运行。如果网络服务意外中止,将会对生产、生活造成很大影响,这就需要一套科学的故障管理策略,及时发现故障、排除故障。
现在一些网管软件趋向于将专家系统等人工智能技术引入到网络故障诊断和排除中。提高网络故障的智能水平有助于网络高效、可靠地运行。网络管理的智能化也是发展的必然趋势。为此本文针对网络故障智能化管理进行研究,并提出了建立事件知识库提高故障管理的智能水平的方法,为网络故障智能化的进一步发展奠定了基础。
1. 计算机网络故障管理技术研究
(1) 故障管理概述
故障是指软、硬件的缺陷;错误则是软硬件的不正确输出;失效是指所有和某故障有关的错误造成的网络的非正常运行。网络故障按生命周期可分为永久故障、暂时故障和瞬间故障三类;按故障对网络造成的空间失效范围的大小,可将失效分为四类:任务失效、基本网络部件失效、 结点失效和子网失效。故障管理的主要任务是及时发现并排除网络故障。一般说来,故障管理包括以下几个内容:故障监测和捕获故障产生相关的事件和报警;定位分析故障、记录故障日志;如有可能排除故障等。
(2) 故障管理的类型
故障类型指的是具有某种特征的故障的分类。通常我们可以根据故障发生来源的不同,将它们划分为两大类,即硬故障(hard errors)和软故障(soft errors)。
硬故障是指网络的硬件设备在工作过程中产生的各种错误。这些错误与该设备的作用有密切关系,网络系统的复杂性也正是由于设备的多样性而体现出来的。根据这网络设备的作用,我们也可以将故障简单分为以下三类:
①连接设备故障
这种故障的现象主要是网络的物理连接出现问题,也可以称为通路故障。造成故障的原因可能是电缆线断开、收发器断开或不能正常工作以及其它连接设备间的接口出问题等等。根据这类故障的来源不同,我们又可以将该类型的故障细分为线路故障、网络接口故障、收发器故障、路由器故障等等,该类故障是故障管理的最主要对象。
②共享设备故障
这种故障的表现是用于资源共享的设备出现问题,不能提供或享受所需的服务。同样,该类型的故障也可以细分为服务器故障(打印机故障、文件服务器故障等)、工作站故障等等。
③其它设备故障。包括电源故障、监控器故障、测试仪故障、分析仪故障等等。
软故障是指网络系统软件运行出错。软故障的发现和处理是在管理过程中逐渐被人们所认识的,因为软件属于一种无形的东西,问题的表现不如硬件那么直观。从这个意义上看,软故障的识别和诊断更加困难。故障管理中所处理的软故障主要针对与网络通讯和服务有关的系统软件,它可以直接根据网络软件来划分,包括通讯协议软件故障、网络文件系统(fns)故障、文件传输软件故障、域名服务系统(dns )等等,其中通讯协议软件故障是系统研究的重点。这种错误通常是在协议软件运行时遇到某个异常条件(如缓冲队列满)或协议软件本身未提供可靠机制而导致传输失败,报文丢失。
故障类型并不是一成不变的,随着网络在复杂性和规模上提高,网络故障管理的要求也在不断增加。新的技术、设备的应用使故障的类型、故障原因、故障源等各方面都发生了变化,这就要求故障管理系统必须增加新的内容。
(3)故障管理的功能
故障管理的根本目标在于排除网络中出现的各种故障,达到这一目标要求系统至少必须具备检测、隔离和纠正故障的能力。
故障检测(detection)是指对系统的性能和状态进行检查和测试,根据结果和一定的识别规则判断系统是否故障。故障检测要求管理系统监视网络的工作,考查网络的状态及其变化,一旦发现系统出现故障马上进行报警。
故障隔离(isolation)是指确定故障发生的位置,通俗地说就是指出谁发生了故障,如哪个子网、哪个设备或者设备的哪个部件,对于软故障则指明哪个系统出了问题。由于网络是一个复杂的系统,故障类型、原因、故障源多种多样,而且不同故障的表现可能完全相同,这就导致了故障隔离的复杂性。隔离系统应当尽可能地缩小故障源的范围。
故障纠正(correction)是指纠正所发生的错误,恢复系统的正常工作。故障纠正建立在前两者的基础之上,目前所采取的手段除了进行硬件维修、系统重启、一定程度的恢复外,还包括一些非技术性的活动,如人员的使用和技术培训以及设备生产厂商的支持等。
(4)影响故障管理的因素
与网络管理一样,故障管理也必须考虑三方面的因素:过程、设备和工具、人员。成功的故障管理策略是这三者的完整结合,而不仅仅是其中的某一个方面。
过程主要指为实现故障管理功能而进行的操作,下一节介绍的内容就属于故障管理的过程。了解管理的一般过程是开发一个实用的故障管理系统的基础。
设备和工具指的是进行故障管理的软硬件工具,包括故障检测设备、维修设备、实用的故障管理系统等。设备和工具在故障管理中起着非常重要的作用,它可以帮助管理员和工程师实施管理功能,排除故障,保障网络系统正常运转。下面介绍的就是几种专用的物理设备:
① 时间域反射测量仪(tdr)。通过显示物理介质传输信号的波形表明设备 或链路是否故障。
② 网络监视器。监视网络上各结点的状态,得到网络的各种统计数字,以 确定是否故障。
③ 网络分析仪。实时分析结点的收发报文,帮助管理者跟踪和隔离故障。 管理人员在故障管理中的任务主要是维护管理系统和工具的运行,并在它们的帮助下完成故障排除和系统恢复工作。
2.智能化网络管理的概述
为了能够更有效地对各种大型复杂的网络进行管理,许多研究人员将人工智能技术应用到网络管理领域。虽然全面的智能化的网络管理距离实际应用还有相当长的一段路要走,但是在网络管理的特定领域实施智能化,尤其是基于专家系统技术的网络管理是可行的。
用于故障管理的专家系统由知识库、推理机、知识获取模块和解释接口四大主要部分组成。专家系统以其实时性、协作管理、层次性等特点,特别适合用在网络的故障管理领域。但同时专家系统也面临一些难题:
(1)动态的网络变化可能需要经常更新知识库。
(2)由于网络故障可能会相关到其它许多事件,很难确定与某一症状相关的时间的开始和结束,解释和综合消息复杂。
(3)可能需要大量的指令用以标识实际的网络状态,并且专家系统需要和它们接口。
(4)专家系统的知识获取一直以来是瓶颈所在,要想成功地获取网络故障知识,需要经验丰富的网络专家。
在实现智能化网络管理系统时,还必须把握系统复杂性与系统性能的关系。不仅要利用将较为成熟的人工智能技术,而且要考虑实现上的复杂度和引入人工智能技术对系统性能和稳定性的影响。
3.事件知识库的研究
在专家系统中,知识的表示有逻辑表示法、语义网络表示法、规则表示法、特性表示法、框架表示法和过程表示法。产生式表示法,即规则表示法,是最常见的一种表示法。其特点是模块性、一致性和自然。知识库是知识的集合,严格意义上的知识库包括概念、事实和规则只部分,缺一不可。
为了提高故障管理的智能水平,可以建立事件知识库(ekb , event knowledge base,用于存储所有己知事件的类型、产生事件的原因和所造成的影响,以及应该采取什么样的措施等一些细节的静态描述。这个ekb并不是真正意义上的知识库,它的数据仅仅包含了属性值与元组,而属性值表示概念,元组表示事实。但研究ekb可以为今后建立完善的知识库奠定基础。
在ekb中存储了己经确定事件。最初,被确定的事件仅限于一些标准事件和措施。随着网络的运行和系统的反馈,ekb的内容将不断增加。
理想状态是能够确定所有的事件。
下面是ekb涉及到的只种基本的数据库表:
(1)事件类型表:该表中主要存储了事件的静态定义。
ekb中保存了己确定的事件可能涉及的相关知识,如事件类别(如:性能、系统、网络、应用事件或其它)、严重程度(如:严重、主要、 次要、 警告等)、产生事件的设备标识、指明设备的类型、事件造成什么影响(如:影响网速、单个用户不能访问等)、故障排除参考策略、上次更新的时期/时间、关于这个事件的备注信息、事件的详细描述等。
(2)实时事件表:描述了正在运行的网络中的实时事件。
实时事件表中提供可能用的一些字段,用于记录网络运行中发生的事件,如:设备的 id(从 ip 地址或查询设备表可以获得)、实时事件的状态(如:新增、确认、清除等)、根据故障票id获得的相应的故障票信息等。
(3)设备信息表:存储了网络中设备的实际参数。
设备信息表主要记录了每个设备的相关参数。例如,设备id号、ip地址、设备名称、厂商、类型、重要性级别等。
ekb中存储的相关事件的知识主要来源于专家。开发人员将获得的知识应用到与故障管理相关的系统中,根据不同系统的需要分配相应的知识,以提高系统性能。虽然ekb并不是严格意义上的知识库,但在开发过程中,可以通过不断地增加和修正ekb的内容,在一定程度上提高系统的智能水平。
4.结论
文中分析了网络故障的类型,提出将事件知识库用于计算机网络故障的智能管理。实验表明,计算机网络故障的智能管理提供了基于知识的决策手段,比传统的管理方式具有更高的决策水平,为专家系统技术在故障的检测和隔离方面更加广泛的应用,奠定了一定基础。
参考文献:
[1] 赵志囡等.计算机网络中的服务[m]. 现代情报.2006. (11)
[2] 杨家海等.网络管理原理与实现技术[m].北京:清华大学出版社.2000.
[3] 武波,马玉祥著.专家系统(修订版)[m].北京:北京理工大学出版社,2001.
上一篇:网络伦理问题分析