基于词网的主观题自动评阅算法的研究
在目前的考试系统中,对于选择题和填空题的自动阅卷技术发展较为成熟,且被广泛地应运到各个考试系统中。对于主观题,由于它的答题特点和复杂性,目前还没有一种考试系统能比较智能地完成[1]。计算机计算速度之快、效率之高、不会疲劳,工作不考虑其它,就非常适合主观题的自动评分。因此,研究让计算机来进行主观题的自动评阅具有重大的现实意义。
主观题自动评分是通过计算机实现对考生答案的自动评阅。现实中考试系统要实现自动化和智能化就要解决主观题自动评分的问题,这也是自然语言处理技术领域中的一个研究热点。计算机阅卷的过程就是模拟人的阅卷过程,主要从考生答案和参考答案的语义上的相似程度,二者相似程度越高,考生的得分越高。因此,要实现主观题自动评分就要建立合理高效的主观题自动评分模型。对于主观题自动评分系统中涉及到的词语语义相似度[2]、文本相似度计算等的研究在信息检索[3]、基于实例的机器翻译[4]、自动问答系统[5][6]、文本挖掘中都有实际应用。
1 概念网模型的构建
知网的描述对象是汉语和英语的词语所代表的概念,它的基本内容是概念与概念之间及概念的属性之间的关系。在知网中,任一词语都是通过概念来描述,并且每个词可以表达为几个概念,概念则由义原来描述。
知网中描述了十六种关系,例如上下位关系、同义关系、反义关系、对义关系等关系。义原与义原间组成一个复杂的网状知识体系。该文要构建的概念网模型是参考知网的结构建构而成,经收集整理得到了《计算机网络》的相关概念和术语部分列举如下:计算机网络、硬件资源、软件资源、数据资源、信道资源、分布处理、均衡负荷、主机、客户机、终端、集线器、交换机、路由器、同轴电缆、双绞线、光纤、编码解码器、网络协议等等。
知识工程中的构建概念网的方法是迭代法,首先构建一个概念网的框架,然后再更新、扩展,不断补充细节,最后完善。由于考生的表达方式具有多样性,所以主观题的答题结果具有复杂性。该文在构建领域概念网时采用归一化的思想,组织建立概念之间的关系,使用到的主要是直接的概念关系并且建立概念网时着重建立的是概念间的连接关系。该文还对句型进行了归一化,限定了几种常见的领域句型。该文中概念网的存储方式为矩阵,在数据库中建表存储词。word代表词,wordmid代表中间词,wordcon代表连接词,图1是一个word的表示图,n个word构成了概念网。
2 构建有限领域概念网
在文献[6]中指出:句子是表达语义的基本单位,句子中的关键词及其结构可以形成语句的语义脉络,表达了句子的基本语义。如果这两个句子的语义脉络相近,则可以视为这两个句子的语义相似。该文对从每句话中提取出的关键词进行概念的重新组配,此种方法称之为语句框架。为了提取考生答案中整句的结构信息,继而将一个句子中的关键词抽出,实现以语句框架的表现形式先存储到参考答案的句子类对象中。此外,一个完整的汉语句子通常由句子的关键成分和修饰成分组成,并且通常可以从句子的关键成分体会到一个句子的主要意思。
本文将语句框架的语义成分规定如下:
语句框架≈{主体,行为,主题,位置|方式,目的|时间},各语义块的描述如下所示:
1) 主体语义块对应于句法分析中的主语,用于描述行为发出者的名词短语,该文称此之为主体语义块。
2) 行为语义块对应于句法分析中的谓语,描述对象在某方面的动作或者此对象对别的对象的影响,一般是正在发生或进行的动词短语。
3) 主题语义块对应于句法分析中的宾语,描述正在发生的某些变化或者充当行为对象,一般是名词短语。
4) 方式语义块对应于句法分析中的状语,描述状态或方法。一般是由副词和介词短语构成。提取时将介词去掉。
5) 方位语义块对应于句法分析中的状语,描述位置或场所的关系或表示运动或路径的关系,一般是由副词和介词短语构成。提取时将介词去掉。
6) 目的语义块对应于句法分析中的状语,描述主体发起动作的用意,为了达到的某种效果。
7) 时间语义块是说明主体或主题发生的时间。
例:计算机网络就是通过电缆、电话线或无线通讯将两台以上的计算机互连起来的集合。
抽取的语句框架为:{计算机网络,通过,电缆、电话线、无线通讯,将,计算机,互连,集合}
3 基于改进的语句框架的主观题自动评阅流程
假设给出了题目A的考生答案,该文的目的就是要考生答案对于这道题目的参考答案是否语义相近或相同,或者考生答案中存在几个关键得分点,从而判定考生的得分。在主观题自动阅卷中,首先对主观题的学生答案进行预处理,分词、词性标注,句法分析和指代消解,其中在指代消解中利用到本文中构建的概念网,构建学生答案的语句框架,并为每个语句框架分配权重,利用改进的相似度算法计算句框架相似度,最终得出学生答案的分数。图3为主观题评分的流程。
注意:①文本处理是对考生答案建立语句框架进行归一化处理,指代替换。
②加权文本相似度计算是:倒装、被动句型下的用语处理和反义词的处理。同义词即为相同处理,近义词即为不完全相同,设置一个阈值,该阈值由实验测试获得。
4 基于语料库和语义分析方法计算语句框架相似度
目前,句子相似度计算是中文信息处理技术中一个基础的并且核心的研究课题,在现实中有着重要的应用价值。因此,只有正确而有效地计算词语相似度,才可能计算出正确的句子相似度。
基于语料库和语义分析计算句子相似度考虑了多方面的影响因素,将关键词、句子结构有机结合,就形成了精确度高的计算方法。该文先将学生答案抽取语句框架后,再与之前构建的概念网进行相似度计算。语句框架是由五元组组成的,考生答案的语句框架表示成SAj=(SAj1,SAj2,SAj3,SAj4,SAj5)。在计算SAj与局部概念网的相似度之前,首先要计算SAj1、SAj2、SAj3、SAj4和SAj5分别与局部概念网中的概念的相似度。
算法步骤:1) 输入句子;
2) 提取句子的语句框架,转换成概念的网络图;
3) 将得到的概念网络图与领域概念网进行匹配;
4) 匹配成功后
,将领域概念网转化为有向网状图,否则转向第一步;
5) 概念网中的概念转化为有向网状图中的节点,将概念间的关系表示为连接两个节点的边;
6) 计算句子相似度。
5 结束语
本文以《计算机网络》课程的领域概念网为基础,在此提出了一种新的方法—基于概念网的方法,改进了句子相似度计算算法。通过本文的研究,实现了基于领域概念网和语料库及语义分析方法的主观题自动评阅系统,但是本文在研究中仍然存在着一些不足之处,比如空间消耗比较大,需要在以后做进一步的学习和研究。
参考文献:
[1] 南铉国.基于语句相似度计算的主观题自动评分技术研究[D].延吉:延边大学,2007.
[3] 廉站俊,吕学强,张玉杰,等.基于句子相似度计算的信息抽取[J].现代图书情报技术,2007,2(6):38-41.
[4] 姚建民,周明,赵铁军,等.基于句子相似度的机器翻译评价方法及其有效性分析[J].计算机研究与发展,2004,41(7):1258-1265.
[5] 周法国,杨炳儒.句子相似度计算新方法及在问答系统中的应用[J].计算机工程与应用,2008,44(l):165-167,178.
[6] 杨思春,陈家骏.中文自动问答中句子相似度计算研究[J].情报学报,2008,27(1):35-41.
.Proc of the 2009 Int`1 IEEE Workshop on Intelligent Systems and Application(isa 2009),2009:113-116.