基于word2vec的数字图书馆本体构建技术研究
针对传统本体构建既费时又费力等问题,设计了一种基于Web的领域本体半自动构建方法,提出了基于word2vec的领域本体概念抽取算法,采用基于中英文词典的方法抽取同义关系,研究了基于特征向量的上下位关系抽取算法。最后将基于Web的领域本体半自动构建方法应用于数字图书馆气候变化领域,实践表明,该方法大大缩短了本体构建的周期,减少了人工参与。
0 引 言
本体构建是本体应用的基础,随着本体的理论研究逐步深入和在工程实践中的广泛应用,形成了许多的构建方法和构建工具。但本体的构建过程仍需要通过人工的参与,人们凭借一定专业领域知识,依据自己的知识和理解主观地判断概念之间的关系。这种依靠人的经验和知识积累的本体构建方式非常费时费力,成为领域本体发展的一个瓶颈。因此,为了减轻人工工作量,缩短本体构建的周期,人们期望可以自动半自动地构建本体,提高本体构建的效率和自动化程度,于是本体学习的概念就被提了出来。
本文对领域概念的抽取和领域概念间关系的抽取等关键技术进行了深入研究;采用了基于word2vec的领域本体概念自动抽取算法,并采用迭代算法,扩充领域概念的候选词集;同时,对领域概念间关系自动抽取的方法也进行了一定研究;最后,将基于Web的领域本体半自动构建方法应用于气候变化领域构建气候变化领域本体。
1 基于Web的领域本体半自动构建方法
本文基于本体学习技术,设计了一种基于Web的领域本体半自动构建方法,该方法包括领域信息采集、领域词典构建、本体学习、本体编辑和本体评价五大模块。其中,本体学习模块是构建领域本体的重点和难点,该模块主要采用机器学习技术、自然语言处理技术,结合语言学、统计学等知识,从大量领域数据中自动地抽取领域概念和概念间的关系。基于Web的领域本体半自动构建方法框图,如图1所示。
2 基于word2vec的领域本体概念抽取
领域概念获取是构建领域本体的基础工作,领域概念自动抽取是指从一定规模的自由文本中抽取出能够反映某一特定领域特征或共性的词汇。本文在研究相关算法的基础上,采用了一种基于word2vec的领域本体概念抽取算法。该算法如图2所示,共包含三部分:中文分词、领域概念候选词抽取、领域概念候选词评价。
领域词典的构建是概念抽取的基础,在中文分词环节,领域词典为其提供领域词汇,将领域词典添加到原有的分词词典中,使更多的领域词汇可以被识别出来。在领域概念候选词抽取和评价环节,领域词典为其提供领域的种子概念,用于对候选词进行抽取和评价。
在中文分词环节,增加了新词发现模块。本文采用的是中科院计算所的ICTCLAS分词工具对中文原始语料进行分词,本文在中文分词环节增加了新词发现模块,将发现的新词词典和构建的领域词典都添加到了原有的分词词典中,从而组成了新的分词词典。
在领域概念候选词抽取环节,本文引入了深度学习的思想,它通过构建具有多隐层的机器学习模型从海量训练数据中学习更有用的特征,本文利用word2vec工具学习Web领域语料,训练词向量模型,通过计算向量间的相似度,得到两个词之间的相似度,由此将领域种子概念的相关词汇作为领域概念候选词。
领域概念候选词评价环节是指从领域概念候选词中筛选词汇作为领域概念,本文采用基于双序列比对的中文术语语义相似度计算方法计算这些候选词与种子概念的相似度,将与种子概念语义相似度高的候选词作为领域概念。
2.1 中文分词
中文分词与词之间有明显分隔,因此分词是对中文进行自然语言处理的首要步骤,分词的好坏直接影响概念抽取的效果。分词结果的好坏取决于所采用的分词工具和分词方法。目前,分词词典中的大多数词条是通用领域的,对领域专业词汇的识别率较低,因此构建领域词典,并将领域词典添加到分词词典中是很有必要的。由此,本文在中文分词中加入新词发现模块,采用大规模语料新词发现技术,将得到新词词典和领域词典中的词汇加入到原有的词典中,构成新的分词词典。然后对原始的领域语料进行分词,得到分词后的领域语料为概念抽取做准备。
(1) 新词发现
要从海量文本中发现新词,通常考虑三个因素:字符串在文本中出现的频率、字符串的内部聚集程度和边界划分能力。本文采用基于大规模语料的新词发现技术,并分别用互信息和信息熵衡量一个字符串的内部聚集程度和边界划分能力。给出判断该字符串能否作为一个新词的评价指标,公式如下所示:
[Walue=log(Mi+1)?log(min(leEntropy,riEntropy)+1)]
式中:Mi代表字符串的互信息;le_Entropy代表字符串左邻字集的信息熵;ri_Entropy代表字符串右临字集的信息熵。
(2) New分词词典
本文采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS分词工具,将领域词典、新词发现得到的新词词典和原有的分词词典组成新(New)分词词典,利用New分词词典对语料库进行分词。
2.2 领域概念候选词抽取
采用基于word2vec的领域概念候选词抽取算法。word2vec是一个把词转变为向量的工具,可以通过两个向量之间的余弦值得到两个词的相似度。本文将与种子概念具有一定相似度的词汇作为领域概念候选词,具体步骤如图3所示。利用word2vec工具对分词后的原始语料进行训练得到词向量模型,将种子概念对输入词表进行初始化,利用该模型计算与输入词表具有一定相似度的词汇作为领域概念候选词。要扩大候选词数量,采取迭代的算法,将输入词表作为迭代变量,将输出词表与输入词表的差集作为输入变量,再次调用词向量模型抽取候选词,直至符合迭代结束条件停止。
使用word2vec工具训练词向量模型步骤如下:
(1) 将文本语料进行分词,并以空格或Tab隔开。
(2) 将分好词的训练语料进行训练,假定语料名称为且放入word2vec目录中。
(3) 训练好模型之后,得到词向量模型文件。
得到词向量模型后,便可以通过计算两个向量的余弦值来计算两个词的相似度。本文提出利用word2vec工具训练得到的词向量模型抽取种子领域概念的相关词汇,将相似度大于某一阈值的相关词作为领域概念的候选词。要扩充候选词集,设计迭代算法,将得到的输出词表与输入词表的差集作为输入,再运行程序得到更多领域概念候选词。算法流程如下:
(1) 程序初始化,将从领域词典中选取的种子概念对输入词表进行初始化;
(2) 调用word2vec的词向量模型抽取输入词表中概念的相关词汇,并将这些相关词汇作为领域概念候选词;
(3) 将抽取得到的候选词集合作为输出词表输出;
(4) 根据结束条件判定程序是否结束,如果不符合结束条件,则计算输出词表与输入词表的差集[S,]将[S]作为输入词表,转步骤(2),符合结束条件,程序结束。
该算法采用迭代算法以期获取更多的领域概念候选词,从而扩充候选词集。由上述算法流程可见,该算法中的迭代变量为输入词表,输入词表经过word2vec训练的词向量模型得到一个输出词表,然后将输出词表与输入词表的差集赋值给输入词表,再次进行抽取,这就是迭代过程。迭代算法中迭代结束条件可以是程序循环次数、输出词表与输入词表差集中元素的个数小于某个阈值和抽取概念的个数达到一定的数量等几种情况,具体的结束条件可根据需求的本体规模来确定。
2.3 领域概念候选词评价
采用迭代算法可抽取出大量的领域概念候选词,然而本体的概念应是精炼的,本体的规模也是确定的,应对这些基于word2vec得到的领域概念候选词进行过滤,进一步提取领域概念。本文以种子概念为基准,计算概念候选词与种子概念的语义相似度,认为候选词与种子概念在语义上越相近,该候选词与领域越相关,本文将语义相关度高的词语作为抽取的领域概念,具体流程如图4所示。
采取基于双序列对比的中文术语语义相似度计算方法进行语义相似度计算,该方法有效地利用《同义词词林2》对词语进行有效的语义相似度计算,并且对组合词语之间的相似度也进行了深入研究,效果较好。
3 领域本体概念关系抽取
本体概念之间的关系主要包括同义关系、上下位关系、整体?部分关系等。其中,同义关系和上下位关系是基本的语义关系,构成了本体的基础框架。
3.1 同义关系抽取
本文利用中英文词典抽取概念间的同义关系。假设概念C1翻译得到的英文单词或短语有[{w1,w2,…,wn},]概念C2翻译得到的为[{w′1,w′2,…,w′m},]如果两个集合有交集,即两个概念有相同的英文解释,就认为这两个概念具有同义关系。将一个概念与其相关概念组成的概念对集合作为关系解空间,从解空间中抽取同义关系。为了抽取更多的同义关系,需要扩大关系解空间。
3.2 上下位关系抽取
本文提出了一种基于概念对的语义特征和语境特征的特征向量来抽取具有上下位关系的概念对,从概念对的构词、共现、特征词出现数量、概念对在句中位置的距离出发,构建概念对上下位关系的特征向量,并使用支持向量机(SVM)进行训练和预测,从而实现本体上下位关系的抽取。具体算法实现如下:
步骤1:初始化所有的概念对和特征词;
步骤2:判断一个待计算特征向量的概念对是否符合扩展的包含原理,是则该概念对的特征向量[T]为(1,0,0,0),否则该概念对的[T1]值标记为0,进行步骤3;
步骤3:利用百度搜索引擎,对概念对进行查询,保存查询结果的前10条,计算该概念对的特征向量[T;]
步骤4:判断是否所有的概念对处理完毕,否,则转步骤2,是则形成特征集[W(T);]
步骤5:调用LIBSVM工具,将[W(T)]导入到训练集中;
步骤6:设置SVM训练参数,分别选用4种核函数进行实验,选取分类效果最好的核函数;
步骤7:运行程序,从概念与其相关的概念组成的概念对中抽取上下位关系。
4 数字图书馆气候变化领域本体半自动化构建
本文采用气候变化领域主题网络爬虫方法从Web上采集与气候变化领域有关的数据,共采集了1.5 GB的Web领域数据,数据的来源主要有2个。其中,基于开放搜索引擎搜索和气候变化权威的领域内新闻共有198 104篇,数据1.04 GB,百度百科领域内数据105 660篇,数据556 MB。本文利用这些从Web上采集的领域数据作为初始学习语料,从中自动的抽取气候变化领域本体概念和概念之间的关系,形成初始本体,最后利用本体编辑器,由领域专家人工对初始领域本体进行审核和编辑,以得到更为完善的知识体系和更为精准的本体描述。
4.1 基于word2vec的领域概念抽取实验
(1) 中文分词
采用中科院计算所的ICTCLAS分词工具对原始语料进行分词,在分词前,首先对原始语料进行新词发现,再将新词发现的结果和构建的领域词典中的词添加到原有分词词典中,形成新的分词词典。
实验中采用基于互信息和信息熵的新词发现技术从采集的气候变化领域语料中发现新词,本文只抽取5个字和5个字以下的词语,实验过程中,首先对字符串进行频率过滤,设定频率阈值,如果大于该阈值,则再进行信息熵过滤,否则,直接将其排除。由于目前还没有统一的设定阈值的标准,本文中的阈值都是经过反复试验,选取使效果较佳的阈值。实验发现新词情况如表1所示。
利用原有分词词典和在原有分词词典的基础上加入新词词典和领域词典后,对语料进行分词的结果进行对比,其结果证明采用新的分词词典进行分词,分词的准确率大大地提高了。
(2) 领域概念候选词抽取
首先对采集的气候变化领域语料利用原有的分词词典进行分词,利用word2vec工具对该分词文件进行训练,得到词向量模型文件。采用构建的领域词典作为初始输入词典,通过调用词向量模型文件,计算与种子概念距离近的词汇,得到领域概念的候选词。
(3) 领域概念候选词评价
采用双序列比对的中文术语相似度计算方法,将获得的11 032个领域概念候选词与领域词中的种子概念做语义相似度计算,本文将与种子概念相似度大于一定阈值的候选词选作领域概念。实验过程中,该阈值取0.7。利用构建的领域词典中的1 080个词汇作为种子概念,采用两种方法做对比实验(将基于前后缀的中文领域术语抽取方法称为原有算法,将本文采用的基于word2vec的领域本体概念抽取算法称为改进算法),实验结果如表2所示。
由表2可见,改进的算法无论是在领域概念抽取词抽取环节还是领域概念候选词评价环节,不仅大大地增加了抽取词汇的数量,而且领域术语所占的比重也比之前提高了。
4.2 概念关系抽取实验
(1) 同义关系抽取。本文采用在线的有道词典进行约束,同义关系抽取结果如表3所示。由实验结果可知,得到的结果准确率较高但召回率比较低,由于使用词典约束以及关系解空间等因素影响了召回率,可通过对数据进行扩充,其中包括使用word2vec的训练语料和双语词典等改进方法来提高召回率。
(2) 上下位关系抽取。本文从关系解空间中抽取上下位关系,从中选取并手工标记800对概念对,其中正例400对,反例400对。实验中,在800对正反例中各取大约3/4的向量作为训练集,剩余的1/4对作为测试集。将本文提出的基于特征向量的本体概念上下位关系验证与基于百科的术语关系抽取方法进行对比验证,对比结果如表4所示。
从实验结果可得:本文提出的基于特征向量的上下位关系验证方法具有更高的准确率、召回率和[F]值,而且采用本文提出的算法比基于百科的术语上下位关系抽取发现的具有上下位关系的概念对多。
4.3 数字图书馆气候变化领域本体的应用
气候变化问题已经逐渐成为各界热议的焦点,世界各国的统计部门、气象部门等都已经积累了庞大的数据集,研究者很难从庞大而分散的数据集与观点成果中快速找到期望的信息,更难以在这些信息中寻找数据之间的关联与规律。基于以上问题,设计开发出了针对气候变化领域的RSS阅读器系统。新闻、数据文件等以本体的组织框架进行组织。点击某一知识节(领域概念),便可查看相关的新闻信息等,操作方便快捷。用户通过该阅读器系统能实现对气候变化领域内最新、最全新闻信息的实时获取,从而减少人工搜索和筛选的工作,提高了新闻信息搜索效率和信息推荐的准确度。
5 结 论
本文探讨了领域本体构建方法,设计了一种基于Web的领域本体半自动构建方法,对基于word2vec的数字图书馆本体构建技术进行研究,采用基于中英文词典的方法抽取同义关系,提出基于特征向量的上下位关系抽取算法。基于此,设计开发出了针对气候变化领域的RSS阅读器系统,通过实验及实际应用证明文中所提方法缩短了本体开发周期,节省了大量的人工参与,自动抽取本体质量较高。但领域概念抽取结果依赖于word2vec工具,具有一定的局限性,因此,可以考虑混合其他的概念抽取方法来获取领域概念。
作者:闭炳华 来源:现代电子技术 2016年15期
上一篇:数字图书馆在家校互动中的应用思考