欢迎来到学术参考网

单词类别对概率上下文无关语法句法分析的影响

发布时间:2015-12-15 14:26

摘 要:本文论述了基于概率上下文无关语法的句法分析原理,用实例说明概率上下文无关语法是消解句子歧义的有力手段。讨论了概率上下文无关语法本身存在的结构依存和词汇依存问题。通过分析基于概率上下文无关语法的句法分析研究的新进展,对进一步的研究提出了一些建议。

关键词:单词类别;上下文无关语法;语法分析

  1 引言
  任何句子都是按照一定的语法规则组织起来的。计算机理解自然语言需要建立起自己的一套知识体系,如文法规则、符号集、知识库等。由于计算机只能对有限符号集上的有限长度的符号序列进行决定性的计算,构建形式体系,即规定所用的各种符号,规定把符号连成合法序列的句法,规定合法的符号串如何表示特定问题领域的语义,该过程常面临语法结构分析方面的歧义。利用规则与统计结合起来的句法分析方法可以解决计算机理解自然语言过程中存在的一部分歧义问题,比如:词性歧义、生词引起的歧义、并列结构歧义、介词短语的附着对象歧义、代词的指代歧义、句子连词歧义等。歧义的解决无疑可以对进一步的自然语言理解提供强有利的帮助。而概率上下文无关语法是消解句子歧义的有力手段。
  2 概率上下文无关语法的语法分析
  概率上下文无关语法是上下文无关语法的一种扩展,一个概率上下文无关语法是一个四元组:
PCFG G=(S,Vn,Vt,P)
  其中Vn是非终结符的集合;Vt是终结符的集合;S是语法的开始符号;P是一组带有概率信息的产生式的集合,每条产生式形如[Ni →ξi,P(Ni →ξi)], ξi是终结符号和非终结符号组成的符号串,P(Ni →ξi)是产生式的概率[2],并且概率分布满足概率一致性限制:
公式2.1
  文法中的每条规则的概率,可以用下面的公式估计:
公式2.2
  其中A→ξ是一特定规则,γ是任意结构,(.)表示规则的使用次数。例如计算下面规则中的P(A→ξ)
  S→NP VP
  VP→V NP
  NP→N
  NP→NP的NP
  NP→VP的NP
  在此例中,NP →N的概率计算方法如下:

  规则使用次数的获取最简单的途径是使用句子已得到刨析的语料库,这样的语料库叫做树库[3]。例如从树库中统计出NP→N使用次数为1000,而NP→N,NP→NP的NP,NP→VP的使用次数之和为6000,则可以指派NP→N的概率为1/6。
  在分析句子有歧义情况下,概率上下文无关语法可给句子每个树形图一个概率。概率公式如下:
P(T)=∏p(r(n))  n∈T    公式2.3
  其中n表示非终极符号的结点,r表示由该非终极符号扩充的规则,p表示规则r的概率,T表示树形图,P表示整个树形图的概率。比较不同树形图的概率,合法的句子赋以较大的概率,不合法句子赋以较小的概率,从而进行歧义的消解。
  例子 sentence=” John sold the fish bones.”
  S→NP VP      1.0              V→sold            1.0
  VP→V NP      0.8              DT→the            0.6       
  VP→V NP NP  0.2              DT→my            0.4
  NP→DT N      0.5              N→bones          0.18
  NP→N        0.3              N→star            0.04
  NP→DT N  N  0.15            N→fish            0.18
  NP→NP NP    0.05            N→ girl            0.5   
                                N→John            0.1
  由于该句子具有二义性,因此得到三棵结构不同的语法树。

  观察这三棵语法树,具有这三个树形图结构的句子意思完全不同,T1 中的the fish bones为一个名词短语,具有树形图T1 的句子大意为John出售鱼骨头具有树形图T2的句子大意为 John把骨头出售给鱼,具有树形图T1 的句子则把bones分析成鱼的种类或者名字,整句大意为John出售名为骨的鱼。同样的一个英语句子得到了三种不同的分析结果,像T3这样的分析结果是毫无意义的,而采取概率分析法计算各个树形图的概率后,我们得到的句法分析将会是有效的。

P(T1)=1.0×0.3×0.1×0.8×1.0×0.15×0.6×0.18×0.18

     =0.000069984

P(T2)=1.0×0.3×0.1×0.2×1.0×0.5×0.6×0.18×0.3×0.18

     =0.000017496

P(T3)=1.0×0.3×0.1×0.8×1.0×0.05×0.5×0.6×0.18×0.3×0.18

     =0.0000034992

  比较概率我们有P(T1)>P(T2)>P(T3),因此句子sentence=” John sold the fish bone.”最可能的结构是树形图T1  。这个结论恰好与我们的直觉是一致的。该方法也可称消解歧义的“选优法”,形式地说,概率最大的树形图T (S)=maxP(T),即这种歧义消解的实质是:从句子分析所得若干个树形图选出概率最大的那一个作为正确分析结果。概率上下文无关语法是歧义消解的有力手段。
  3 单词类别引入语法分析
  概率上下文无关语法在分析句子时有三个假设前提条件:位置无关性假设(子结点的概率与该子结点所直接管辖的字符串在句子中的位置无关)上下文无关性假设(子结点的概率与不受该子结点直接管辖的其他符号串无关)和祖先结点无关性假设(子结点的概率与支配该结点的所有祖先结点的概率无关)。然而自然语言具有创造性,自动学习的语料库难以保证获取的语法规则没有例外,语料库中总会有新的语法现象超过已经确定的语法系统的规定。短语的搭配很大程度上由短语的词汇成分决定[4]。概率上下文无关语法本身存在着结构依存和词汇依存的问题。下面是动词词汇明显影响使用规则的概率分布例子。  

Local tree             come       take       think       want

VP→V                  9.5%      2.6%      4.6%       5.7%

VP→V NP               1.1%     32.1%      0.2%      13.9%

VP→V PP              34.5%      3.1%      7.1%       0.3%

VP→V SBAR             6.6%      0.3%     73.0%       0.2%

VP→V S                2.2%      1.3%      4.8%      70.8%

VP→V NP S             0.1%      5.7%      0.0%       0.3%

VP→V PRT NP           0.3%      5.8%      0.0%       0.0%

VP→V PRT PP           6.1%      1.5%      0.2%       0.0%

  这些语言事实是对概率上下文无关语法分析句子的巨大挑战。需要解决这个问题最有效的途径是在概率上下文无关语法中引入词汇信息,即采取词汇中心词表示概率上下文无关语法。
  4 PP-附着判定
  中心词的确定影响剖析树的分析效率。例如一个名词短语中心词是最主要的名词。如:“the August merchandise trade deficit”中心词就是deficit,如果剖析树某一结点使用了规则S→NP VP,那么该结点的中心词就是VP。词汇统计分析一般采用两种统计方式,分别如下:
  P(r∣h):中心词给定情况下规则的概率                    公式3.1
  P(h∣f):父亲结点中心词给定情况下,结点中心词的概率    公式3.2
  把公式2.1稍作变换得到词汇化的树形图概率计算方法:
  P(T)=∏p(r(n) ∣h(n))* p(h(n) ∣f(n))               公式3.3
  例如在句子“Moscow sent more than 100,000 soldiers into Afghanistan.”中,介词短语(PP)“into Afghanistan”或者附着于名词短语(NP)“more than 100,000 soldiers”,或者附着于动词短语(VP)“sent”(单独的动词也可以看成一个动词短语),这里存在PP-附着问题。
  在概率上下文无关语法中,这种PP-附着的判定要在这两个规则之间选择:NP→NP PP (PP附着于NP)和VP→VP PP(PP附着于VP)。这两个规则的概率依赖于训练语料库。在训练语料库中,NP附着和VP附着的统计结果如下:
  语料库                              PP 附着于NP      PP附着于VP
  Switchboard                              63%              37%
  AP Newswire (13 00 万词)                  67%              33%
  Wall Street Journal & IBM manuals        52%              48%
  可以看出,在三个训练语料库中,“PP附着于NP”都处于优先地位。根据这样的统计结果,我们应该选择PP附着于NP,也就是选择PP“into Afghanistan”附着于NP“more than 10,000 soldiers”这个结果。但是,在我们上面的句子中,介词短语“into Afghanistan”的正确附着却应该是动词短语VP( sent),这是因为这个VP“sent”往往要求一个表示方向的介词短语PP,而介词短语“into Afghanistan”正好满足了这个要求。概率上下文无关语法显然不能处理这样的词汇依存问题。在引入词汇化信息后,可以通过公式3.1计算PP(into)分别修饰父结点VP( sent)和父结点NP(soldiers)的概率。

   同样利用公式3.2和公式3.3可以计算带有中心词规则的概率和整个树形图的概率。引入词汇化信息后,上下文无关语法的句法歧义消除的功能变得更加强大。
  5 结束语
  影响自然语言的理解的因素是全方面的综合性因素,目前基于概率上下文无关语法的句法分析研究虽取得一定的成果,但这种句法分析在实际应用中受到很多的限制,因此目前的上下文无关语法有两大方面需要突破:一是考虑如何结合上下文作为语境的提示。很多时候句子所处的语境会影响自然语言理解的方向和深度,句子的上下文所提示的内容就是一种语境,离开了句子所处的语境,孤立地理解自然语言就显得含混或模棱两可,上下文的语境以某种方式引导着自然语言理解的方向。二是按照句法分析和语义分析相结合的原则,采用扩展的上下文无关文法分析句子,句法和语义都是句子分析排歧中不可缺少的,在句法分析时可以将语义手段紧密结合起来共同作用于歧义消解,增强上下文无关语法的削歧能力,从而更高效地实现其句法分析。    
参考文献
祝庚。一种自然语言理解语法分析其的算法及实现[J].东莞理工学院学报,2006,13(3):21~25.

上一篇:浅谈中职计算机基础课程的教学

下一篇:PowerPoint在中职学校课堂教学中的注意事项和使用