基于后悔度的博弈剔除算法的逻辑认知的态度分
博弈作为一种通用的计算模型[1]11-48为哲学、认知心理学、人工智能、语言学等领域提供了丰富的研究场景。博弈分析中存在大量的逻辑问题[2]52-86,只有通过认知逻辑才能精确表达主体认知互动中的推理机制[3]37-47。
通常的博弈分析主要集中在不同剔除算法的认知基础上[2],[4]-[11]。Bonanno[12]59-86基于KD45逻辑,表明:“弱理性和强理性”作为主体间公共知识或信念所产生的主体间高阶交互认知结果与博弈论中重复剔除严格劣策略和Stalnaker意义上的重复剔除算法的一致性;van Benthem[13]13-45基于公开宣告逻辑证明:把“弱理性和强理性”作为合适的认知断定,所产生的主体间交互认知的信息互动结果分别与重复剔除严格劣策略和重复剔除非可理性化策略算法结果是一致的。该方法不仅直观地描述了剔除算法的主体认知机制,而且避免了其他算法(如重复剔除弱劣策略算法,也称可允许算法)认知刻画中存在的悖论问题。Halpern & Renou等[14]184-207,[15]264-286为消解一些经典剔除算法的认知悖论,提出了一种新的重复剔除算法——最小最大化后悔度算法,用于处理实验结果与均衡预测间的相悖性。同时,Halpern将理性描述为在当主体认为对手的任一个策略都有可能被执行条件下,而选取那些使得自己后悔度最小的策略,为该算法的认知基础提供了逻辑刻画。不过,由于这种刻画是基于静态的认知逻辑系统,会产生如同在重复剔除弱劣策略算法一样的认知悖论。为避免此悖论,Halpern等采用分级式知识逻辑系统,论证了该理性只是一种介于选手间认知互动的高阶知识,并非是传统博弈分析的基本前提——理性是选手间的公共知识。
尽管这些学者都是利用逻辑描述不同剔除算法的认知机制,但由于这些刻画基于不同的逻辑认知系统,或静态或动态,即便是在静态系统中进行,也由于所定义的理性含义有别而使得对于其相应的认知机制逻辑刻画相差甚远。因此,这给我们深入理解这些算法得以实施的认知前提以及分析算法所对应的博弈解的合理性造成困难。我们借鉴van Benthem基于动态认知逻辑描述算法的方式,通过构建后悔度博弈认知模型,将上述这些关于理性的描述统一到一种认知模型中,从而采用统一的逻辑语言——公开宣告逻辑,从选手选择某一策略所导致的后悔度角度,实现这些算法认知机制的逻辑刻画,特别地,基于后悔度博弈认知模型,通过逻辑刻画一种新的理性定义,证明该理性可作为公开宣告的事实,借助于公开宣告逻辑,为Halpern等人所提出的重复最大最小化后悔度算法提供更为简明合理的逻辑认知基础。
一、占优策略与重复剔除算法
目前,在博弈论中涉及的剔除算法有近十种,如重复剔除严格劣策略算法(IESD)、可理性化算法(Rationalizibility)、重复可允许算法(IA)、重复最小最大后悔度算法(IERD)等。为了能够对这些算法有更直观的了解,这里不考虑选手的混合策略情形,仅关注纯策略型的静态博弈①。
给定对手的任何一个策略,如果选手i的策略带给其的效用始终严格大于策略所带来的效用,那么称策略为选手i的一个严格占优策略,并称是选手i的一个严格劣策略。
因此,一个严格劣策略不可能成为选手的最优策略,所以理性选手有理由首先从给定博弈模型中剔除这个策略。剔除后在新生成的子博弈模型中,由于某些策略组合的缺失,使得在原博弈模型中非严格劣策略有可能成为被严格占优策略。因此,在新的子博弈模型中剔除新的严格劣策略,继续这个过程,直至没有严格劣策略存在为止。如果这种重复剔除算法导致博弈中最终只剩下唯一的一个策略组合,则称这个策略组合是重复剔除的占优均衡(iterated dominance equilibrium)。这种剔除过程,即为IESD算法。不过,尽管IESD是博弈论中一种经典的剔除算法,许多博弈由于不存在严格劣策略,而无法利用该算法化简博弈模型,从而使得这种算法应用受限。为此,研究者又相继提出IENR、IA以及IERD等多种重复剔除算法。
如果对于给定对手的任何一个策略,选手i的策略带给其的效用至少和策略带来的效用一样大,并且在对手选择某些策略情况下,的效用还严格大于的效用,那么称策略弱占优策略,同时,称是选手的一个弱劣策略或不可允许策略。
如果策略可以被一个具有完美理性的选手在考虑其对手也都是完美理性情况下得到证实为合理的策略,那么称该策略是选手i的一个可理性化策略②。限制到纯策略型博弈,如果一个策略组合中某选手的策略是关于该选手对于其他选手所选择策略信念的最优反应,那么这个策略就是这个选手的一个可理性化策略③。
如果策略所导致选手i的后悔度始终不小于策略所引发的后悔度,那么称是后悔度占优于策略,并称是后悔度被占优策略。
相应于这些占优策略定义,类似IESD算法过程,我们可以得到每一轮剔除所有选手的所有弱劣策略的IA算法,IENR算法以及每一轮最大限度地剔除那些后悔度被占优策略的IERD算法。
根据上述这些关于重复剔除算法的阐述,我们不难发现:这些重复剔除算法对于化简博弈模型,帮助求解不同意义下的均衡有重要作用。因此,为这些算法剔除进程提供合理的逻辑认知基础,分析这些算法背后的认知机制是论证某一剔除算法合理性的必需前提。
二、后悔度博弈认知模型
为使用逻辑语言统一刻画前文所提剔除算法认知机制,下面首先给出策略后悔度概念。
重复宣告可以看作是博弈前存在于选手间思维中的一种虚拟信息流互动的情形。定理3表明:博弈开始前,具有某种理性特征的选手们推理彼此也为这样的理性特征时,选手间的这种虚拟高阶信息互动交流(即,你知道我知道你是理性的选手等互动认知交流情形)的结果,迫使选手将与理性命题真值不一致的可能世界排除在外,从而化简原博弈认知模型到宣告极限模型,而此宣告极限模型中的可能世界对应的策略组合集与相应算法所获得的策略组合集是一致的。这样,基于动态认知逻辑我们为这些算法认知机制的认知机制提供了合理的解释,并明晰了不同博弈解与理性作为选手间公共知识——博弈分析最基本前提之间的这种密切关系,也为博弈解的合理性提供了严谨的逻辑认知基础。
四、结语
博弈论是研究主体策略互动的理论,它不仅是主流经济学的重要组成部分,甚至被认为是整个社会科学的基础。博弈认
知分析的目的是,在其他选手的行为是主体间(公共或部分)知识或信念的情况下,预测理性选手的选择。通常博弈认知分析集中在非最佳反应的重复剔除、严格劣策略剔除,以及在纳什均衡和相关均衡中的策略选择。动态认知逻辑为博弈分析提供了新的途径,为精确表达博弈中理性主体的认知交互特征及其模态逻辑刻画提供合理置信的认知基础,推动了主体建模理论和认知博弈论的发展。本文中,我们基于后悔度的博弈认知模型,将多种理性定义用一种认知语言统一表述,论证了这些理性作为断定的事实可以通过公开宣告逻辑达到某种宣告极限,并证明这些宣告极限模型与某些博弈论中经典的重复剔除算法化简博弈模型具有一致性特性,即宣告极限中可能世界所对应的策略组合与剔除算法结果集中策略组合是一致的。后悔度博弈模型不仅为这些剔除算法提供了统一的逻辑认知基础,而且为博弈的认知分析提供新的逻辑方法。当然,目前的博弈认知模型还比较简单,尚不能处理混合型策略式博弈,今后,我们将把这种思想拓展到混合型策略式博弈的认知分析中,并将已有研究成果深化到动态博弈研究。
[收稿日期]2012-04-12
注释:
①同时便于读者理解,我们仅给出这些概念的非形式化的描述,严格定义可参见文献[16-17]。
②可理性化的概念由Bernheim B D[18]1007-1028和Pearce D G[19]1029-1050分别独立地提出。严格意义上的可理性化策略被定义为基于对手信念下重复剔除非最优反应策略的极限。
③不过,这里隐含地要求该选手对于其他选手所做选择的信念并不是任意的,而必须包含他关于他们的理性的知识,而他们理性的知识又是他们关于他的理性的知识等等这些高阶知识信息,以致无穷。
④由于具有后悔度博弈认知模型与文[13]264-286,[24]所建构的博弈认知模型是互模拟关系(可通过构建一个将效用值映射为后悔度的函数,使得这两种模型是互模拟的),并且在这些文中已给出相关的证明,那么,根据模型互模拟性质,易证上述命题成立。
⑤类似地,用IR[m][,i]表示第m轮剔除后i所有的后悔度被占优的策略集。
下一篇:威廉·杜宾异化生活探析