国外研究生选拔方式的特征以及对我国研究生复

发布时间：2015-12-15 11:23

  一、引言
    据教育部统计，2011年全国报考硕士研究生人数达到151.1万人，超过2001年报考总数的3倍，达到历史最高点[1]。面对人数逐年攀升的考研学子，如何提高研究生选拔的有效性，既使真正有潜力的学生获得进一步深造的机会，成长为国家建设的栋梁之材，又确保有限的教育资源应用于最适合的群体，提高其使用效率，成为当前我国高等教育改革面临的一个紧迫任务。
    研究生选拔的有效性在很大程度上取决于选拔方式的有效性。目前，研究生选拔的方式可以分为两类，一类旨在评估影响研究生成功的认知因素，另一类则旨在评估影响研究生绩效的非认知因素[2～4]。对申请人的认知因素进行评估，确保录取的研究生有充分的认知能力和知识基础以胜任研究生阶段的学习，这一点在研究生选拔的实践与研究中早已被广泛认可[5～7]。同时，大量研究表明，人格、态度和动机等非认知因素对于研究生的成功也至关重要[8～10]，因为它引导着个体在智力活动和情境中的选择、努力程度及坚持性水平[11]。Kuncel等[12]基于来自多个学科的1753个独立样本(总样本量为82659)对美国研究生入学考试(Graduate Record Examination，GRE)的预测效度进行了元分析，最终得出结论：要提高研究生选拔的效度只有通过在认知变量的基础上引入非认知变量，仅仅停留在对认知因素的考察上很难实现研究生教育选拔的目标。概括而言，目前研究者已达成共识，研究生选拔的过程应该既包括对申请人认知特征的测量，也包括对其非认知特征的评估[13～15]。
    与上述研究结论相一致，我国的研究生选拔也是从认知和非认知因素两个方面对申请人予以考察。初试环节的全国研究生入学考试重在对考生认知因素的测评。就复试而言，教育部2006年发布了《关于加强硕士研究生招生复试工作的指导意见》，要求通过专业课笔试、实践能力考核以及面试等方式，对考生的专业素质和能力以及综合素质和能力予以评估。其中，专业素质和能力包括大学阶段学习情况及成绩，对本学科理论知识和应用技能掌握程度等；综合素质和能力包括思想政治素质和道德品质，本学科以外的学习、科研、社会实践，事业心、责任感、纪律性，人文素养以及举止、表达等[16]。由此可以看出，我国的研究生复试既包括对考生专业知识等认知因素的进一步考察，也包括对其道德品质等非认知因素的考察。《意见》规定，复试成绩占总成绩的30%～50%，复试成绩不合格者，不予录取。复试在研究生选拔中的地位已相当重要，其有效性在很大程度上影响着研究生选拔的整体有效性。
    尽管《意见》对研究生复试工作作出了规范化的要求，但当前研究生复试实践中仍存在大量问题。就认知因素的考察而言，主要的评价方式是专业课笔试。而复试中的笔试缺乏标准化，往往是本专业教师考前命题，缺乏对题目难度、区分度的必要预测和分析，信效度令人质疑。此外，尽管绝大多数研究生招生机构也要求考生提交本科成绩单，但本科成绩并未用于对考生认知因素的评估，而只是作为复试资格审查的资料[17～20]，对复试成绩以及最终的录取决策并未产生实质性的影响。就非认知因素的考察而言，主要的评价方式是面试。面试存在的问题很多，一方面，一些根本不适合通过面试考察的非认知因素被要求通过面试予以评价，如道德品质和价值观[21]等具有很强社会称许性和内隐性的因素也经常被列为面试维度，事实上这类非认知因素很难通过短短半小时的口头面试而得到准确评价；另一方面，面试实践中程序不规范、面试问题不科学、评分标准不明确以及主考教师缺乏面试技术等问题非常普遍[22]。
    面对我国研究生复试的现状，我们不禁思考：当前研究生复试中所采用的认知和非认知因素的考察方式的信度和效度究竟如何？是否存在其他的方式可以更为有效地对考生予以评价？我们以研究生复试及相关主题作为关键词对中文学术文献进行了检索，发现我国有关研究生复试方式有效性的实证研究寥寥无几，这与我国研究生复试实践所存在的诸多问题形成鲜明的对比。由此，我们对国外研究生选拔方式的相关研究进行了系统的检索、梳理和分析，希望能对进一步提高我国研究生复试的科学性和有效性提供一些启示和借鉴。
    二、国外研究生选拔方式概述
    在国外研究生选拔的过程中，对申请人的认知因素进行考察的主要方式是本科阶段的成绩(Grade Point Average，GPA，即本科各门课程成绩以课程学分为权重的加权平均值)和标准化入学考试如GRE、管理学研究生入学考试(Graduate Management Admission Test，GMAT)、医学院研究生入学考试(Medical College Admission Test，MCAT)、法学院研究生入学考试(Law School Admission Test，LSAT)、米勒类推测验(Miller Analogies Test，MAT)等，这些往往被称为一级标准或客观标准；对申请人非认知因素进行评价的主要方式是面试、推荐信和个人陈述，这些往往被称为二级标准或主观标准对美国和加拿大的1970个心理学研究生教育项目进行了调查，要求招生机构在3点量表上对常用的硕士研究生选拔方式进行评价，结果表明，最为重要的考察方式是本科GPA(M=2.75，SD=0.43)，随后是推荐信(M=2.74，SD=0.49)、个人陈述(M=2.63，SD=0.55)、GRE/MAT(M=2.36，SD=0.43)以及面试(M=2.30，SD=0.76)等。概括而言，尽管不同专业或院校的研究生选拔方式存在一定差异，但是标准化入学考试、本科GPA、面试、推荐信以及个人陈述在大多数研究生选拔过程中都被采用。
    除了上述评价方式之外，国外研究生选拔实践和研究中还有一些应用较少或正在探索的非认知因素的测评方式，如传记式数据、情境判断测验、客观人格测验、内隐测量技术和条件推理测验等。传记式数据(Biographical data，Biodata)是有关个体过去经历的“历史性的、可验证的”信息[29]，有研究表明，Biodata 在预测大学生学业成就时有相对于SAT分数和“大五”人格因素的增益效度 [30]；然而有关Biodata的效度证据多来自研究领域而非实际的选拔情境；Biodata的最大问题在于可以作假，当用于高风险的选拔情境时，考生很可能提供不实的信息；尽管有研究表明在Biodata问卷中通过要求申请人提供可以验证的详细信息能够在一定程度上减少作假[31]，但是验证信息所要求的大量人力、物力和时间资源使得将这种方法应用于大规模的研究生选拔实践的做法尚不成熟。情境判断测验可用于测量成就导向、尽责性、可靠性、领导力、宜人性和人际理解力等多种非认知因素，并且有研究表明情境判断测验可以在一定程度上预测大学学业成功[32]；然而重测和培训可以在一定程度上提高情境判断测验的分数[33]，作假也会影响其预测效度[34]；此外，情境测验的评分问题仍存在大量争议[35]。客观人格测验虽不易作假[36]，但其效度尚缺乏充分的证据[37]。内隐测量技术一方面存在构想效度的争议[38]，另一方面在一定程度上也有作假的可能[39]。条件推理测验尽管可用于测量世界观、人格或动机等非认知因素[40]，但采用该方法得到的研究结果往往难以重复，而且这类测验是否的确不易作假尚需进一步检验[41]。
    就个人陈述而言，其优点在于使得申请人有机会通过对自己人格、动机、过去成就、技能、教育经历等的描述，表明自己与所申请专业和学校的适切性对个人陈述的预测效度所做的元分析表明，个人陈述对于录取后的学业成绩和教师评价的预测效度非常微弱；在将本科GPA和标准化入学考试成绩考虑进来后，个人陈述对于录取后学业绩效的预测没有增益效度。而且，到目前为止，尚未出现改进个人陈述的有效方法。
    综上所述，通过对国外研究生选拔实践和研究中关于认知和非认知因素评价方式的系统回顾，我们认为，除了标准化入学考试之外，本科GPA、面试和推荐信这三种考察方式是国外应用最为广泛、研究较为深入的研究生选拔方式，其丰富的研究成果对于我国研究生复试实践具有一定启示作用。
    三、本科成绩在研究生选拔中的应用
    本科阶段的成绩是绝大多数研究生招生机构考察研究生申请人认知因素的最重要的方式之一[49～51]。大量已有研究几乎一致表明，本科成绩对于多种研究生绩效标准具有良好的预测效度[52～54]。
    (一)本科成绩的预测效度
    大量研究表明，本科GPA是研究生GPA的有效预测变量，而且其预测效度往往大于GRE、GMAT、MCAT等标准化研究生入学考试成绩。Zwick[55]考察了本科GPA对管理学研究生一年级及整个研究生阶段GPA的预测效度；该研究收集了来自36个研究生机构共5219名管理学专业研究生的数据，结果发现，与GMAT的语言和数学分数相比，本科GPA对研究生GPA的预测更准确。Truell等[56]以GPA作为研究生学业绩效的效标变量，对179名工商管理硕士研究生的数据进行了回归分析，结果表明，与GMAT等其他预测变量相比，本科GPA是研究生GPA最为显著的预测变量，而且本科GPA对研究生GPA预测的贡献效果量大于GMAT分数。Reisig等[57]考察了本科GPA和GRE对研究生GPA、低分科目数以及未完成科目数的预测效度，通过对279名理学硕士学业成绩的分析，研究发现，与GRE分数相比，本科GPA与研究生GPA等上述三种研究生学业绩效效标之间的相关都更高；在包含本科GPA和GRE的有序logistic回归模型中，本科GPA对研究生GPA等三种绩效效标变异的解释贡献率都大于GRE。Evans等[58]基于434名医学院研究生的数据，考察了本科GPA和MCAT对研究生GPA等研究生学业绩效效标的预测效度；该研究发现，与MCAT及其分项成绩相比，本科GPA是研究生GPA等研究生学业绩效效标最重要、最显著的预测变量。Rubio等[59]的研究表明，GRE并不总是能够成功预测所有学科研究生的绩效，而本科GPA却是所有学科研究生GPA最好的预测变量。
    大量研究还表明，本科GPA对研究生学业成绩年级排名、获得学位所需时间以及职业资格考试成绩等研究生学业绩效效标也有良好的预测效度。Christensen[60]对157名法学院研究生进行了调查，考察了本科GPA和LSAT分数等预测变量与研究生学业成绩年级排名之间的关系；结果表明，本科GPA是法学院研究生学业绩效更好的预测变量，本科GPA与年级排名之间呈中等程度的相关(0.46)，而LSAT与年级排名仅微弱相关(0.23)。Onasch[61]的研究考察了本科GPA和GRE成绩对研究生获得理学硕士学位所需时间的预测效度；数据来自获得理学硕士学位的100名学生的档案；结果发现，具有较高本科GPA的学生完成硕士学位所需的时间更短，而GRE分数却不能预测学生能否按期完成学业。Kulatunga等[62]考察了本科GPA、MCAT等录取变量对研究生在加拿大医学委员会职业资格考试(Medical Council of Canada's Licensing Examinations，LMCC)中所得成绩的预测效度；基于97名医学院研究生的数据，该研究发现，与MCAT等其他变量相比，本科GPA对于预测LMCC中的学术和临床测验分数都是最为有效的；特别地，MCAT与LMCC临床测验分数的相关并不显著(r=0.07)，而本科GPA与其相关为0.25且在0.05水平上显著。
    尽管国外研究生选拔实践中往往以本科总体GPA作为录取决策的重要依据之一，但也有不少研究者考察了大学三四年级GPA、科学课程GPA以及专业课程GPA等其他类型的本科成绩作为研究生绩效预测变量的有效性。Paolillo[63]考察了大学三四年级GPA、GMAT、全脱产还是在职、本科专业、年龄等对工商管理专业研究生GPA的预测效度；基于220名工商管理专业研究生的数据所做的逐步线性回归发现，大学三四年级GPA是最早进入回归方程的变量且在0.01水平上显著。Rago thaman等研究了本科会计课程GPA和GMAT分数等会计专业研究生录取变量与研究生GPA之间的关系；基于对108名会计专业研究生数据的分析，该研究发现，本科会计课程GPA是比GMAT更好的会计专业研究生学业绩效的预测变量。
    (二)本科成绩与本科院校的竞争性水平
    本科成绩用于研究生录取决策，人们往往考虑到的一个问题是来自不同学校的研究生申请人的本科成绩是否具有可比性，因为不同院校的教学要求与质量以及学生整体水平等方面的差异可能会使得直接对不同学校的本科成绩进行比较缺乏共同的基础和标准。国外研究生选拔的实践和研究中，往往采用本科院校竞争性水平这一概念来衡量学校之间在教学质量等方面的差异。以美国为例，主要有三种本科院校竞争性水平指标：第一种是基于每年各大学所录取本科生的平均入学考试成绩而构建的高等教育研究机构指数，也被称为奥斯汀指数(Austin Index)[67]；第二种是基于每年各大学所录取本科生的入学考试成绩中位数、高中阶段年级排名以及报录比等信息而构建的综合反映各大学竞争性程度的巴恩选择性指数(Barron's Selectivity Index)[68]；第三种是根据各院校学位授予项目的范围和类型以及每年所获联邦资助等而对各高校进行分类的卡耐基分类体系(Carnegie Classification)[69]。
    对于是否应该在研究生录取决策中考虑申请人本科院校的竞争性水平，研究者之间尚未达成一致。有的学者认为，本科院校的竞争性水平应当作为研究生录取决策的依据。研究发现，当依据本科院校的竞争性水平对大学机构进行分类后，竞争性水平较低的学校科学课程的平均GPA更高，而竞争性水平较高的学校科学课程的平均GPA更低[70]。Hall等[71]的研究则发现，科学课程GPA的变异中70%都可以归于学校的竞争性水平。因此，有研究者认为，在研究生录取环节中引入本科院校的竞争性水平方面的数据有助于控制不同院校之间在教学要求和质量等方面的差异。以本科院校的竞争性水平作为权重因素，可能有助于进一步提高本科GPA的预测价值[72，73]。
    然而，研究发现，即使本科院校竞争性水平对研究生绩效具有预测作用，但它却缺乏相对于MCAT等标准化研究生入学考试的增益效度。Clapp等[74]基于某医学院连续两年录取的各110名研究生数据的分析，结果发现，尽管经过本科院校竞争性水平校正之后的本科GPA对研究生学业绩效的预测效度显著高于原始本科GPA，但是当增加了MCAT成绩之后，研究生期间考试成绩和教师主观评价等大多数研究生绩效效标回归模型的预测效度并未显著增加；基于此，研究者指出，本科院校的竞争性水平对于大部分研究生绩效效标的预测作用或许等同于MCAT。Blue等[75]考察了高等教育研究机构指数、巴恩选择性指数以及卡耐基分类体系这三种主要的本科院校竞争性水平指标对医学院研究生GPA以及职业资格考试成绩等研究生绩效效标的预测程度；通过对405名研究生的上述数据进行分析，结果表明，当采用原始本科GPA和MCAT对研究生学业绩效效标进行预测时，任何一种本科院校竞争性水平指标以及相应的本科GPA校正对于模型的预测效度都没有贡献。该研究得出结论，采用本科院校竞争性水平指标作为研究生录取决策的变量可能是没有必要的；而且，采用这类指标可能还会对来自较低竞争性水平院校的研究生申请人造成歧视。
    以上研究结果启示我们，如果录取决策仅仅是基于本科GPA，那么通过本科院校竞争性水平指标对原始GPA进行校正是有必要的，因为不同竞争性水平的院校之间其本科GPA可能的确存在差异。但是，如果录取决策是同时基于本科GPA和标准化研究生入学考试成绩，那么再通过本科院校竞争性水平对本科GPA进行校正或许就是没有必要的，因为申请人之间在本科院校竞争性水平上的差异已经表现在了申请人之间在标准化研究生入学考试成绩上的变异，即在本科GPA的基础上加入标准化入学考试成绩或许就已经实现了与加入本科院校竞争性水平指标类似的校正功能。
    (三)关于本科成绩的小结
    通过系统梳理本科成绩应用于研究生选拔的相关文献，我们发现，大量研究表明本科成绩是研究生GPA、学业成绩年级排名、获得学位所需时间以及职业资格考试成绩等多种研究生绩效效标的有效预测变量，而且其预测效度往往大于标准化研究生入学考试成绩。关于本科三四年级GPA、科学课程GPA以及专业课程GPA的研究考察了不同形式本科成绩的预测价值，为进一步提高本科成绩在研究生选拔中的效用提供了有益的探索方向。此外，有关本科成绩与本科院校竞争性水平的研究在一定程度上为研究生选拔中直接使用申请人的本科GPA消除了疑虑，鉴于研究生招生机构往往同时采用本科GPA和标准化入学考试成绩对申请人的认知因素进行评估，而已有研究表明标准化入学考试成绩或许已实现了与加入本科院校竞争性水平指标类似的校正功能，因此，再加入本科院校竞争性水平的因素或许是不必要的。
    四、面试在研究生选拔中的应用
    面试是研究生选拔过程中对申请人的非认知因素进行评价的最常用的方式[76～78]。但是，大量研究却表明，研究生录取面试的预测效度非常低[79～81]。
    (一)录取面试的预测效度
    有关录取面试预测效度的研究主要指向研究生学业成绩和专业实践两类效标。大多数研究表明，录取面试对于研究生的学业成绩几乎没有预测作用。Walton[82]在对医学专业研究生选拔的相关文献进行回顾的基础上指出，申请人的录取面试得分与随后研究生阶段的学业成绩之间不存在相关。在Kelman[83]的研究中甚至发现两者之间存在一定程度的负相关。Smith[84]对123名研究生的数据进行了分析，其中44名经过面试录取，79名未经面试录取；结果发现，接受了面试的研究生和没有接受面试的研究生在研究生一年级课程成绩等三种客观绩效指标上均无显著差异。Goho等[85]对健康护理领域的20个采用录取面试选拔研究生的研究进行了元分析，其中19个研究(总样本量为4629)考察了面试表现与研究生学业成绩的关系。分析发现，面试对学业成绩预测的平均效应值为0.06(95%置信区间为0.03～0.08)，该结果表明录取面试对研究生学业成绩的预测作用微乎其微。
    就专业实践而言，有的研究表明录取面试对于研究生专业实践表现没有预测作用，而有的研究却发现具有微弱的预测作用。Kelman[86]发现面试评委对研究生申请人的评价与这些研究生在高年级临床实践阶段临床教师对他们在相同特征上的评价不相关，而且经过面试和未经面试录取的研究生在临床教师评价上也不存在显著差异。Smith[87]比较了113名经过面试的研究生与67名未经面试的研究生在驻院实习阶段的导师评分，发现两者之间并不存在显著差异。Basco等[88]的研究考察了录取面试是否可以预测医学院研究生在专业实践中与患者之间的人际互动表现；结果发现，录取面试得分与高年级临床实践测验总分之间的相关为0.13(p=0.056)，而与该测验中的人际技能得分之间的相关为0.15(p＜0.05)；该研究得出结论，就该医学院的录取实践而言，录取面试对研究生与患者的人际互动表现的预测效度非常有限。在Goho等[89]所做的元分析中，有10个研究(总样本量为1283)考察了面试表现与临床绩效之间的关系，分析发现，面试对临床绩效预测的平均效应值为0.17(95%置信区间为0.11～0.22)，该结果表明面试表现与临床绩效有一定程度的相关。
    基于已有的研究结果，Kreiter等[90]指出，与录取决策所基于的其他变量相比，面试的心理测量学指标相差甚远，将面试作为研究生选拔过程中一个重要组成部分的合理性令人质疑。而且，面试并不是免费的，面试数据的获得需要投入大量的成本，包括面试内容和程序开发的费用、教师和服务人员的时间以及申请人在时间和经济上的投入等[91]。据Gabard等[92]调查，每个研究生招生机构中，教师和行政人员总共用于准备面试的平均时间为175小时，平均面试人数为126人，每位申请人的平均面试时间是41分钟。面对面试如此巨大的投入以及上述令人沮丧的效度研究结果，我们不由地追问，研究生录取面试缺乏效度的原因究竟是什么？是面试这种评估方式本身并不适合研究生选拔的情境，还是研究生录取面试在实施过程中存在问题？如果是前者，我们就不得不认真考虑是否应该放弃面试这种昂贵且无效的选拔方式；如果是后者，则提示我们必须对研究生录取面试实践予以改进。
    (二)录取面试缺乏效度的原因
    对于面试的预测效度，人事选拔领域在20世纪末已经达成共识，选拔面试是预测工作绩效的一种非常有效的工具[93～95]。Schmidt等[96]对1985年的人事选拔研究进行了回顾并最终得出结论，选拔面试是对工作绩效和培训有效性的最好的预测变量之一，并且这一结论具有跨职业、跨效标以及跨组织的一致性。当前，人事选拔领域对于面试的预测效度已经不存在质疑。
    然而，大量元分析还表明，尽管选拔面试是一种有效的人事选拔工具，但面试的效度受到面试结构化程度的调节。Conway等。
    就研究生选拔过程而言，结构化的录取面试要求：系统分析研究生成功所必需的关键因素或特质，并以此作为设计面试题目的基础；确保提问的一致性及评委的一致性；面试评分时采用行为锚定的评价量尺；对面试评委进行必要的培训等[101，102]。在研究生选拔实践中，录取面试的结构化程度究竟如何呢？Streyffeler等[103]的研究发现，大多数研究生录取面试并没有预先设计的问题，而是评委随机提问任何自己认为恰当的问题，然后往往基于内隐的、评委个人认为与研究生学业成功相关的标准进行评分。Elam等[104]通过对医学院研究生录取面试过程中评委笔记的内容分析发现，具有不同专业背景和面试经验的教师对于同一面试的目的和结构有着彼此不同的看法。据Johnson等[105]对92位评委的调查，大多数研究生录取面试对评委缺乏必要的培训，面试结构化程度很低。Nayer[106]和Agho等[107]的研究也发现，研究生录取面试的结构松散，面试评委的角色非常主观但却对研究生录取决策具有重要的影响。
    基于面试在人事选拔领域的出色表现以及研究生录取面试普遍缺乏结构化的现状，我们不难得出结论，研究生录取面试之所以缺乏效度，关键问题在于录取面试的结构化程度过低。在非结构化的研究生录取面试中，每位面试评委心目中有自己理想的研究生模型，这些彼此不同的评价标准使得依据面试结果预测研究生未来的绩效变得几乎不可能[108，109]。大量实证研究也反复证明这种非结构化的录取面试无法预测研究生未来的学业成就[110，111]。Streyffeler等[112]强调，准确地预测绩效要求认真地设计并验证测评的工具。未经培训的评委、随意的提问、采用不明确的标准进行评价，这样的面试是难以预测研究生的未来绩效的。因此，研究者们强调，提高面试的结构化程度是提高研究生录取面试有效性的关键[113，114]。
    (三)关于面试的小结
    面试是研究生选拔中最流行、最常用的非认知因素评估方式，同时也是最耗时、最昂贵的获取申请人信息的复试方式。然而，关于研究生录取面试效度研究的文献回顾令人震惊，除了有些研究发现录取面试对研究生的专业实践表现具有微弱预测作用之外，大量研究结果表明录取面试缺乏对研究生绩效效标的预测效度。人事选拔领域结构化面试充足的效度证据以及研究生录取面试普遍缺乏结构化的现状说明，很可能并不是由于面试这种选拔方式不适合研究生选拔的情境，而是由于研究生录取面试结构化程度过低，从而损害了面试这一广泛采用的人事选拔工具本可达到的预测效度。因此，针对具体的培养目标加强面试的前期研究，提高面试题目设计、提问方式和评分标准的结构化程度并确保面试评委接受必要的培训等，这些措施将在很大程度上改善研究生录取面试的科学性和有效性。
    五、推荐信在研究生选拔中的应用
    几乎所有研究生招生机构都要求申请人提供推荐信[11 5～117]。推荐信在研究生选拔过程中之所以重要，主要有三方面的原因[118]。最主要的原因是推荐信提供了申请人过去的绩效和表现，而研究发现过去的绩效和表现是未来成功良好的预测变量[119]。其次，推荐信可以提供录取过程中通过其他评估方法无法获得的信息，从而具有相对于其他方法的增益效度[120]。第三，作为推荐人的导师或其授课教师往往有机会观察申请人的典型表现而不仅仅是其最优表现；研究表明，测量最优表现的方法可能并不能准确预测申请人在未来情境中的典型表现[121]。
    (一)传统推荐信的预测效度
    尽管推荐信在研究生选拔过程中应用广泛，但是，传统推荐信的预测效度并不理想。研究表明，推荐信的内容往往与未来绩效的相关性很低[122]。Reilly等[123]对10个推荐信效度研究(总样本量为5718)结果的元分析表明，推荐信和总体效标之间的平均相关为0.14。Berman[124]的研究考察了推荐信等录取变量对临床心理学专业研究生的学业成绩和职业能力的预测作用，结果表明，推荐信并不能有效预测上述效标。Zeleznik等[125]研究了推荐信的推荐程度与研究生绩效之间的关系，该研究收集了236名医学院研究生的本科GPA、推荐人对申请人的推荐程度以及研究生阶段的学业绩效指标(包括研究生GPA、全国医学委员会测验成绩等)，结果表明，尽管推荐程度与上述研究生学业绩效指标之间存在微弱相关，但在多元回归分析中推荐程度对于研究生学业绩效的预测并无显著贡献；该研究质疑了研究生选拔中以推荐人对申请人的推荐程度作为录取决策依据的意义，并提出应该对传统推荐信的形式和方法进行改进以提高其预测效度。Vannelli等[126]的元分析发现，推荐信与教师对研究生的评价之间的相关系数为0.25，与研究生GPA之间的相关系数为0.14，与研究生的研究成果之间的相关系数为0.10。
    (二)传统推荐信缺乏效度的原因
    影响传统推荐信效度的首要问题是宽容偏差(leniency errors)的普遍存在。推荐信能否成为研究生未来绩效的有效预测变量，很大程度上取决于推荐信所提供信息的准确性和具体性。而研究表明，推荐信往往对申请人的能力和技能有所夸大[127]。Schneider[128]在其《为什么不能相信推荐信》一文中尖锐指出，“‘好’并不意味着好，而是意味着令人绝望的平庸；‘可靠’则是乏味和缺少想象力的简称。”Grote等[129]的研究考察了推荐信是否包含申请人的准确信息，结果发现，推荐信很少提及申请人负面的或者不良的人格特征、技能或行为。Loher等[130]的研究表明，过度宽容偏差削弱了推荐信的预测效度。
    影响传统推荐信效度的第二个主要原因是推荐者一致性信度过低。传统推荐信作为推荐人对申请人的主观描述，往往缺乏统一的评价维度。不同的推荐人基于各自对研究生录取标准的理解、从不同的角度出发对申请人进行评价，导致推荐者之间缺乏一致性，进而影响了推荐信对于录取决策的价值。传统推荐信的信度问题是如此严重，以至于Baxter等[131]的研究发现，同一个推荐人为两个申请人分别写的两封推荐信之间的一致性程度竟然大于两个推荐人为同一个申请人所写的两封推荐信之间的一致性程度。由此，他们指出，传统推荐信似乎更多体现的是推荐人的特点而不是被推荐者的特征。
    影响传统推荐信效度的第三个主要原因是推荐信评分的主观性。传统推荐信的形式使得推荐信在评分环节很容易出现问题[132]。一方面，推荐信往往充满一般性的、含糊的语言，评阅人不得不从字里行间猜测推荐人的真正意图[133]，评阅人对推荐信中信息的这种主观解释容易导致误读或错误的判断；另一方面，不同的评阅人对同一封推荐信的评价可能由于标准的不同而差别很大，由此，一封推荐信是否包含有效的证据以证实申请人所具有的特点，在很大程度上依赖于评阅人各自的标准甚至推荐人写信的技巧。Aamodt等[134]的研究发现，通过改进推荐信的评分方式，可以在一定程度上提高推荐信对未来绩效的预测效度。该评分过程要求两位专家依据详细的编码规则将推荐信中提及的申请人的特征归入事先确定的类别中。尽管采用这种方法推荐信的预测效度能够得以提高，但这种评分过程要求专家大量时间和精力的投入，因而难以应用于大规模的研究生选拔实践。
    (三)标准化推荐信的研究与实践
    为了弥补传统推荐信的不足，研究和实践领域逐渐探索和推出了标准化推荐信。与传统推荐信完全开放式的主观描述不同，标准化推荐信采用所有推荐人都必须遵循的结构化的形式收集有关申请人的信息。相比较而言，标准化推荐信的优势主要体现在两个方面：其一，针对传统推荐信推荐者一致性信度过低的问题，标准化推荐信的形式有助于促使推荐人对申请人进行评价时依据相对一致的评价标准，而且标准化的格式可以减少推荐人的特点(如写作质量和风格、人格特征等)对推荐信内容的影响；其二，针对传统推荐信评分的主观性问题，标准化推荐信往往采取Likert量表、相对百分位数量表等方式对申请人的重要特征进行定量评价，从而使得推荐信的评分像标准化测验一样客观和便捷。Daniel[135]的研究发现，标准化推荐信可以成为未来绩效的有效预测变量(r=0.33)。McCarthy等[136]比较了多种形式标准化推荐信的有效性，结果表明，采用恰当形式的标准化推荐信可以显著预测绩效，效度系数可达到.41，明显高于传统推荐信的效度。
    美国教育测验服务中心(Educational Testing Service，ETS)研究生入学考试委员会的研究者Walpole等[137]对来自多个机构代表不同学科的101位参与研究生录取的教师就研究生选拔的方式进行了访谈，其中大多数教师都提出希望能够用更为系统化的推荐信取代传统的推荐信。2009年7月，ETS在大量前期调查研究[138～140]的基础上，推出了研究生申请者的“个人潜力指数”标准化推荐信系统(Person Potential Index，ETSPPI)[141]。PPI作为第一个在高等教育选拔领域中大规模使用的非认知因素的测量指标，已经正式成为标准化研究生入学考试的补充，用于提供标准化入学考试所不能评价的申请者在非认知因素上的特征[142]。PPI是一种基于网络的标准化推荐信[143]，该系统允许每位研究生申请者最多选择五位推荐人(往往是其导师或其他授课教师)，由推荐人从6个对研究生学业成功非常重要的维度上对申请人进行评价，包括知识与创造性、沟通技能、团队合作、韧性、计划与组织以及道德与诚实。评价采用Likert 5点量表，每个维度4个项目，共24个项目。此外，推荐人还可以就自己的评分给出简短注解。在大规模推广之前，PPI已经被用于ETS的夏季实习生和研究者招募[144]，并在项目1000(Project 1000)中被用于选拔研究生[145]，这些预实验为PPI用于大规模研究生选拔提供了支持证据。
    PPI作为一种标准化推荐信，较好地解决了传统推荐信推荐者一致性信度过低以及评分主观性的问题。但到目前为止，PPI仍然不能很好地解决宽容偏差对推荐信预测效度的影响。对此，ETS提出了如下主要思路和方案来逐步解决这一问题[146]。(1)国家和局部常模锚定。随着推荐信数据的积累，PPI将为研究生招生机构提供PPI总分以及每个维度的国家和局部(如学校和院系)常模。常模信息可以提供申请人推荐信得分的相对百分位数。根据申请人的PPI分数以及国家和局部常模，招生机构可以定位该申请人相对于全国其他申请人或相对于特定学校、院系的其他申请人在影响研究生成功的6个非认知因素总分以及每个具体维度上的相对位次，从而便于招生机构更恰当地基于PPI进行决策。(2)推荐人评价历史即时反馈。PPI标准化推荐信系统在线收集评价数据并自动记录每位推荐人的个人评价历史。每当推荐人完成对特定申请人在某个项目、维度或总体的评分之后，系统将根据该推荐人以往的评价历史提供即时反馈，例如，“您对这位申请人的评价是您已有评价的第90百分位数，您确定吗？”同时，推荐人还可以随时查阅自己的推荐历史。这种反馈机制使得推荐人更谨慎于自己的评价并有助于推荐人保持自身评价标准的一致性。(3)推荐人宽严程度校正。随着PPI标准化推荐信系统中越来越多推荐人评价信息的汇集，PPI可以对每位推荐人的评分宽严程度进行估计并最终实现对其评分的相应校正。与其他推荐人相比，如果某位推荐人在对相同申请人进行评价时总是给出过高的评价，那么该推荐人的评分经过统计校正后将被相应减低，以校正其过度宽容偏差。(4)推荐人效度校正。这种方法将推荐人评分的预测效度考虑进来，在推荐人的评分与申请人的效标变量(如研究生GPA)之间建立联系，并使得不同推荐人的评分可以在同一效标变量的尺度上进行比较。如果某位推荐人的评价能够更为准确地预测申请人随后的研究生阶段的绩效效标的话，则表明该推荐人的评价有良好的预测效度。与那些效度比较差的推荐人相比，预测效度良好的推荐人的评价将被赋予更大的权重。这种方法尽管一开始难以做到，但随着推荐信数据的积累以及申请人效标数据的定期收集，这种校正对于提高整个PPI标准化推荐信系统的预测效度有着深刻的影响。
    (四)关于推荐信的小结
    推荐信能够提供通过其他方式难以获得的有关申请人的独特信息，因而在国外研究生选拔中使用非常广泛。但是，由于宽容偏差、推荐者一致性信度过低以及评分主观等问题的存在，传统推荐信的预测效度并不理想。标准化推荐信采用结构化的形式收集有关申请人的信息，从而较好地解决了传统推荐信信度过低和评分主观的问题。对于宽容偏差，ETS推出的PPI标准化推荐信系统将通过国家和局部常模锚定、推荐人评价历史即时反馈、推荐人宽严程度校正和推荐人效度校正等方法逐步予以解决。总而言之，标准化推荐信是研究生选拔过程中对申请人非认知因素进行评估的一个极具潜力的发展方向。
    六、国外研究生选拔方式对我国研究生复试的启示
    上述有关本科成绩、面试以及推荐信等研究生选拔方式在国外的研究与实践对我国研究生复试具有如下几点启示。
    (一)重视本科成绩在研究生复试中的应有作用
    大量研究表明，本科成绩是多种研究生学业绩效的有效预测变量，而且其预测效度往往大于标准化研究生入学考试成绩。本科GPA是对本科四年上百学分、数十门课程学业绩效的综合反映，是几十名评委在多种背景下对学生的多维评价。与单次研究生入学考试相比，本科成绩对考生学业能力乃至综合素质的反映可能更为稳定。然而，在我国研究生复试中，本科成绩并未受到重视。因此，应该在我国研究生复试中切实提高本科成绩的地位，发挥其在研究生选拔中应有的重要作用。而且，在研究生复试中强调对本科成绩的重视还有助于提高考生的整体质量。研究生选拔对本科教学具有强烈的导向作用。据教育部统计，每年有将近40%的本科生加入到考研行列之中[147]。在研究生复试中加大对本科成绩的重视，有助于缓解当前考研严重冲击本科教学的现状，而且长此以往，将有助于提高考生的整体素质。
    (二)提高录取面试的结构化程度
    关于研究生录取面试效度研究的文献回顾令人震惊，大量研究表明，研究生录取面试的预测效度非常低。人事选拔领域结构化面试的大量成功以及研究生选拔中非结构化面试的普遍失败表明，录取面试过低的结构化程度很可能是造成其效度低下的根本原因。就我国的研究生面试实践而言，面试是所有招生机构都采用的复试方式，无论是研究生招生机构还是考生都为此投入了大量的时间和资源。但是，录取面试缺乏前期研究、评价指标不科学、面试问题随意、评分标准含糊以及评委缺乏必要培训等非结构化的特征非常明显。此外，我国研究生面试占复试成绩的权重相当大，各招生机构中面试成绩占复试成绩的权重从30%到80%[148]；而且，面试涉及的考生人数众多，以2010年为例，研究生招生人数约为46.5万[149]，按照教育部规定的120%左右的差额面试比例计算，2010年全国研究生招生机构面试的考生达56万人之多。因此，加强面试的结构化程度成为提高我国研究生录取面试有效性的当务之急。具体而言，应当在我国研究生复试中，基于研究生胜任特征设计面试内容和题目、采用行为锚定量表进行评分、对面试评委进行相应培训，从而不断提高面试的结构化程度，进而提高复试面试的科学性和有效性。
    (三)引入标准化推荐信加强对考生非认知因素的考察
    研究领域和实践领域均已达成共识，研究生选拔的过程应该既包括对申请人认知特征的测量，也包括对其非认知特征的评估。非认知因素之所以对于研究生的成功也至关重要，是因为人格、态度和动机等非认知因素引导着研究生在智力活动和情境中的选择、努力程度及其坚持性水平。在我国研究生选拔实践中，对于考生非认知因素进行评价的主要方式是面试。然而，并不是所有的非认知因素都可以通过面试的方式予以测评。作为评估研究生申请人非认知因素的重要方式，推荐信可以提供通过其他选拔方式难以获取的独特信息，因而在国外研究生选拔中被广泛使用。已有研究表明，传统推荐信的预测效度并不理想，而以首个在高等教育选拔领域中大规模使用的非认知因素的测量指标PPI为代表的标准化推荐信较好地解决了传统推荐信所存在的部分问题，并为其他问题的解决提出了切实可行的方案。就我国的研究生招生实践而言，对推荐信的要求并不普及，即使有学校要求，也往往被列为“自愿提交”资料[150]，或者只要求免试攻读、同等学力、申请破格复试以及单独考试等特定类型的考生提交[151～155]。就推荐信的具体形式而言，大多数招生机构接受传统形式的推荐信，也有个别机构自行设计了标准化的推荐信[156]。对于考生提交的推荐信，由于招生单位重视不够以及有效评分方法的缺失等原因，而最终使得推荐信这一考察方式未能发挥实质性的作用。国外标准化推荐信的研究与实践、特别是PPI标准化推荐信系统给我们启示，应该在我国研究生复试中逐步探索标准化推荐信的具体内容和形式，从而加强对考生非认知因素的有效评估。
    (四)加强对我国研究生复试的实证研究
    由于我国有关研究生复试实证研究的匮乏，本文对国外研究生选拔中几种主要方式的大量实证研究进行了综述。然而，考虑到我国研究生招生选拔具有其独特性，国外研究生选拔领域的研究结论究竟在多大程度上适用于我国研究生复试的实践，仍需在进一步的本土研究中予以验证。加强对我国研究生复试的实证研究，系统收集复试阶段基于不同考察方式获得的预测变量以及研究生录取后的各种效标变量，检验现行各种复试方式的有效性并逐步探索新的有效评估方式，是提高我国研究生复试科学性和有效性的必由之路。

上一篇：高等教育公平与学费政策选择之间的优化策略

下一篇：中世纪大学思想制度考察的特征探讨

国外研究生选拔方式的特征以及对我国研究生复

热门论文

热门推荐

推荐问答