墨墨姐姐
最近又再看专业相关的论文,其中很多都用到了假设检验的方法,感觉自己对这方面知识的记忆还不是很深刻,所以都写下来,以帮助记忆。 1. 假设检验问题的来源 这两天主要看的论文是关于旅行时间估计的。大致想法是用上下游卡口的过车数据,筛选出即通过了上游卡口又通过了下游卡口的车辆,计算他们在两个卡口之间的行程时间,在此基础上估计相应时段两个卡口间的总体旅行时间。但在真实数据中,会遇到异常值的问题,比如一个路段里可能有多个上下匝道,有些车可能在路段中的某个匝道下道,过一段时间又在路段里的某个匝道上道,再经过下游卡口,这样卡口所记录的行程时间就不是这辆车直接从上游卡口到下游卡口的时间了,而是会长不少,实际处理过程中就需要把这些异常值去掉。但实际上处理异常值的方法只是借鉴了假设检验的思想以及应用了一些结论,并不是直接的假设检验。在这篇文章中我们还是专注于假设检验本身的方法论,以上的场景只是作为一个引子。 2.假设检验想实现的目的 进一步考虑这样一个场景,在某一天我从某条路段上抽样了若干如1中所述的旅行时间样本,然后我想知道这条路在那个时间段是否是拥堵的,我该怎么做呢?最简单的办法当然是,将这些时间和正常的旅行时间进行比较,如果他们大多都远远大于正常旅行时间,那显然是拥堵的。拿所有样本去进行比较有些繁琐,因此我们可以使用均值来代表原样本的特征,再去和正常旅行时间比较,在大多数样本都远远大于正常旅行时间的情况下,这样的比较也很容易得到肯定的结论。 这样的比较看起来很合理,但其实我回避了一个重要的问题,那就是如何去衡量“远远大于”。10分钟对3分钟是不是远远大于?还是20分钟对10分钟是远远大于?光凭感觉很难说清楚。这个时候就需要假设检验出场了。其核心思想就是说,现在我假设正常的旅行时间应该服从某一分布,然后我看在这样的分布的条件下,我抽出以上那些样本的概率有多大。如果这个概率很大,那我基本上可以认为总体是符合正常旅行时间分布的;如果这个概率很小,也就是出现了所谓的小概率事件,那我就认为总体应该不是正常的旅行时间分布。而如果样本不仅是小概率事件,而且还是大于正常旅行时间的小概率事件,那我就有理由认为这条路在抽样的那个时间段内,是拥堵了。 根据假设的分布不同,就出现了不同的检验方法,以下对集中常用的假设检验方法进行了总结(时间关系,没有一次性总结所有的方法,而是不断补充) 1)z检验 z检验应该是最基础的假设检验方法,因为它是假设理想分布是正态分布。中心极限定理告诉我们,当样本数量足够大的时候,任何抽样的均值都会服从正态分布(可能还有一些其他条件?)。因此假设理想分布是正态分布就是最符合直觉的一个办法。那么这个理想正态分布的参数是什么呢?首先它的均值我们应该是知道的,在我们的例子中就应该是正常旅行时间(如果你连这个都不知道,有什么比较的意义呢?),其次还有方差,这个其实是不太容易知道的,就比如你随便在五道口拉一个人都能够大概说出从13号线从西直门到五道口的平均时间,但如果让你说方差,恐怕没多少人能有把握地说出来。因此对于如何确定这个方差,实际是需要讨论的,其实也由此衍生出了不同的检验方法。在z检验中,我们认为这个方差是已知的。因此现在均值和方差都知道了,也就能构造出理想的正态分布了。 构造出理想的正态分布之后,我们想知道的是在理想分布下,抽到我们现在手里的样本的概率是多大?如果概率大,我们就认为这些样本应该是来自于理想分布,如果概率小,显然就很有理由相信他们不是来自于理想分布。如何判断这个概率是大还是小呢?人们是这样设定的:如果样本均值只有在过大或过小的情况下才不正常,那么就认为样本均值大到或小到出现概率小于alpha时可以拒绝理想分布。如果样本均值在过大和过小的情况下均不正常,那么就认为样本均值大到出现概率小于alpha/2和小到出现概率小于alpha/2时,可以拒绝理想分布。这里的alpha常常被成为显著性水平,可以理解为“究竟样本和理想分布的差异有多显著,才会让我们认为理想分布是不正确的?”在实际研究中,alpha的取值可以是,等等。而这里面的概率(也就是和alpha进行比较的那个概率),我们称其为p-value。 对“样本均值大到或小到出现概率小于alpha时”再进行一些解释。如果我们观察的变量是离散的,那么直接可以得到样本出现的概率,也就可以直接和alpha继续比较。如果观察的变量是连续的,那实际上抽到任何一个样本的概率都是0,也就没有和alpha进行比较的意义了。因此,再变量连续的情况下,我们一般是把大于或小于样本均值的概率作为p-value,如果大于或小于这个样本均值的概率很小,那自然这个样本均值本身也很异常了,所以也有很大利用拒绝理想分布。 上面是从p-value的角度对z检验的思想进行的阐述。换一个角度,其实每一个概率都对应了一个随机变量的取值,既然我们设定了显著性水平alpha,可不可以也同时设定一个与alpha对应的随机变量值呢?当样本均值大于或小于这个值时,就认为理想分布是不正确的。答案是可以的。但对于不同的正态分布,与alpha对应的随机变量值是不同的,如果每假设一个理想分布都要去算一遍这个值,意味着每次都要求解一个带积分的方程,比较麻烦。因此考虑构造一个标准正态分布,把理想分布下的样本均值转化为标准正态分布的某个值(只需仿射变换即可),再与alpha在标准正态分布下的值(预先算好即可)进行比较,这样就会比每次都去求解积分方程简单许多。而由样本均值转化为来的值,即是z值,预先算好的值,就是标准正态分布表。这是从p-value以外的另一个角度来理解z检验,其实应该也是z检验最初的解释(因为出现了z这个名称),不过我个人还是觉得从p-value的角度更好理解一些。
木糖不纯
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。下文是我为大家整理的关于统计相关论文的范文,欢迎大家阅读参考!
浅谈概率在统计学中的应用
摘 要:概率是研究随机现象的数学学科,其理论严谨、 应用广泛、 发展迅速。目前,概率的理论与方法已广泛应用于 统计学中,主要是从正态分布、小概率事件两方面介绍了概率在统计学中的一些应用。
关键词:随机现象;事件;样本;母体;正态分布;小概率原理
统计学主要分为描述性统计学和推断性统计学。给定一组数据统计学可以摘要并且描述这些数据,这个用法称为描述性统计学。另外,观察者以数据的形式建立起一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称为应用统计学。另外,还有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。
同一仪器多次测量同一物体的重量,所得的结果彼此总是略有差异,这是由于诸如测量仪器受大气影响,观察者身体或 心理上的变化等等偶然因素引起的。同样的,同一门炮向同一目标发射多发同种炮弹,弹落点也不一样,因为炮弹制造时的种种偶然因素对炮弹质量也会有影响。此外,炮筒位置的误差,天气条件的微小变化等等都影响弹落点。再如从某生产线上用同一种工艺生产出来的灯泡寿命也是有差异的等等。
总之所举这些现象的一个共同点是:在基本条件不变的情况下,经过一系列试验或观察会得到不同的结果。换句话说,就个别的试验结果或观察结果而言,它会时而出现这种结果,时而出现那种结果,呈现出一种偶然性。这种现象称为随机现象。对于随机现象通常关心的是在试验或观察中某个结果是否出现,这种结果称为随机事件,简称事件。为了实际的理由选择研究团体的子集代替研究母体的每一笔资料,这个子集称作样本。推论统计学被用来将资料中的数据模型化,计算它的几率并且做出对于母体的推论,这个推论可能以对或错的答案呈现(假设检验)出对未来观察的预测,关联性的预测,或是将关系模式化(回归)。
随机现象有其偶然性的一面,也有其必然性的一面。这种必然性表现为大量试验中随机事件出现的频率的稳定性,即一个随机事件的频率常在某个固定的常数附近摆动,这种规律我们称之为统计规律性。频率的稳定性说明随机事件发生的可能性的大小是随机事件本身所固有的,不随人们的意志而改变的一种客观属性,因此可以对它进行度量。对于一个随机事件A用一个数p(A)来表示该事件发生的可能性的大小,这个数p(A)就称为随机事件A的概率,因此概率度量了随机事件发生的可能性的大小。
如果样本足以代表母体,那么由样本所做的推论和结论可以引申到整个母体之上,统计学提供了许多方法来估计和修正样本资料过程中的随机性(误差)。要了解随机性的一定几率必须具备基本的数学观念。数理统计是应用数学的分支,它使用几率论来分析并且验证统计的理论基础。
概率在统计学中有着重要的作用,包括总体、抽样研究、统计描述、统计推断、正态分布规律等,正态分布是概率中最重要的一种分布。一方面正态分布是自然界最常见的一种分布,例如测量的误差;炮弹弹落点的分布;人的生理特征的尺寸:身长、体重等;农作物的收获量;工厂产品的尺寸:直径、长度、宽度、高度,都近似服从正态分布。
一般来说若影响某一个数量指标的随机因素很多,而每个因素所起的作用又不太大,则服从正态分布这点可以用概率论的极限定理来加以证明。另一方面正态分布具有许多良好的性质,许多分布可用正态分布来近似,另外一些分布又可由正态分布来导出,因此在理论研究中,正态分布十分重要。如利用正态分布规律统计学校的成绩分布,得出一个阶段的学生总体是否进步,然后寻找原因,得出改进办法。分析一年 经济的发展,预测来年的收入。找出影响发展的主要因素,寻求改进的方法等等。
小概率事件即发生概率很小的事件(p≤),在统计学中有着重要的应用,这样的事件理论上发生的可能性则几乎为零。如买彩票中大奖,就是典型的小概率事件,也许每一期均会有大奖开出(可能性很小),但对于每一个彩民来说,他买一注中大奖的可能性(小概率事件在一次试验中就发生的概率几乎没有。其实,这就是小概率事件在统计学上应用的重要理论依据——小概率原理。)即小概率事件在一次试验中发生的可能性很小,如果真的发生了,根据统计学可怀疑其真实性。
如某接待站在一天内共接待5人单独来访,结果这5人全在周一到访,由此能否推断接待站有规定的接待日?假定没有规定的接待日,一个来访者在五天中任何一天来访都是等可能的用Am(m=1,2,3,4,5,)表示“一周接待了m个人,全都是周一来访”事件,Am的概率如下表示:
事件 A1概率 事件 A2概率
事件 A3概率 事件 A4概率
事件 A5概率
5个人都在周一来访的概率为,大约万分之三。现在概率很小的事件在一次试验中发生了,于是怀疑假定的正确性,从而推断接待站有规定的接待日。
公元1814年,拉普拉斯在他的新作中,记载了一个有趣的统计,世界上男婴与女婴的出生比值是22∶21,即在出生的婴儿中,男婴占,女婴占,可奇怪的是1745-1784年四十年间统计巴黎男婴的出生率时,却得到另一个比是25∶24,男婴占,与前者相差,对于这千分之一点八的微小差异,进行调查研究,发现巴黎人有“重女轻男”的现象,有抛弃男婴的陋习,以至于歪曲了出生率,经过修正出生比依然是22∶21。统计学依据小概率原理作出结论的正确性很高,但也存在犯错误的风险(较低)。
小概率原理在统计上有着非常重要的应用。如假设检验结论的判断,假设检验是用样本信息推测总体的一种统计推断方法,由于抽样误差的存在,样本信息和总体特征间可能不尽相同,所以假设检验实际上就是判断待比较各方的差别是不是由抽样误差造成的。假设检验中p值的大小反映的就是差别由抽样误差造成的概率。在假设检验中就是通过比较p值与检验水准a(通常设为)的大小关系,从而做出差别有无统计学意义。
如果p值小于a统计学则认为差别由抽样误差造成的概率很低,那么根据小概率原理认为,小概率事件在一次抽样中就发生的可能性几乎为零,所以判定差别可能是由于比较各方在本质上的不同导致的。否则认为差别是由抽样误差造成的。在这里检验水准是在假设检验前认为设定的,是研究者能够承受的本次假设检验放弃真错误的概率,也可以理解为是研究者设立的小概率事件的概率。而p值则是通过计算,即在检验假设成立的情况下,差别是由抽样误差造成的概率。
统计在现代化 管理和 社会生活中的地位日益重要,随着社会经济和科学技术的发展统计在现代化国家管理和企业管理中的地位越来越重要,人们的日常生活都离不开统计,统计的影响是这样巨大,故与之密切相关的概率的作用也越来越重要。
浅谈统计学基础教学方法与学生应用能力的培养
摘要:统计学基础知识是一门研究数据的技术性学科,具有综合性,抽象性及应用面广等特点,通过该课程的教学能培养学生运用统计工具,系统的分析问题和解决问题的能力。在中职教学中需结合本学科的特点,不断改进教学方法,提高学生综合应用统计知识的能力。
关键词:统计学教学方法设计能力培养
统计学基础知识是一门研究数据的技术性学科,学科内容中的调查研究和分析处理问题的方法,不仅应用于各项工作中,也用于其他学科研究过程中的数据搜集、整理、分析并得出结论。故统计学具有综合性,抽象性,应用面广等特点,通过该课程的教学能培养学生运用统计工具,系统的分析问题和解决问题的能力。现结合本学科的特点探讨其教学方法和学生应用能力的培养。
一、统计学基础课程教学的特点
统计学基础也是社会经济统计学原理,其学科内容的特点:一是基本概念多,理论讲授上较抽象;二是指标类别多,初学时严格划清各种指标内涵难;三是调查分析方法多,正确理解和选择恰当的调查方法难;四是正确的调查方式、方法指标体系的设置,统计范围的界定与是否得出反映事物的正确结论直接相关;五是科学设置调查事物的指标体系又与弄清反映该事物的客观内在本质的相关指标直接相关。因此,对年龄小,分析能力差的中职学生教学对象来讲,即便从概念上掌握了统计学的原理,如果不结合实际的统计案例资料和采用恰当的教学方法,就很难达到正确应用统计知识解决现实社会经济中问题的目的,甚至会因为错误使用方法,得出对事物评判的错误结论。
二、结合本学科知识的特点采用适当的教学方法,增强应用能力的培养
在教学中,首先通过对教材内容体系的全面分析和教学对象知识结构的分析,以及学生对统计学知识学习的兴趣、理解的深度和掌握应用情况的总结,在教学中的不同环节恰当地实施不同的教学方法。
1、通过学科内容体系导入与工作任务联系,提升学生学习兴趣
在讲授本学科内容时,首先给学生介绍统计学基础教材内容的基本框架:统计学的涵义、研究对象、性质、职能和研究的基本方法。其次是介绍学科知识体系:统计学中的基本概念,统计资料调查整理的方式方法,统计数据的显示与提供,以及提供的统计数字资料运用多种指标法进行分析(总量指标法--反映事物的规模状况,平均指标法--反映事物的集中趋势及一般规律,相对指标法--反映事物的纵向横向比较和事物之间的联系,标准差法--反映事物中总体单位标志值之间的离散趋势和程度,分析事物之间的差异。统计指数法--反映事物中各种直接因素的影响。
时间数列法--反映事物在时间段上的发展变化趋势。抽样调查法--统计专门调查方法中最科学的方法。相关回归分析法--分析事物中的因果关系。)通过内容体系的简单讲解导入,让学生在学习具体理论知识前就对该学科有一个总体感性认识,产生兴趣。带着要通过掌握统计知识去解决实际问题的意识和目的去学习。
2、让学生的学习从理性认识过渡到感性认识,增强应用能力
我在教学中介绍统计学的基本概念和统计调查方法内容时,除对每个知识点进行举例说明外,一部分知识讲完后,给出几个典型的统计调查方案让学生弄清在这些调查方案中所涉及的统计总体、总体范围的界定、总体单位、标志、指标以及采用的哪种调查方式等。这不仅让学生把抽象的统计学概念知识从理性认识过渡到了感性认识,而且通过这些案例还进一步让学生明白了调查方式的选用必须要根据调查对象和要解决的问题适当选取,而不是什么调查目的,什么事物都可以用任何一种调查方式。只有正确选用统计方式、方法去调查分析客观事物才能得出正确的结论,才能具备正确利用统计知识去分析解决问题的能力。
3、综合指标应用与典型资料结合法,提高学生的应用能力在讲授综合指标法时,对每一种指标的理解都是
分别举例说明让学生理解该指标的含义和作用。为了让学生能正确理解和区分每一种指标的作用,在所有指标介绍完后,我选用了国民经济年度统计公报资料作为案例,让学生从统计公报资料中找出学习过的每一种综合指标,如:2007年全国GDP总值,人口数等是总量指标。本年度GDP完成百分比是计划完成相对指标,本年度GDP比上年度增长百分比是动态相对指标。人均GDP是强度相对指标。
GDP构成比例是结构相对指标。五年中平均每年增长的百分比是后面要学习的平均发展速度和平均增长速度的应用。通过这样的案例,学生不仅对各种综合指标法的应用有了正确的理解,而且把各种指标的理解认识变成了应用能力,同时还对后面学习动态数列知识奠定了基础。在教学中很好地起到了巩固理解知识和预习下一教学环节内容的潜在作用。还起到了掌握知识综合性的效果。通过这样一个案例,学生进一步明确,研究一个总体的问题时,可以对问题的不同方面运用多种指标进行分析,弄清事物之间客观存在的关联,这些都必须用一定的统计数据来说话。因此进一步强调了学生学习统计知识的必要性,也让他们认识到统计学知识的科学性和实用性。
4、新旧知识在现实案例中的综合运用,提升学生应用能力
在讲授统计指数的内容时,传授给学生统计指数编制的基本方法的原理,教材中举例的商品价格、商品量、以及职工工资水平指数的编制都仅仅是一种计算基本方法的介绍。要培养学生应用能力还必须结合实际统计指数编制的案例进行讲解,让学生能够将理论知识及其计算方法应用到实际工作中去,所以我特意在理论知识和计算方法讲完后,介绍实际工作中零售物价指数的编制。这个经济指数也是民众普遍关注的问题,与人们生活水平息息相关。
告诉学生,物价指数的编制运用了抽样调查的知识,实际工作中不可能对每一种商品都采价调查,而是分大类商品,在商场和集贸市场分别采价。例如集贸市场的蔬菜价格每周至少要采集三次,每次要采集成交价的三人次,进入零售商品物价指数编制的价格实际上是一个多次简单平均的价格,而每天某种商品的三个价格要简单平均,每周三次的平均价格再简单平均。商场的商品价格如较稳定可用期初和期末的平均。通过这样一个案例,既给学生传授了新知识,又复习巩固了平均指标计算方法的具体应用,不仅日常生活中用,而且在经济研究中应用非常广泛。进一步告诉学生加权平均法和调和平均法在编制物价指数和其他社会经济现象指数中的应用。
5、典型调查案例教学法,培养学生综合应用统计知识,分析解决问题的能力
教学中我把学生应用统计知识,分析问题能力的培养放在抽样技术的教学内容中,抽样技术的基本理论也是抽象的。如,抽样误差,抽样平均误差,抽样的组织方式。针对研究对象的特点,都必须具体问题具体分析,而抽样误差的计算既涉及到平均指标的计算又涉及到标准差的计算,新旧知识的交替如何培养学生应用新旧知识计算、分析问题,解决问题是教学的难点。
为了突破这个难点,我在教学中利用了一个草席质量抽样调查的案例,这个案例体现了从制定调查方案中的调查方式的确定,采用主要标志划类,简单随机抽样原则,到调查实施的步骤:草席宽度分类,登记原验级等级,编顺序号,确定抽样总体,计算全级总体标准差,决定抽样数目,设计计算表格,决定样本号,现场调查中的统一验级标准。
验级过程:由5人分别验级,级数的最后确定采用众数办法,5人验级中的3人验级标准为准。以上这些都具有前面介绍的抽样调查方式的代表性,而又用到了平均指标和众数的方法。同时,在计算草席平均等级时,还用到了品质标志值平均指标的计算,即将等级品质标志值过渡成数量标志来计算该批不同尺寸草席的平均等级,再计算抽样指标与原验级指标之间的误差。
这样一个复杂的抽样调查过程和指标的计算结果,更清晰的告诉学生要说明和解决的问题:由于收购草席时,验级人员在判断标准上的误差带来了草席等级误差与价格的差异。而由于误差的存在,根据此抽样调查结果计算出的整个库存草席的总价值与实际价值的差异巨大。对导致这样的结果,进一步结合政策市场以及人为等多种因素进行分析,查找了原因并提出了切实可行的解决方案,促使了草席的收购价实相符。
通过以上几方面的教学方法设计,能让学生对统计学有更全面的认识,对学科基础内容有一个总体框架性把握,让那些学生在学习时感觉模糊的概念和繁杂的理论通过这几个教学环节的反复巩固和练习也逐步变得清晰,并大大提高了其综合应用统计知识的能力。
杂草公主/yl
SPSS软件是“统计产品与服务解决方案”软件,是数据统计分析的一个重要的工具。下文是我为大家整理的关于spss统计分析论文的 范文 ,欢迎大家阅读参考!
统计分析软件SPSS的特点和应用分析
【摘要】通过文献资料法,介绍了统计分析软件SPSS的特点,并通过实例:用非参数检验中的两个独立样本的检验(Test for Two Independent Sample)进行分析,对该软件的应用做了详细的介绍,旨在为学习SPSS软件的人们提供参考。
【关键词】统计分析软件;SPSS;独立样本;非参数检验
一、前言
统计分析软件SPSS是一款统计产品与服务解决方案的软件,其全称为“统计产品与服务解决方案(Statistical Product and Service Solutions)”。该软件是一款在统计中应用很广的统计分析软件,目前在各专业 毕业 论文经常可以看到它的身影,其应用范围广、方便快捷等特点吸引着众多的 爱好 者。本文通过对统计分析软件SPSS的功特点进行介绍,通过举例用非参数检验中的两个独立样本的检验(Test for Two Independent Sample)进行分析,对该软件的操作用做了详细的介绍,为学习SPSS软件的人们提供参考。
二、SPSS软件的特点
(一)操作简便
SPSS软件的界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。
(二)编程方便
具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计 方法 的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。
(三)功能强大
具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。
(四)全面的数据接口
能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASCⅡ数据文件, Excel 的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt,word,PPT及html格式的文件。
(五)灵活的功能模块组合
SPSS for Windows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。
(六)针对性强
SPSS针对初学者、熟练者及精通者都比较适用。并且现在很多群体只需要掌握简单的操作分析,大多青睐于SPSS,像薛薇的《基于SPSS的数据分析》一书也较适用于初学者。而那些熟练或精通者也较喜欢SPSS,因为他们可以通过编程来实现更强大的功能。
三、实例分析――两个独立样本的检验(Test for Two Independent Sample)
例题:为了调查甲、乙两地土壤对 种植 同一种西瓜有没有影响,从这两个产地分别随机抽取同种的8只和7只西瓜,称重后得重量(市斤)如下:
甲(斤):、、、、、、、
乙(斤):、、、、、、
问:根据样本数据检验两地的土壤对种植西瓜在重量上是否有显著差异?
解:建立假设 H0:甲乙两地的西瓜重量没有显著差异;
H1:甲乙两地的西瓜重量有没有显著差异。
然后根据上面给出的数据建立数据文件,注意数据文件中有一个表示重量数据的变量和一个表示地区分组的变量。最后在数据编辑窗口进行检验。检验的具 体操 作过程如下:
第一步:单击Analyze Nonparametric Test 2 Independent Sample,打开Two-Independent-Sample对话框(见图1)。
第二步:选择检验的变量进入检验框中,选择分组变量进入Grouping Variable框中,单击Define Group键,打开Define Group对话框,将分组变量值分别键入两个框中,单击Continue返回主对话框(见图2):
第三步:在Test Type栏中,确定检验方法。
SPSS中提供了四种检验方式,几种检验方法侧重点不同,但都是先把两样本数据混合排序,再从不同的角度分析并检验两个独立总体的分布是否有显著的差异。有时这几种检验结果可能不一样,所以要结合数据的探索分析考察数据的分布状况作出结论。本文选择了常用的Mann-Whitney U曼―惠特尼检验和Kolmogorov-Smirnov Z K-S检验。
第四步:选择输出的结果形式及缺失值处理方式;
第五步:单击OK,得输出结果。
所以,以上两种检验结论是一致的。也就是说在两地种植的同一种西瓜地重量没有显著差异。
参考文献
[1]杜志渊.常用统计分析方法―SPSS应用[M].山东人民出版社,2011.
[2]刘宁元.运用SPSS对高职专业课程成绩进行相关分析[J].电脑与电信,2007(3).
[3]井海立.SPSS在数学试卷统计分析中的应用[J].科技信息(学术版),2006(10).
试谈SPSS软件在考试数据统计分析中的应用
摘要: SPSS软件是数据统计分析的一个重要的工具。本文作者利用SPSS软件对考试数据的相关性、检验假设进行了统计分析,介绍了使用SPSS进行统计分析的一般方法和步骤,文中的方法对考试研究人员具有一定的指导意义。
关键词: SPSS软件 考试数据 统计分析 操作步骤
1. 引言
一份好的试卷须有好的测量指标来表明它的优良程度,试题有难度和区分度指标,试卷有效度和信度指标,这些是评价考试最主要的测量指标,但是仅有这些指标不足以反映一份试卷的实际测量效果,考试研究人员希望从考生的试卷统计分析中获取更多的信息来评价一份试卷。在计算机未普及的年代,考试成绩统计主要依靠人工阅卷,考试数据无法电子化存储,对考试数据分析统计难以实现。随着计算机的普及和信息化的推广,各种分析数据的软件应运而生,这些软件中汇集了统计学和测量学的分析工具,使得应用电子信息技术分析统计考试成绩数据成为可能,这些统计信息可以为教研部门、考试行政部门进行行政决策等提供非常重要的帮助。在众多的统计分析软件当中,SPSS是应用最多、影响最广泛的分析工具之一。在本文中,我们以SPSS软件为工具,对 教育 招生考试成绩的数据进行统计分析,分析主要着重于考试数据的相关性、假设检验等几个方面。
2. SPSS分析软件简介
“SPSS统计分析软件”的英文名称为“Statistical Package for the Social Science”,中文名称为“社会科学统计软件包”,它是世界著名的统计分析软件之一,在自然科学、社会科学的各个领域均有非常广泛的应用。SPSS是一个组合式软件包,它集数据整理、分析于一身,主要功能包括数据管理、统计分析、图表分析、输出管理等,该软件的统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。
下面我们利用SPSS软件对考试数据的相关性、检验假设进行统计分析,介绍使用SPSS进行统计分析的一般方法和步骤。
3. 相关性分析
教育考试中,考试结果的信度,试题的区分度,每个题目得分与试卷总分的关系,以及题目之间的关系,等等,都是考试研究的重要内容,最主要的研究方法就是数据的相关性分析。在众多的教育考试数据的相关性分析方法中,Pearson相关系数法、Spearman相关系数法和Cronbach α信度系数法是比较常用的几种方法。
Pearson相关系数法计算公式:
式中x为第i个考生第j题的得分,y为第i个考生第k题的得分,为第j题的平均分,为第k题的平均分,n为测试样本量。该公式既可以计算两个连续变量之间的相关性,又可以计算一个双歧变量与一个连续变量之间的相关性。
Spearman相关系数法计算公式:
r=1-(2)
式中D为两个变量的秩序之差,n为样本容量。
Cronbach a信度系数法计算公式:
α= 1-(3)
式中n为试题数,s为第i题的标准差,s为总分的标准差。该公式实际上就是将考试中所有试题间相关系数的平均值(又称内部一致性)作为α信度系数。
对于给定的一组考生成绩数据,利用SPSS统计分析软件可以非常容易地定量分析考生某学科试卷总分和该学科某道题的相关性,以及各个题目之间的相关性。我们以Pearson相关系数分析为例,利用SPSS软件进行统计分析。
数据统计分析的对象是某省高考数学6道解答题的得分情况(不是整张试卷),数据源于该省的高考数据成绩。研究的目的是测量6道解答题每两个题目之间的相关性。
我们以SPSS 版本的软件为例,介绍利用SPSS进行数据统计分析的步骤(以Pearson相关系数法为例):
(1)将考试数据导入SPSS软件,在SPSS数据窗口中,顺序点击【Analyze】→【Correlate】→【Bivariate...】,系统弹出变量相关系数设置对话框。
(2)在该对话框中,将待计算的变量从左侧的变量列表中导入到右侧的“Variables”变量列表中,在本例中导入t1、t2、t3、t4、t5、t6共6个变量(t1―t6是6道解答题的变量名称)。在“Correlation Coefficients”相关系数选项中,选取“Pearson”复选框。
(3)在该对话框的“Test of Significance”设置区域,可以点选“Two-tailed”选项或者“One-tailed”,我们采用系统默认值。
(4)对话框中的 其它 选项取软件系统的默认值,点击【OK】,开始相关系数计算,系统弹出新的窗体输出运算的结果。本次输出的情况如下:
上表的统计结果可用于题目之间相关性的分析。表中的大部分题目的相关系数都比较适中,但题目T4和题目T5之间的相关程度远高于其它几个题目,我们可以确信这两者之间一定存在着比其他题目之间更紧密的关系,这是我们通过分析获取的重要信息,该信息表明这两个题目之间的相关性高于其他几个题目之间的相关性,这在大规模考试中是不应该出现的,需要在以后的命题考试中加以改进。
Spearman相关系数分析方法和上述分析方法类似,只需要在上述SPSS操作的第二个骤中选取“Pearson”复选框,程序就会按Pearson相关系数法进行统计分析,如果同时选中“Spearman”和“Pearson”复选框,程序将会同时计算按两种分析方法统计分析的数据,并会以不同的图表进行显示,而Cronbach a信度系数法计算方法与上述方法略有不同,其操作步骤如下:
(1)在SPSS数据窗口中,顺序点击【Analyze】→【Scale】→【Reliability Analysis...】,系统弹出“Reliability Analysis”信度分析设置对话框。
(2)将待计算的变量从左列的变量列表中导入到右侧的“items”变量中,在左下列的“model”选择项的下拉列表中确保选中“Alpha”(信度系数),点击“Statistics”选择项可以进行更为详细的参数设置,我们采用系统的默认值即可。
(3)参数设置完毕之后,点击【OK】,软件开始相关系数计算并输出运算结果。
4. 选择题的选项分析
在目前的教育招生考试中选择题是一种较常见的题型,考试研究人员关注较多的是对选择题基本特征、测量功能及其优缺点的理论探讨[1][2],对选择题干扰项的设计及其施测后的实际效果关注甚少,事实上施测后对题目各选项的有效性作出判断可为评价试题质量提供重要参考依据。我们利用统计中χ检验假设,对试卷中常见的选择题选择项进行统计分析。
教育考试的单项选择项一般设置为4个,其中仅有1个选择项是正确的。命题人员在设计选择项时,应当也必然对每道题目所有的选择项(正确选择项和干扰选择项)的考生作答情况作出预测,对考生作答的分布情况作出预估。考试结束后,研究人员应该对实测的情况与命题教师预测的情况进行对比分析,以检验考试效果是否达到了预测的目标。这和χ拟合度检验的思想具有一致性,因此可以尝试使用χ检验假设进行分析。
我们依据文献[3][4]的方法来介绍χ检验假设在考试数据分析中应用的基本原理,设变量E是命题者对某道试题的期望值,E=nP,n为样本容量,P为期望的相对频率,引入以下统计量:∑(O-E)/E,其中O为观察频数。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
我们需要进行的假设检验是:零假设H:选项的实测分布与期望分布相同;非零假设H:选项的实测分布与期望分布不同。
检验假设的思想:拟合度检验的统计量在确定的某种显著性水平下如果零假设是真,则检验统计量∑(O-E)/E呈近似χ分布,其自由度为研究变量的可能值减1;如果实测分布与期望的分布相当吻合,就不排除零假设,否则就排除零假设;最后对检验假设的结果进行解释。
数据分析的目的是判断考生实际的应答结果(实测数据)与命题期望的选择概率(期望数据)是否一致。我们随机抽取某省5542个高考考生的数学有效数据构成分析样本,利用SPSS进行统计分析。
SPSS数据统计分析的步骤如下:
(1)将考试数据导入SPSS软件,依次点击【Analyze】→【Nonparametric Tests】→【Chi-Square...】,弹出“Chi-Square Tests”对话框。
(2)将变量列表中待分析的题目序号导入到“Test Variables List”(检验变量列表)中,本例中题目的序号为t7。
(3)将对选择试题的每个选项的期望值依次输入到“Expected Values”所属的方框,具体操作方法是选中单选框“Values”,输入具体的期望数值,点击“Add”按钮,依次重复上述的步骤直至所有的选项的期望值输入完毕。
(4)点击【OK】,输出软件运算结果。
我们需要进行的假设检验,H:选项的实测分布与期望分布相同;H:选项的实测分布与期望分布不同。
假设检验的显著性水平为α=,χ=∑(O-E)/E,自由度为df=4-1=3,查χ分布表或利用相关软件可得P=,由于P>α,因此不能拒绝零假设,即选项的实测分布与期望分布相同。因此,检验结果在显著性水平时,没有足够的证据拒绝零假设,即可认为本题选项的实测分布与期望分布相同,也就是说本题的实际测试效果与命题教师预测的效果是一致的,命题教师准确地估计了考生的实际水平,这是分析获得的很重要的结论。
5. 结语
SPSS软件在考试数据统计分析中应用广泛,但大部分是集中在试题难度、均值、方差统计、考试数据的图表显示等几个方面,本文从一个新的角度利用SPSS软件对考试数据的相关性、检验假设等几个方面进行了尝试性统计分析,介绍了使用SPSS进行统计分析的一般方法和步骤。从上述分析来看,软件操作步骤和统计分析过程十分简单、快捷,对于测量学和统计学基础不太好的数据分析统计人员来说,只要遵循一定的操作步骤,就可以进行分析。
参考文献:
[1]王孝玲.教育测量(修订版)[M].上海:华东师范大学出版社,2006.
[2]雷新勇.大规模教育考试:命题与评价[M].上海:华东师范大学出版社,2006.
[3]李伟明,冯伯麟,余仁胜.考试的统计分析方法[M].北京:高等教育出版社,1990.
[4]雷新勇.考试数据的统计分析和解释[M].上海:华东师范大学出版社,2007.
猜你喜欢:
1. 统计学数据分析论文
2. spss统计分析实习心得
3. 统计学学年论文
4. 统计学分析论文
统计学研究对象和研究方法 一、统计学的研究对象 一般来说,统计学的研究对象是自然、社会客观现象总体的数量关系。正是因为统计学的 这一研究的特殊矛盾,使它成为了一
临床医学工作正处于技术改革的转轨期间,诸多临床医学的进展都是在试验室技术创新的基本上发展起来的。下文是我为大家整理的关于临床医学5000字 毕业 论文的
万方检测结果还是有点差距的。资源是有,但是比对技术,还有点差距。现在很多论文检测软件。比知网实惠的就是文思慧达论文检测软件。也是目前被高校采用紧靠知网的一家。比
1.关于假设检验的几点见解2.假设检验的实际应用3.假设检验的基本思想4.对假设检验的思考5.两种假设检验思想比较(即对单侧检验和双侧检验相似差异的分析)因为不
随着建筑工程的发展,建筑工程材料也变得越来越重要,建筑项目的完成质量往往取决于建筑材料质量的好坏。下文是我为大家搜集整理的关于建筑材料论文2000字的内容,欢迎