字数要求
本科论文字数一般在5000字以上即可,一般6000-8000字比较合适,过长或者过短都是不合适的,本科论文一般不会有什么特别高的要求,发表普刊就可以,有些甚至不要求见刊,因此本科毕业论文的字数无需太多,只要做到结构完整,思路清晰,再加上一定程度的创新,一般都可以通过考核的。
拓展阅读:
查重
本科毕业论文查重率一共是分成四个等级。在其中A级的标淮是:毕业论文的重复率在10%之内。这种毕业论文是能够立即通过。而且还能够作为优秀论文的参考范围。B级的标淮是:重复率在10%至20%,这种毕业论文能够通过,与此同时也可以作为优秀论文选拔范围。
C级的标淮是:20%至50%之内,这种毕业论文是不予通过的,因为其重复率过高,存有大量抄袭的文字,大学生们必须要进行修改和再次检测。D级的标淮是:论文查重率在50%以上,这种毕业论文几乎就是抄袭的代名词。只有实现A,B两个等级的标淮才能够参加论文答辩。
许多即将从本科院校毕业的学生在论文上面临着巨大的压力。在论文检测中,查重结果非常重要,因此我们需要了解论文检测的标准。那么,本科毕业论文查重率不能低于多少?paperfree小编给大家讲解。 在本科论文的检测中,查重率与学术不端行为有关。如果论文查重率高于一定比例,将被判定为抄袭,本科论文查重标准一般为30%。如果论文的检测结果在30%和50%之间,经指导老师审核后,一周内修改无学术不端行为,如果论文重复率大于50%,则直接判定为抄袭。 本科论文很难写。一般来说,我们需要降重。我们可以替换论文重复部分的单词,或者修改句型,替换修辞单词,这样可以降低论文的重复比例。
每个学校对于本科毕业论文的查重率的要求不一样,普遍来说,一般大学对于学生的毕业论文重复率的要求是在10%~15%左右,严格一些的可能会要求控制在10%以下。
本科论文查重率合格标准不是固定的,不同学校和学院会根据自己的规定制定不同的合格标准。一般来说,本科生论文查重率在20%以下是比较合格的,但是也有一些学校或学院的查重率标准可能更高或更低,需要具体查看校方规定。论文查重率高并不代表论文存在问题或抄袭现象,有很多因素会影响论文的查重率,比如论文的引用数量、文献综述的深入程度、论文主题的热门程度等。因此,在写作过程中要注意文献的引用和参考文献规范,避免抄袭和剽窃等不良行为,保证论文的质量和独立性。最好在提交论文前自行使用查重工具,对自己的论文做一个初步的检查,以免出现不必要的麻烦。
这个得看具体情况来规定吧,标准偏差只是一种量度数据分布的分散程度的标准,用来衡量数据值偏离算术平均值的程度,如果一组数据确定了,标准差也就确定了。根据工作的需要,严格的话就把正常的范围规定小一点,宽松的话就规定大一点。
作为社会上用于检测学术不端行为的最权威的查重检测系统,社会上95%的论文用户会选择高校内部系统进行论文查重检测,包括许多本科院校。很多同学第一次检测论文不了解论文查重系统,本科毕业论文查重率不能高于多少?paperfree小编给大家讲解。 本科毕业论文的查重率不得高于30%。优秀本科院校,特别是985/211学校的本科论文查重率不得低于20%,优秀本科毕业论文查重率不得高于10%。对于许多选择高校内部查重系统的本科院校来说,只有当大学生通过本科论文查重检测并且查重检测结果达标时,他们才能真正通过论文查重。 一篇具有真正学术研究价值的论文需要通过学术不端行为系统进行检测。因此,许多第一次检查论文副本的本科生不了解本科论文的检测和学术不端行为。本科论文检测实际上是学术不端行为的一部分,论文查重是一种学术不端行为检测,是为了提高论文的质量。 首先查重系统以格式识别上传的论文稿件,并通过自动识别论文格式筛选后期需要比较的数据内容。但是,请注意,只能正确识别正确标记格式的论文内容。在格式识别过程中,除论文查重检测内容外,许多不需要查重检测的参考文献和其他内容将被排除在外。因此,对于本科生来说,在检测论文之前,我们必须确保论文的格式是正确的,后期检查论文的内容是准确有效的。
为了减少毕业论文终稿后的重复率,学生会在初稿完成时提前查重论文的重复率。查重初稿时,将使用papertime论文检测系统来检测论文。如果重复率太高,重复的部分就要修改,直到初稿快写完了才交给导师。因此,在查重前深入了解论文的查重标准是非常重要的,可以大大减少学生的无用功,提高论文的通过率。那么,本科论文的查重标准是什么呢?一、重复率。关于本科论文的重复率,我们还需要了解一点,就是不同的学校对论文的重复率有不同的要求。目前大部分高校都要求本科毕业论文的重复率不能超过20%。学校个别专业的要求会适当放宽,部分专业要求重复率控制在20%。所以在这里,小编提醒各位毕业生,不同大学的论文重复率是不一样的,查重本科论文权重的标准还是要看具体大学的公告。二、对论文字数的要求。目前就大部分学校对本科论文的要求来看,要求是不少于8000字。不过业内人士还是建议毕业生写论文的时候尽量多写,不要只停留在要求的标准线上。这是因为论文初稿修改时,论文可能会被删除。如果删的字数太多,不能保证最终论文的字数达到本科论文查重标准的要求,但是字数太多是最安全的。
论文初稿58%的重复率?见过重复率在八九十以上的论文初稿,你就不会再惊讶啦。因为一直和文字打交道的原因,多年相关圈内的经验,见过太多重复率在七八十以上的论文初稿。尤其是每年临近论文答辩的前期。就个人经验而言,论文初稿的重复率没有太多明显的要求;正常来说,论文初稿的重复率在50%以内都是处于可控范围内的;若论文初稿的重复率在50%以上,甚至重复率在高达八九十以上的稿子也很常见,只要论文在内容方面经过论文导师的审核且没有问题后,重复率即使再高也是可以通过降重达到学校要求的。近期处理过的一个稿子,重复率60%降到论文初稿的重复率过高的话,也就是在降重处理环节显得比较麻烦。尤其是针对重复率在七八十以上的论文,若是想要把重复率降下去,应该严格比对查重报告的标红内容进行全面彻底逐字逐句降重处理。具体而言,其人工降重需要提前做好两个方面的原则:原则一:不变语句核心意思的前提下,最大程度地改变语言的表达方式;降重的核心思想就是在不改变句子意思的前提下,大变语句的表达形式。原则二:查重报告中凡是被颜色标记出来的内容,一个不落的全面彻底地降重;要看懂查重报告中的内容标记,红色标记的是抄袭内容,绿色+橙色标记的引用内容也都是被计算在重复率范围内的。因此在论文的降重环节,一定要比对查重报告,逐词逐句全面性降重处理;既是是只有一两个词语、短句的重复,也要处理,论文的重复率都是一点点积累出来的。人工降重的具体方法,如下:①同义词替换(关键词、实词等其他可以替换的词语),如:使用=采用/借助/运用......第一、第二、第三=首先、其次、最后;②颠三倒四,打乱顺序(并列3个及以上字、词打乱重组)③增添词语,变短句为长句(增添形容词、副词、限定词等)④图表被检测标红(须知:知网、万方、维普查重系统都有OCR识别功能,可以检测图表中的文字)图片重复,保证句意不变,减少图中文字同时改变其表达形式;表格重复,调换表格行列位置和顺序,若再次被标红,则要进一步结合其他降重技巧进行降重处理;以上便是论文人工降重最为常用的几个方法,希望可以帮助到大家。
误差一般是相对基准值或一组数据的平均值。
各个高校的标准都不一样,一般高校将重合度30%以上定为抄袭的文章,即论文审核不通过。教育部2012年11月13日出台的《学位论文作假行为处理办法》规定:论文查重率高者,将面临取消学位申请资格、注销学位证书、开除学籍等处分。
自该办法实施以来,为保证毕业论文质量,杜绝抄袭剽窃,许多高校都会对毕业生论文进行抄袭率检测。如果论文中的段落相似度达到30%以上,即定为不合格,不能参加毕业答辩,要求重写或修改。
扩展资料:
论文检测需要搜索引擎技术作为支撑,包括资源采集技术,文本数据库加工技术,文本数据库技术,数字资源版权保护技术,知识挖掘技术,自然语言处理技术、快速比对技术等。
在全文数据的基础上实现快速准确的检测,上述技术是基本的保证。另外,检测比对库里需要收录期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。
参考资料来源:百度百科-最大允许误差
标准差在什么范围合适问题一:请问标准偏差在什么范围才是正常的?5分这个得看具体情况来规定吧,标准偏差只是一种量度数据分布的分散程度的标准,用来衡量数据值偏离算术平均值的程度,如果一组数据确定了,标准差也就确定了。根据工作的需要,严格的话就把正常的范围规憨小一点,宽松的话就规定大一点。问题二:标准差算出来有什么作用吗标准差是反应多组数据之间稳定值差异的,与样本多少没有关系,有多少样本就反应多少样本之间的数值的稳定性。所以,只是反应稳定性而已。下一个数字不是加减的范畴而是说标准差越大数组偏差越不稳定,例如你的物理实验结果的标准差太大,超出实验结果允许的误差范围,那么说明你的实验失败了。理论上,合适合理的样本数是减小标准差的方法,但是标准差的大小没有物理意义,因为他是用来评价一组数据的稳定性的辅助数据。不是样本越多标准差越小的,而是越能反映稳定性的真实效果,但是样本太少,会导致标准差失真。在标准差的应用上还有双重标准差。就是计算标准差的标准差。双重标准差无限趋近于0的时候,就是你的最真实标准差。五个一般不够的,最简单的实验也基本在10个左右。应用上主要用在风险资产评估:金融风险评估,各种实验等最后举个最简单例子:A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差为分,B组的标准差为分,说明A组学生之间的差距要比B组学生之间的差距大得多。问题三:标准差的数值的大小代表什么意义?标准差大好还是小好?标准差也被称为标准恭差,或者实验标准差。简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。一般来说标准差较小为好,这样代表比较稳定。问题四:标准差是什么?标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。例如,A、B两组各有6位学生参加同一次语文测验,A组的分数为95、85、75、65、55、45,B组的分数为73、72、71、69、68、67。这两组的平均数都是70,但A组的标准差为分,B组的标准差为分,说明A组学生之间的差距要比B组学生之间的差距大得多。标准差也被称为标准偏差,或者实验标准差。关于这个函数在EXCEL中的STDEVP函数有详细描述,EXCEL中文版里面就是用的“标准偏差”字样。但我国的中文教材等通常还是使用的是“标准差”。.在EXCEL中STDEVP函数就是下面评论所说的另外一种标准差,也就是总体标准差。在繁体中文的一些地方可能叫做“母体标准差”因为有两个定义,用在不同的场合:如是总体,标准差公式根号内除以n,如是样本,标准差公式根号内除以(n-1),因为我们大量接触的是样本,所以普遍使用根号内除以(n-1),外汇术语:标准差指统计上用于衡量一组数值中某一数值与其平均值差异程度的指标。标准差被用来评估价格可能的变化或波动程度。标准差越大,价格波动的范围就越广,股票等金融工具表现的波动就越大。阐述及应用简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合{0,5,9,14}和{5,6,8,9}其平均值都是7,但第二个集合具有较小的标准差。标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。标准差应用於投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越细,代表回报较为稳定,风险亦较小。样本标准差在真实世界中,除非在某些特殊情况下,找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。问题五:标准十分对应的标准差分别是多少?平均数,标准差问题六:标准差在什么范围内,个体差异不大越小越好
请问标准偏差在什么范围才是正常的? 5分 这个得看具体情况来规定吧,标准偏差只是一种量度数据分布的分散程度的标准,用来衡量数据值偏离算术平均值的程度,如果一组数据确定了,标准差也就确定了。根据工作的需要,严格的话就把正常的范围规憨小一点,宽松的话就规定大一点。 国家规定的误差标准是多少啊 你好,我记得原来是,只要上下在这个范围,都是准许的,现在可能有变化吧,具体不是很清楚。但这个差是非常小的,对我们的影响不大,这些产品都要经过反复的复称才可以出厂的,一般不会错,有的是称会差点,有的是操作的问题。 标准偏差多少好? 越小越好。标准偏差公式:S = Sqrt[(∑(xi-x拔)^2) /(N-1)]公式中∑代表总和,x拔代表x的均值,^2代表二次方,Sqrt代表平方根。 例:有一组数字分别是200、50、100、200,求它们的标准偏差。 x拔 = (200+50+100+200)/4 = 550/4 = S^2 = [()^2+()^2+()^2+()^2]/3 标准偏差 S = Sqrt(S^2) STDEV基于样本估算标准偏差。标准偏差反映数值相对于平均值 (mean) 的离散程度。 标准差多大算是合理 越小越合理计算标准差,一般要至少多少数据才合理? 标准差是用来评价单值与均值的离散度,原则上讲,只要能计算均值的样本量就可以计算标准差。但是考虑到分析标准差意义,通常最小的样本应大于功于5个,才有必要计算标准差。 标准差的数值的大小代表什么意义?标准差大好还是小好? 标准差也被称为标准恭差,或者实验标准差。简单来说,标准差是一组数据平均值分散程度的一种度量。 一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。 一般来说标准差较小为好,这样代表比较稳定。 标准差大小如何衡量? 标准差(Standard Deviation) ,是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。 这个标准差大小的话,没有标准的比较依据偿你可以根平均数相同的另一数组比较其标准差,标准差越小,数组离散越小。 一组品质数据的标准差控制在多少以内比较合理? 当然取决于这个品质特性的规范公差 比如标准规定这种特性的公差允许限是+-6 ,实际测得的特性标准差为3, 那么过程的西格玛水平也就,12/6=2 , 2 西格玛质量水平 是个什么概念? 相当于30%的品质缺陷率,显然不能接受 。所以要改进这种品质特性,达到起码4西格玛水平 ,也就是千分之的缺陷率,这时候就要控制你的标准差在 所以总结一下,标准差的控制取决于两样,一样就是标准范围公差要求多少,第二就是要达到多少的合格率水平。 当然话说回来:标准差是越小越好,当然越小的成本就越高!一般是按照公司的质量定位(比如说低价低质量定位 符合性质量市场价定位 高质量高定价定位,或是纯粹的高性价比定位)
打入“均数加减标准差”点击我们刚才建立的“公式”工具条(显示的是“根号下a”),会出现一个类似文本框的输入区域,在此文本框中按杂志要求用键盘输入大写(XS)或者小写(xs),如果要求为斜体的就输入大写字符。然后,选中X,在出现的公式工具条中找到“x跋的跋”点击即可,再点击上“加减号”就OK了。
标准差可以描述样本中的数据分布。计算标准差首先要做一些其他计算。按照这些步骤就可以快速简便地建立等式。方法 1 的 2:计算方差 以Calculate Standard Deviatio...
2. 选中空单元格。这里要展示最后的标准差结果。以Calculate Standard Deviation Step 6为标题的图片
在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。 1.简单随机抽样确定样本量主要有两种类型: (1)对于平均数类型的变量 对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。已知期望调查结果的精度(E), 期望调查结果的置信度(L),以及总体的标准差估计值σ的具体数据,总体单位数N。 计算公式为:n=σ2/(e2/Z2+σ2/N) 特殊情况下,如果是很大总体,计算公式变为:n= Z2σ2/e2 例如希望平均收入的误差在正负人民币30元之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为。根据估计总体的标准差为150元,总体单位数为1000。 样本量:n=150*150/(30*30/(*))+150*150/1000)=88 (2)于百分比类型的变量 对于已知数据为百分比,一般根据下列步骤计算样本量。已知调查结果的精度值百分比(E),以及置信度(L),比例估计(P)的精度,即样本变异程度,总体数为N。 则计算公式为:n=P(1-P)/(e2/Z2+ P(1-P)/N) 同样,特殊情况下如果不考虑总体,公式为:n= Z2P(1-P)/e2 一般情况下,我们不知道P的取值,取其样本变异程度最大时的值为。 例如:希望平均收入的误差在正负之间,调查结果在95%的置信范围以内,其95%的置信度要求Z的统计量为,估计P为,总体单位数为1000。样本量为:n=*(*(*)+*)=278 2.样本量分配方法 以上分析我们获得了采用简单随机抽样公式计算得到的样本量,总的样本量需要在此基础上乘以设计效应的值得到。由于样本总量已经确定,我们采用总样本量固定方法分配样本,这种方法包括按照比例分配和不按照比例分配两类。实际工作中首先计算取得区县总的样本量,然后逐级将其分配到各阶分层中,如果不清楚各阶分层的规模和方差等,一般采取比例分配或者比例平方根分配法。如果有一定辅助变量可以使用,可以采用按照规模分配法分配样本量。 3.样本量和总体大小的关系: 在其它条件一定的情况下,即误差、置信度、抽样比率一定,样本量随总体的大小而变化。但是,总体越大,其变化越不明显;总体较小时,变化明显。其变化趋势如下: 二者之间的变化并非是线性关系。所以,样本量并不是越大越好,应该综合考虑,实际工作中只要达到要求就可以了。 三、贸易抽样调查方案样本量的确定 根据以上的分析,我们可以确定具体的样本量。当前使用的贸易抽样新方案采用多阶分层区域二相抽样方法、以零售额为核心指标抽取样本。方案规定,县区以下阶分为乡、镇、街道层,乡镇街道一般根据繁华、非繁华分层,层内采用PPS抽样完成对乡镇街道的抽取;乡镇街道以下阶分为居委会、村委会、市场内层,居委会、村委会根据繁华、非繁华分层,层内采用简单随机抽样完成对居委会村委会的抽取,市场内层抽样根据方案完成;最后一阶首先根据规模、类别分层,层内采用简单随机抽样完成对居委会具体样本的抽取。其中,确定居委会具体样本的方法和数量比较模糊,需要基层做很多工作,给基层造成了一定的混乱,增加了很大的负担。 我们决定首先采取简单随机抽样的方法计算区县的样本量,之所以首先对区县计算样本量,主要是考虑,虽然我们方案中没有要求对区县的估计量,但是区县一级是我们做计划和决策的基础,具有承上启下的作用,如果区县级获得的估计量精度比较高,就可以保证上一级的估计量具有更高的精度,而且各个区县的样本量可以认为是相同的,这主要是因为各个区县的总体数都比较多,而且我们也不清楚;同时也不可能事先进行区县方差估计。没有首先计算区县以下各阶分层的样本量,主要是考虑: (1)如果计算区县以下某阶分层的样本量,然后再将计算的样本量合并,将显著增加样本量,增加基层的负担。 (2)事实上,对于计算阶可以比较好的得到它的估计量,但我们现在不需要得到区县以下各阶分层的估计量,我们仅仅需要区县的估计量,没有必要计算区县以下阶样本量。 (3)我们直接对整个区县以简单随机抽样进行抽取,然后将其样本量合理分配到各阶分层中,这样可以使用较少样本量得到区县较好的估计量。 以下我们以试点地区批零业为对象进行研究。由于没有误差限以及置信度和抽样比率的值。我们可以采用常用参数:设定区县总体为很大,置信度是95%,抽样比率保守估计是,抽样误差不能大于15%,根据公式计算得到样本量为43个。由于采取多阶分层抽样,我们如何设定抽样设计效应呢?区县及以下是三阶分层抽样,只要在各阶进行合适的分层,其设计效应应该在2-3之间,我们在这里取保守值3,那么得到本区县样本量是129个,这个样本量就可以根据新方案得到区县要求误差内的估计值。 1.确定办事处、居委会、村委会样本量 根据方案,每个居委会抽取样本5-10个,那么这个样本量是否可行呢?这里涉及如何将区县样本分配到街道和居委会中去,根据方案要求,街道抽取采取先分层,后对层内进行PPS抽样;那么分配样本是否也采取同样方法呢?主要看辅助变量与样本量之间的关联程度,方案中提供了两个辅助变量:人口数和个体数,对于辅助变量是个体数的完全可以使用规模分配方法分配样本量,个体数多的分配较多的样本量;对于辅助变量是人口数的如果采取规模分配方法,由于人口数与一个地区的个体单位数没有必然的联系,可能导致某些居委会的个体数比较多,却分配了较少的样本量,使得居委会分层变的困难,同时使居委会方差显著增大。而获得较多样本量的居委会,分层的效果和方差提高幅度有限,故采用比例分配的方法可能更加合适一些。对于居委会村委会的抽取,由于本阶可能存在市场内的抽样,分配复杂一些;如果本阶有市场内抽样,可以适当减少居委会村委会的样本量,但应该大于本阶样本量的80%,由于市场内抽样的特殊性,建议将本阶样本量全部分配给居委会村委会,我们所进行的试点就是将样本全部分配给居委会;至于市场内抽样的具体实施,可以根据方案操作完成。对居委会村委会层内,由于使用简单随机抽样完成,采用比例分配平均分配就可。 在实际工作时,由于一个区县包括全部乡镇街道或其中的一个;根据方案,区县抽取办事处的数量应该介于12-4个之间,对应于抽中乡、镇、街道的全部或其中一个,那么其每一个乡镇街道采取比例分配平均分配的样本量应该是11-32个之间;所抽中的居委会、村委会数量应该介于16-48个之间,如果个别乡镇街道抽中的居委会是2个,则其居委会总数相应减少一些;最后,每个居委会、村委会的样本量应该介于3-16个之间,大部分介于5-10之间。以上的讨论没有考虑总体的大小,如果考虑到居委会、村委会的总体有限,则每个居委会村委会的样本量可以减少一些,具体可以采用以下公式得到具体样本量的调整数: 样本量n=n1*N/(N+n1)。N是本地区总体,n1 是给本地区分配样本量 居委会样本量的调整数,应该作为本居委会样本量的底限。 确定办事处、居委会村委会的样本量,与以下几点有关: a)估计量的误差、置信度,可以决定简单随机抽样的样本量 b)与采用的抽样方法有关系,它决定了设计效应的大小。例如:分层抽样的设计效应值小于1,多阶抽样的设计效应值大于1。可以决定整个抽样的样本量。 c)与每一阶的分层的数目有关系,所以,应该重点考虑分层的问题,分层太多,没有必要;分层太少,导致层内的方差增大,可能影响估计值的精度以及设计效应的值,所以,在每阶分层时,应该合理考虑,使得样本的变异程度在层内达到一个合理水平。 根据以上原则,我们在包头的抽样试点共抽取4个办事处,包括14个居委会;一个乡,包括4个村委会,经过清查共有批零业1042个,单位70个;餐饮业250个,单位3个。由于我们使用人口数作为辅助变量,应该采用比例分配方法平均分配样本量,这样每个街道办事处得到26个样本, 对于抽取4个居委会的办事处,每个居委会分配得到7个样本;对于抽取2个居委会的办事处,每个居委会分配到13个样本。然后根据居委会总体对样本量做出调整,得到居委会实际样本量。 2.确定居委会村委会内分层样本量 以上我们讨论如何分配给乡镇居委会村委会样本量,现在分析给居委会村委会以下各层分配样本量,这一步,清查的工作就显得非常重要了,重点应该清查规模、类别,首先是规模,规模的大小不应该根据工商注册为单位或个体决定,应该根据实际情况,即使是个体,如果规模较大,也应该归入大规模分层中,这样就可以使得每层的样本变异程度显著降低,从而提高精确度。根据实际情况可以包括两种: (1)如果全部是规模比较小的单位个体户,我们可以根据类别进行适当的分组,将某一类单位比较多的单独分层;将另外类别比较少的,可以几类合并进行抽取具体样本,分层不要多于4层,并保证每层的样本量不小于2个。由于居委会样本量数目已经确定,我们可以直接采取比例分配方法,确定各层样本量。 (2)如果规模比较大的和规模小的并存,可以将规模比较大的单独分层,不用考虑其中的类别;将规模较小的主要是个体户可以根据类别进行分层;其中的难题是如何将样本量在规模大的和规模小的之间分配,因为大规模层内样本变异程度有可能很大,应该抽取较多的样本量,经过测试,如果大规模层总体小于等于5,应该对其进行全面调查;如果大于5个,可以采用以下的公式计算得到: n=(e2/t2+ ),其中:e=30%,t=为规模较大的数目。 其他规模较小的,使用比例分配法分配其他的样本,实际分层时,最好不要超过4层,保证每层不少于2个,由于大规模层的存在,可能占去了较多的样本量,导致其它层不够分配,这种情况下,可考虑增加层内一定样本量。 经过以上的分析、计算可以得到居委会村委会的样本数量。 总结: 由于情况的多样性,各地在具体实施方案时可能有所不同,有的分层少一些,有的多一些,但是计算的方法和原则是相同的,各地应该在保证抽样精度的前提下,得到合适的样本量,同时加大对于样本点的管理。下表是我们试点地区抽中居委会的清查数目,以及实际抽中的样本量,与调整数比较,在18个居委会中,16个居委会认为适合要求,2个居委会样本量数目有一些偏少,主要是由于对居委会规模较大的层,没有达到抽取要求;表五、六、七列是大规模层的总体数和应该分配的样本量,在试点中个别地区没有达到要求。这提示我们,应该非常重视各阶的清查工作,提前计算得到得到合适的样本量。在认真清查以后,根据清查结果,对办事处、居委会进行合理的分层,以规定的方法抽取适当的办事处和居委会;同时应该将重点放在对居委会内单位的清查上,将规模大的单位放在一层,其他个体可以根据类别进行合适分层抽样,及时计算得到各层的样本量。 我们以上的分析计算,均取比较保守的参数,实际上,样本的变异程度即P的值没有达到;同时由于我们在各阶采取了合理的分层,保证了设计效应的值应该小于3,所以对于县区的估计值完全可以达到误差要求。
合理,如果你做的是非统计分析软件以下版本时,标准差大于2说明数据有偏误