首页 > 学术期刊知识库 > 毕业论文做聚类分析

毕业论文做聚类分析

发布时间:

毕业论文做聚类分析

这个题目的确是有点超出本科生能力,因为数据聚类算法很多,都不是很容易实现,更不用说在效果,效率上的分析,而且绝大多数算法的优缺点早就总结过了,也很难创新,我专业是数据挖掘,我在研究生期间都不做这样的论文

一、聚类 1.准备工作 (1) 研究目的 聚类分析是根据事物本身的特性研究个体分类的方法,聚类分析的原则是同一类别的个体有较大相似性,不同类别的个体差异比较大。 (2) 数据类型 1)定量:数字有比较意义,比如数字越大代表满意度越高,量表为典型定量数据。 2)定类:数字无比较意义,比如性别,1代表男,2代表女。 PS: SPSSAU会根据数据类型自动选择聚类方法。 K-modes聚类: 数据类型仅定类时。 2.上传数据到SPSSAU 登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。 操作 (1)拖拽分析项 1) SPSSAU进阶方法→聚类。 2)检查 检查分析项是否都在左侧分析框中。 3)进行拖拽(2)选择参数 聚类个数: 聚类个数设置为几类主要以研究者的研究思路为标准,如果不进行设置,SPSSAU默认聚类个数为3,通常情况下,建议设置聚类数量介于3~6个之间。 标准化: 聚类算法是根据距离进行判断类别,因此一般需要在聚类之前进行标准化处理,SPSSAU默认是选中进行标准化处理。数据标准化之后,数据的相对大小意义还在(比如数字越大GDP越高),但是实际意义消失了。 保存类别: 分析选择保存‘保存类别’,SPSSAU会生成 新标题 用于标识,也可以右上角“我的数据”处查看到分析后的“聚类类别”。 新标题类似如下:Cluster_********。 分析 (1)聚类类别基本情况汇总分析 使用聚类分析对样本进行分类,使用Kmeans聚类分析方法,从上表可以看出:最终聚类得到4类群体,此4类群体的占比分别是, , , 。整体来看, 4类人群分布较为均匀,整体说明聚类效果较好。 (2)聚类类别汇总图分析 上图可以直观的看到各个类别所占百分比,4类群体的占比分别是, , , 。 (3)聚类类别方差分析差异对比使用方差分析去探索各个类别的差异特征,从上表可知:聚类类别群体对于所有研究项均呈现出显著性(p<),意味着聚类分析得到的4类群体,他们在研究项上的特征具有明显的差异性,具体差异性可通过平均值进行对比,并且最终结合实际情况,对聚类类别进行命名处理。 (4)聚类项重要性对比 从上述结果看,所有研究项均呈现出显著性,说明不同类别之间的特征有明显的区别,聚类的效果较好。 (5)聚类中心 5.其它说明 (1)聚类中心是什么? 聚类中心是聚类类别的中心点情况,比如某类别时年龄对应的聚类中心为20,意味着该类别群体年龄基本在20岁左右。初始聚类中心基本无意义,它是聚类算法随机选择的聚类点,如果需要查看聚类中心情况,需要关注于最终聚类中心。实际分析时聚类中心的意义相对较小,其仅为聚类算法的计算值而已。 (2)k-prototype聚类是什么? 如果说聚类项中包括定类项,那么SPSSAU默认会进行K-prototype聚类算法(而不是kmeans算法)。定类数据不能通过数字大小直接分析距离,因而需要使用K-prototype聚类算法。 (3)聚类分析时SSE是什么意思? 在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值,该值可用于测量各点与中心点的距离情况,理论上是希望越小越好,而且如果同样的数据,聚类类别越多则SSE值会越小(但聚类类别过多则不便于分析)。 SSE指标可用于辅助判断聚类类别个数,建议在不同聚类类别数量情况下记录下SSE值,然后分析SSE值的减少幅度情况,如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大,那么此时选择4个聚类类别较好。 二、分层聚类 1.准备工作 (1)研究目的 从分析角度上看,聚类分析可分为两种,一种是按样本(或个案)聚类,此类聚类的代表是K-means聚类方法;另外一种是按变量(或标题)聚类,此类聚类的代表是分层聚类。 (2)数据类型 2.上传数据到SPSSAU 登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。 操作 (1)拖拽分析项 1) SPSSAU进阶方法→分层聚类。 2)检查 检查分析项是否都在左侧分析框中。 3)进行拖拽 (2)确定参数 SPSSAU会默认聚类为3类并且呈现表格结果,如果希望更多的类别个数,可自行进行设置。 分析 (1)聚类项描述分析 上表格展示总共8个分析项(即8个裁判数据)的基本情况,包括均值,最大或者最小值,中位数等,以便对于基础数据有个概括性了解。整体上看,8个裁判的打分基本平均在8分以上。 (2)聚类类别分布表分析 总共聚类为3个类别,以及具体分析项的对应关系情况。在上表格中展示出来,上表格可以看出:裁判8单独作为一类;裁判5,3,7这三个聚为一类;以及裁判1,6,2,4作为一类。 (PS:聚类类别与分析项上的对应关系可以在上表格中得到,同时也可以查看聚类树状图得出更多信息。至于聚类类别分别应该叫做什么名字,这个需要结合对应有关系情况,自己单独进行命名。) (3)聚类树状图分析 上图为聚类树状图的展示,聚类树状图是将聚类的具体过程用图示法手法进行展示;最上面一行的数字仅仅是一个刻度单位,代表相对距离大小;一个结点表示一次聚焦过程。 树状图的解读上,建议单独画一条垂直线,然后对应查看分成几个类别,以及每个类别与分析项的对应关系。比如上图中,红色垂直线最终会拆分成3个类别;第1个类别对应裁判8;第2个类别对应裁判5,3,7;第3个类别对应裁判1,6,2,4。 如果是聚为四类;从上图可看出,明显的已经不再合适。原因在于垂直线不好区分成四类。也即说明有2个类别本应该在一起更合适(上图中的裁判1与6/2/4);但是如果分成4类,此时裁判1会单独成一类。所以画垂直线无法区分出类别。因而综合分析来看,最终聚类为3个类别最为适合。 当然在分析时也可以考虑分成2个类别,此时只需要对应将垂直线移动即可。 5.其它说明 (1)针对分层聚类,需要注意以下几点: (2)什么时候做因子分析后再做聚类分析? 如果题项较多,可先做因子分析,得到每个维度(因子)的数据,再进行聚类。 三、总结 聚类分析广泛的应用于自然科学、社会科学等领域。在分析时可以比较多次聚类结果,综合选择更适合的方案。 以上就是聚类分析步骤汇总,更多干货请前往官网查看!

聚类分析算法论文

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。下面是我分享给大家的聚类分析算法论文,欢迎阅读。

一、引言

聚类分析算法是给定m维空间R中的n个向量,把每个向量归属到k个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为:类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。聚类分析的基本思想是:采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。盐矿区系统是一个多层次、复杂的大系统,涉及诸多模糊、不确定的因素。平顶山市盐矿区的经济分类是以整个平顶山市的所有盐矿区为研究对象,以各盐矿区为基本单元,以经济为中心,以发展战略和合理布局为目标进行经济类型区划。其基本原则是:平顶山市的盐矿区资源开发、利用的相对一致性;自然、经济、社会条件的一致性;保持一定行政地域单元的相对稳定性。现行的平顶山市盐矿区行政划分不能反映出各个盐矿区的共同点,有必要通过模糊聚类分析将那些经济实际状况相似的铁矿区归类,剖析、发现各况矿区的差异,对症下药,为制定发展对策提供依据。

二、建立指标体系

1、确定分类指标进行经济区划分,应考虑的指标因素是多种多样的。既要以岩盐矿资源储量为主,又要适当考虑岩盐质量和勘察阶段和开发利用状况;既要有直接指标,又要有间接指标;既要考虑矿区发展的现状,又要考虑矿区发展的过程和矿区发展的未来方向。参考有关资料,结合专家意见,我们确定了对平顶山市盐矿区进行经济区划分的指标。如表1所示。表中列举了具体指标及各指标的原始数据(数据来源于河南省2006年矿产资源储量简表)。表1盐矿区经济划分指标体系及指标数据注:表中N表示缺失数据,勘察阶段1、2、3分别表示:初步勘探、详细普查、详细勘探,利用状况1~7分别表示:近期不宜进一步工作、可供进一步工作、近期难以利用、推荐近期利用、计划近期利用、基建矿区、开采矿区。

2、转换指标数据由于不同变量之间存在不同量纲由于不同变量之间存在不同量纲、不同数量级,为使各个变量更具有可比性,有必要对数据进行转换。目前进行数据处理的方法大致有三种,即标准化、极差标准化和正规化。为便于更直观的比较各市之间同一指标的数值大小,我们采用了正规化转换方式。其计算公式为:为了方便叙述,做如下设定:设Xi(i=1,2,3,…,21)为具体指标层中第i个评价指标的值,Pi(i=1,2,3,…,21)为第i个指标正规化后的值,0≤Pi≤1,Xs,i(Xs,i=Xmax-Xmin),为第i个评价指标的标准值,Xmax为最大值,Xmin为最小值。(1)对于越高越好的`指标①Xi≥Xmax,则Pi=1;②Xi≤Xmin,则Pi=0;③Xmin

三、聚类分析

1、聚类步骤(Stage).从1~3表示聚类的先后顺序。

2、个案合并(ClusterCombined)。表示在某步中合并的个案,如第一步中个案1叶县田庄盐矿段和个案2叶县马庄盐矿段合并,合并以后用第一项的个案号表示生成的新类。

3、相似系数(Coefficients).据聚类分析的基本原理,个案之间亲密程度最高即相似系数最接近于1的,最先合并。因此该列中的系数与第一列的聚类步骤相对应,系数值从小到大排列。

4、新类首次出现的步骤(StageClusterFirstAppears)。对应于各聚类步骤参与合并的两项中,如果有一个是新生成的类(即由两个或两个以上个案合并成的类),则在对应列中显示出该新类在哪一步第一次生成。如第三步中该栏第一列显示值为1,表示进行合并的两项中第一项是在第一步第一次生成的新类。如果值为O,则表示对应项还是个案(不是新类)。

5、新类下次出现步骤(NextStage)。表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值是11,表示第一步聚类生成的新类将在第11步与其他个案或新类合并。

6、解析图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚类树状图(方法:组间平均连接法)图清晰的显示了聚类的全过程。他将实际距离按比例调整到0~25之间,用逐级连线的方式连接性质相近的个案或新类,直至并未一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将与水平连线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的个案聚成一类。例如,选标尺值为5,则聚为3类:叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段为一类,叶县姚寨盐矿为一类。若选标尺值为10,则聚为2类:叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。

四、结论

对平顶山市5个盐矿区进行经济区划分,究竟划分为几个区合适,既不是越多越好,也不是越少越好。划分经济区的目的,就是要根据各盐矿经济区资源特点、勘察、开发的不同,分类指导经济活动,使人们的经济活动更加符合当地的实际,使各经济区能充分发挥各自的优势,做到扬长避短,趋利避害,达到投人少、产出多,创造良好的经济效益和社会效益之目的。分区太多,就失去了分区的意义,分区太少,则分类指导很难做到有的放矢。综合以上聚类分析结果,我们可以得出三个方案。其中两个方案比较合适,可供选择。方案一:(当比例尺为5时,分为3类)叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段为一类,叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案一。方案二:(当比例尺为10时,分为2类)叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案二。平顶山市盐矿区分类图方案2聚类分析的原理就是将矿石质量、资源储量、勘查阶段、利用状况相近或相类似的矿区聚合在一起,其分析结果也是直观易见的。在此结合平顶山市实际行政区划以及矿山企业特征我们对铁矿区划分做一个调整使其理论与实际能够结合的更紧密使其更好的指导实践。

1、叶县田庄盐段、叶县马庄盐矿段为一类,这一类属于矿床规模相当,资源储量接近,勘查开发阶段接近,利用程度相当,故,可以分为一类。

2、叶县娄庄盐矿、叶县五里堡盐矿段为一类,这一类属于勘查开发阶段处于同一阶段。

3、叶县姚寨盐矿为一类,这一类属于储量较高,盐矿品位较高,故其勘察开采规划有别于其它两类。总的说来,运用聚类分析是基本成功的,大部分的分类是符合实际的。综合以上论述盐矿区划分如下表所示:当然聚类分析有其优点也有其缺点:(1)优点:聚类分析模型的优点就是直观,结论形式简明。(2)缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试问内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。

毕业论文模糊聚类分析

数学专业毕业论文选题方向

1动态规划及其应用问题。

2计算方法中关于误差的分析。

3微分中值定理的应用。

4模糊聚类分析在学生素质评定中的应用。

5关于古典概型的几点思考。

6浅谈数形结合在数学解题中的应用。

7高校毕业生就业竞争力分析。

8最大模原理及其推广和应用。

9 最大公因式求解算法。

10行列式的计算。

聚类分析算法论文

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。下面是我分享给大家的聚类分析算法论文,欢迎阅读。

一、引言

聚类分析算法是给定m维空间R中的n个向量,把每个向量归属到k个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为:类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。聚类分析的基本思想是:采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。盐矿区系统是一个多层次、复杂的大系统,涉及诸多模糊、不确定的因素。平顶山市盐矿区的经济分类是以整个平顶山市的所有盐矿区为研究对象,以各盐矿区为基本单元,以经济为中心,以发展战略和合理布局为目标进行经济类型区划。其基本原则是:平顶山市的盐矿区资源开发、利用的相对一致性;自然、经济、社会条件的一致性;保持一定行政地域单元的相对稳定性。现行的平顶山市盐矿区行政划分不能反映出各个盐矿区的共同点,有必要通过模糊聚类分析将那些经济实际状况相似的铁矿区归类,剖析、发现各况矿区的差异,对症下药,为制定发展对策提供依据。

二、建立指标体系

1、确定分类指标进行经济区划分,应考虑的指标因素是多种多样的。既要以岩盐矿资源储量为主,又要适当考虑岩盐质量和勘察阶段和开发利用状况;既要有直接指标,又要有间接指标;既要考虑矿区发展的现状,又要考虑矿区发展的过程和矿区发展的未来方向。参考有关资料,结合专家意见,我们确定了对平顶山市盐矿区进行经济区划分的指标。如表1所示。表中列举了具体指标及各指标的原始数据(数据来源于河南省2006年矿产资源储量简表)。表1盐矿区经济划分指标体系及指标数据注:表中N表示缺失数据,勘察阶段1、2、3分别表示:初步勘探、详细普查、详细勘探,利用状况1~7分别表示:近期不宜进一步工作、可供进一步工作、近期难以利用、推荐近期利用、计划近期利用、基建矿区、开采矿区。

2、转换指标数据由于不同变量之间存在不同量纲由于不同变量之间存在不同量纲、不同数量级,为使各个变量更具有可比性,有必要对数据进行转换。目前进行数据处理的方法大致有三种,即标准化、极差标准化和正规化。为便于更直观的比较各市之间同一指标的数值大小,我们采用了正规化转换方式。其计算公式为:为了方便叙述,做如下设定:设Xi(i=1,2,3,…,21)为具体指标层中第i个评价指标的值,Pi(i=1,2,3,…,21)为第i个指标正规化后的值,0≤Pi≤1,Xs,i(Xs,i=Xmax-Xmin),为第i个评价指标的标准值,Xmax为最大值,Xmin为最小值。(1)对于越高越好的`指标①Xi≥Xmax,则Pi=1;②Xi≤Xmin,则Pi=0;③Xmin

三、聚类分析

1、聚类步骤(Stage).从1~3表示聚类的先后顺序。

2、个案合并(ClusterCombined)。表示在某步中合并的个案,如第一步中个案1叶县田庄盐矿段和个案2叶县马庄盐矿段合并,合并以后用第一项的个案号表示生成的新类。

3、相似系数(Coefficients).据聚类分析的基本原理,个案之间亲密程度最高即相似系数最接近于1的,最先合并。因此该列中的系数与第一列的聚类步骤相对应,系数值从小到大排列。

4、新类首次出现的步骤(StageClusterFirstAppears)。对应于各聚类步骤参与合并的两项中,如果有一个是新生成的类(即由两个或两个以上个案合并成的类),则在对应列中显示出该新类在哪一步第一次生成。如第三步中该栏第一列显示值为1,表示进行合并的两项中第一项是在第一步第一次生成的新类。如果值为O,则表示对应项还是个案(不是新类)。

5、新类下次出现步骤(NextStage)。表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值是11,表示第一步聚类生成的新类将在第11步与其他个案或新类合并。

6、解析图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚类树状图(方法:组间平均连接法)图清晰的显示了聚类的全过程。他将实际距离按比例调整到0~25之间,用逐级连线的方式连接性质相近的个案或新类,直至并未一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将与水平连线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的个案聚成一类。例如,选标尺值为5,则聚为3类:叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段为一类,叶县姚寨盐矿为一类。若选标尺值为10,则聚为2类:叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。

四、结论

对平顶山市5个盐矿区进行经济区划分,究竟划分为几个区合适,既不是越多越好,也不是越少越好。划分经济区的目的,就是要根据各盐矿经济区资源特点、勘察、开发的不同,分类指导经济活动,使人们的经济活动更加符合当地的实际,使各经济区能充分发挥各自的优势,做到扬长避短,趋利避害,达到投人少、产出多,创造良好的经济效益和社会效益之目的。分区太多,就失去了分区的意义,分区太少,则分类指导很难做到有的放矢。综合以上聚类分析结果,我们可以得出三个方案。其中两个方案比较合适,可供选择。方案一:(当比例尺为5时,分为3类)叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段为一类,叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案一。方案二:(当比例尺为10时,分为2类)叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案二。平顶山市盐矿区分类图方案2聚类分析的原理就是将矿石质量、资源储量、勘查阶段、利用状况相近或相类似的矿区聚合在一起,其分析结果也是直观易见的。在此结合平顶山市实际行政区划以及矿山企业特征我们对铁矿区划分做一个调整使其理论与实际能够结合的更紧密使其更好的指导实践。

1、叶县田庄盐段、叶县马庄盐矿段为一类,这一类属于矿床规模相当,资源储量接近,勘查开发阶段接近,利用程度相当,故,可以分为一类。

2、叶县娄庄盐矿、叶县五里堡盐矿段为一类,这一类属于勘查开发阶段处于同一阶段。

3、叶县姚寨盐矿为一类,这一类属于储量较高,盐矿品位较高,故其勘察开采规划有别于其它两类。总的说来,运用聚类分析是基本成功的,大部分的分类是符合实际的。综合以上论述盐矿区划分如下表所示:当然聚类分析有其优点也有其缺点:(1)优点:聚类分析模型的优点就是直观,结论形式简明。(2)缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试问内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。

模糊聚类分析是聚类分析的一种。聚类分析按照不同的分类标准可以进行不同的分类。就好像人按照性别可以分成男人和女人,按照年龄可以分为老中青一样。聚类分析如果按照隶属度的取值范围可以分为两类,一类叫硬聚类算法,另一类就是模糊聚类算法。隶属度的概念是从模糊集理论里引申出来的。传统硬聚类算法隶属度只有两个值 0 和 1。 也就是说一个样本只能完全属于某一个类或者完全不属于某一个类。举个例子,把温度分为两类,大于10度为热,小于或者等于10度为冷,这就是典型的“硬隶属度”概念。 那么不论是5度 还是负100度都属于冷这个类,而不属于热这个类的。而模糊集里的隶属度是一个取值在[0 1]区间内的数。一个样本同时属于所有的类,但是通过隶属度的大小来区分其差异。比如5度,可能属于冷这类的隶属度值为,而属于热这个类的值为。这样做就比较合理,硬聚类也可以看做模糊聚类的一个特例。你说的动态模糊分析法我在文献里很少见到好像并不主流,似乎没有专门的这样一种典型聚类算法,可能是个别人根据自己需要设计并命名的一种针对模糊聚类的改进方法,这个不好说了就。我见过有把每个不同样本加权的,权值自己确定,这样就冠以“动态"二字,这都是作者自己起的。也有别的也叫”动态“的,可能也不一样,似乎都是个别人自己提出的。至于文献,你可以到中国知网搜索博士或者硕士毕业论文,有关模糊聚类为题目的,在第一章引言里面必然会有详细的介绍,或者联系我,我就是做这方面的。希望能对你有所帮助,给点分吧,打的挺累的。

采用聚类分析的毕业论文

基于聚类分析的广西区域经济发展状况研究的论文

【摘要】:本文以广西壮族自治区14个地级市作为研究对象,从地区生产总值、社会消费品零售总额、全社会固定资产投资、公共财政预算收支总额等方面,选取11个具体指标,运用聚类分析方法分析并评价各地级市经济发展状况。研究结果显示,广西14个地级市可划分为四类经济区域,不同城市之间的经济发展水平存在较大差异。在此基础上,从加强各地级市之间的经济合作、积极推动开放型经济发展、强化科技创新以推动产业结构优化升级等方面提出具体建议,为促进广西区域经济的全面发展提供参考。

【关键词】:聚类分析;广西;经济发展;政策建议

一、引言

近年来,随着中国—东盟自由贸易区的建成,中国与东盟各国贸易投资增长,经济融合加深,经贸往来愈加频繁。广西作为中国—东盟自由贸易区的门户省份,加之“一带一路”战略的提出与实施,良好的区位优势和资源环境承载能力,无疑将会为推动广西区域经济的腾飞提供持续的动力和良好的机遇,发展前景十分广阔。但由于历史的原因,加上人口、社会和基础设施等因素的影响,广西的经济发展水平和人均地区生产总值在内陆31个省、市、自治区中仍处于中下水平,与上述提到拥有的区位优势、经济优势是极不相称的。广西下辖的14个地级市经济发展程度和产业结构也存在一定的差异。一直以来,区域经济发展问题都是区域经济学、经济地理学等学科关注和研究的对象,区域经济发展中出现差距,是各国经济发展中存在的普遍现象[1]。如何就广西下辖的14个地级市进行经济发展程度的分析和分类,对于正确认识广西各地级市经济发展所处的发展阶段,制定正确的宏观政策,以促进各地区的良好协调发展具有重要的理论和现实意义。

二、研究区域概况

广西壮族自治区,简称“桂”,首府南宁,位于中国华南地区西部,与广东、湖南等省份接壤,南濒北部湾,面向东南亚,是中国唯一一个沿海自治区,自然条件优越,资源丰富,尤以海洋资源和矿产资源为甚。截至2015年12月,全区辖14个地级市,县级行政区111个,行政区划面积万平方公里。2015年全区总人口为5518万人,地区生产总值亿元,占全国的。人均地区生产总值为39150元。但由于历史的原因,加上人口、社会和基础设施等因素的影响,广西的经济发展水平,无论是地区生产总值还是三大产业结构完善程度等方面,在内陆31个省市中均处于中下水平。区内下辖的14个地级市,经济发展水平和产业结构各异,部分地级市经济发展程度相对滞后。近年来,随着中国—东盟自由贸易区的建成和“一带一路”战略的实施,广西吸引着国内外大量的资本和人力涌入,显现出广阔的发展前景。

三、聚类分析方法研究设计

(一)指标选择及数据来源

区域经济发展状况的研究,依靠单一的指标,是无法对其进行综合、全面的评价与分析的。因此,在对广西区域经济发展水平分析评价的过程中,需要借助多个评价指标,构建合理完善的评价指标体系。本着建立评价指标体系要遵循科学性、系统性、全面性、独立性、可操作性等原则,本文在参考以往文献资料的基础上,根据广西各地级市经济发展状况、人口条件、社会资源等方面的实际情况选取了11个具体指标,分别是:行政区划土地面积(平方公里)、地区生产总值(亿元)、人均地区生产总值(元)、户籍年末总人口(万人)、固定资产投资(亿元,不含农户)、公共财政预算收入(亿元)、公共财政预算支出(亿元)、农民居民人均纯收入(元)、城镇居民人均可支配收入(元)、社会消费品零售总额(亿元)、进出口总额(人民币,万元)。为方便后续各指标数据的处理,分别以X1、X2、X3、X4、X5、X6、X7、X8、X9、X10和X11指代。各指标详细数据均来自《广西统计年鉴2016》和《2015年广西壮族自治区国民经济与社会发展统计公报》。

(二)数据处理

本文利用对反映广西14个地级市经济发展状况的指标进行聚类分析。由上述内容可知,研究所选取的11个指标由于它们原始数据量刚的不同,为防止指标取值的分散程度较大,需对各指标的取值做标准化处理。

各指标数据经过标准化处理后,X2(地区生产总值)与X5(固定资产投资)、X6(公共财政预算收入)、X10(社会消费品零售总额)的相关系数都大于,故而这四个指标不必均作为聚类变量,选择其中一个即可,本文选择X2(地区生产总值)。接着,运用不同的聚类方法进行聚类分析。

(三)结果分析

本文利用对广西14个地级市经济发展状况进行聚类分析,在对选定的11个聚类变量的数据经过标准化处理后,依据结果聚类个数的不同,而相继运用系统聚类和K—均值聚类法进行聚类分析,并得出结果。参考以往文献资料对广西14个地级市经济发展状况的分类,以及广西各地区实际的经济、社会和人口状况,本文认为对广西14个地级市经济发展水平的分类,聚类个数分为四类比较适宜。对于广西14个地级市经济发展水平的分类应为:南宁、北海、钦州为第一类;柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类;防城港为第三类;崇左为第四类。

由聚类分析结果可知,南宁、北海、钦州为第一类,这三个地级市经济相对发达。南宁是广西的首府,全区的政治、经济、文化、金融和信息中心,经济发展程度高,产业结构相对完整,良好的区位优势、众多的政策支持以及坚实的经济发展基础,使得南宁在多方面的发展都领跑于广西区的其他地级市。北海是全国14个沿海开放城市之一,处于泛北湾经济合作区域结合部的中心位置,便捷、高效的交通设施,众多经济圈的发展福利,以及丰富的海洋资源、繁荣的旅游业,都推动着北海经济社会的快速发展。钦州,南海之滨,北部湾经济区南的中心位置,是大西南最便捷的出海通道,依托于得天独厚的港口优势,大力发展进出口贸易。

柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类,这9个地级市经济发展水平较高,三大产业结构相对完善,各自依托于自身的经济发展优势,经济发展增速较快。

防城港和崇左分别是第三和第四类。防城港是中国的深水良港,是中国25个沿海主要港口之一,对外贸易额较高,在中国—东盟自由贸易区、泛北部湾区域合作中具有特殊重要的战略地位。崇左位于广西西南部,地理位置相对较差,工业基础薄弱,交通设施落后,虽然资源丰富,但限于人力资源的短板,是广西经济发展较为落后的地级市。

四、结论及政策建议

本文利用对广西14个地级市经济发展状况进行聚类分析,将广西14个地级市经济发展水平分为四类,分别是南宁、北海、钦州为第一类;柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类;防城港为第三类;崇左为第四类。从聚类分析的结果来看,就如何促进广西区域经济的快速、协调发展,可从以下几个方面着手:

(一)加强各地级市之间的经济合作,增强较发达地区的经济辐射力度

广西各地区经济发展水平差异显著,各自依托的经济发展要素也不尽相同,例如人力资本、环境资源、基础设施完善程度和地理位置等就相差较大。因此,各地区根据自身的条件优势,因地制宜地制定经济发展策略,就显得尤为重要。因地制宜地制定经济发展策略的同时,加强各地级市之间的经济合作,实现资源、信息的共享互通,人力、资金的自由流通,各自取长补短,将为促进各地区的快速、协调发展发挥重要作用。以南宁、桂林和柳州为主的老牌较发达地区,拥有较发达的工业基础、第三产业和相对完善的基础设施,在立足自身优势发展,加强与各地级市之间的经济合作中,要发挥好领头羊的作用,率先做出垂范,积极探索出可供借鉴的合作模式,增强对周边地级市的经济辐射力度,以少带多,以强扶弱,真正促进广西经济发展迈上新台阶。

(二)依托良好的区位优势和叠加的'政策优势,积极推动开放型经济发展

随着经济全球化和区域经济一体化的发展,我国经济和世界经济发展的融合在不断加深,积极推动外向型经济的发展,成为了我国及各地区经济转型升级的关键所在。2015年3月,国家发改委、外交部和商务部联合发布了《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》,广西借助于自身的区位优势,被纳入国家“一带一路”建设规划,发展开放型经济面临着重大的历史机遇。广西的外向型经济近些年来虽有发展,但整体情况仍不容乐观,相对薄弱的经济基础制约着开放型经济的发展后劲以及支撑开放型经济发展的高级要素也存在不足[2]。借助于“一带一路”战略实施的机遇和叠加密集的国家开发政策,依托沿海、沿江、沿边的区位优势,借鉴东部沿海典型的开放型经济发展模式,例如上海模式和东莞模式,积极推动广西的外向型经济发展,才能快速、协调地完成广西经济的转型升级。

(三)强化科技创新,加速推动产业结构优化升级

科技创新与产业结构优化升级是长期的协调关系,依托于科技创新能有效推动产业结构优化升级。一般来说,产业结构指的是一二三产业所占的比重,产业结构优化升级有两个含义:一个是产业结构合理化,另一个是产业结构高级化,如果第三产业所占的比重越大,那么可以说它的高级化程度越大[3]。未来一段时间,可以从以下几个方面强化科技创新,加速广西产业结构的转型升级:一是加强科技创新方面的改革,建立完善的科技管理协调机制和信息公开机制,优化科技资源配置机制,以统筹科技创新全方位管理;二是加大对科技创新的财政支持,保证各项用于科技创新的资金行使到位;三是优化科技创新体系,不仅要保证建立完善的科技创新管理机制,更要全面扩大科技创新的主体,落实科技创新成果的投入使用。

(四)完善各地区的基础设施建设,大力发展地区特色经济

广西各地区经济发展水平差异显著,相对发达的地区,例如南宁、柳州和桂林等,除主城经济区外,基础设施建设仍不尽完善。河池、百色、崇左等市地处偏远地区,交通不便,基础设施建设更是落后。良好的交通条件、便利的通讯设施、覆盖全面的水利、电力设施等是居民和企业的共同物质基础,更是物质生产和劳动力再生产的重要条件。因此,各地区应把完善基础设施建设放在重要位置,适当扩大社会固定资产投资总量,积极利用本地区丰富的人文资源,打好“侨牌”,让更多拥有广西籍的海外华人华侨参与到广西的经济建设之中,尽快完善基础设施建设,为经济的快速发展提供良好的基础。同时,各地区应找准自身的发展定位,结合地区优势,大力发展地区特色经济。

参考文献:

[1]孟倩.基于主成分分析和聚类分析的山东省区域经济协调发展研究[J].区域经济,2016(1):138-139

[2]李继宏.“一带一路”建设背景下广西开放型经济发展模式及实现路径[J].广西社会科学,2016(4):14-19

[3]徐晓慧.广西科技创新对产业结构升级的影响[J].合作经济与科技,2016(11):19-21

聚类分析算法论文

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。下面是我分享给大家的聚类分析算法论文,欢迎阅读。

一、引言

聚类分析算法是给定m维空间R中的n个向量,把每个向量归属到k个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为:类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。聚类分析的基本思想是:采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。盐矿区系统是一个多层次、复杂的大系统,涉及诸多模糊、不确定的因素。平顶山市盐矿区的经济分类是以整个平顶山市的所有盐矿区为研究对象,以各盐矿区为基本单元,以经济为中心,以发展战略和合理布局为目标进行经济类型区划。其基本原则是:平顶山市的盐矿区资源开发、利用的相对一致性;自然、经济、社会条件的一致性;保持一定行政地域单元的相对稳定性。现行的平顶山市盐矿区行政划分不能反映出各个盐矿区的共同点,有必要通过模糊聚类分析将那些经济实际状况相似的铁矿区归类,剖析、发现各况矿区的差异,对症下药,为制定发展对策提供依据。

二、建立指标体系

1、确定分类指标进行经济区划分,应考虑的指标因素是多种多样的。既要以岩盐矿资源储量为主,又要适当考虑岩盐质量和勘察阶段和开发利用状况;既要有直接指标,又要有间接指标;既要考虑矿区发展的现状,又要考虑矿区发展的过程和矿区发展的未来方向。参考有关资料,结合专家意见,我们确定了对平顶山市盐矿区进行经济区划分的指标。如表1所示。表中列举了具体指标及各指标的原始数据(数据来源于河南省2006年矿产资源储量简表)。表1盐矿区经济划分指标体系及指标数据注:表中N表示缺失数据,勘察阶段1、2、3分别表示:初步勘探、详细普查、详细勘探,利用状况1~7分别表示:近期不宜进一步工作、可供进一步工作、近期难以利用、推荐近期利用、计划近期利用、基建矿区、开采矿区。

2、转换指标数据由于不同变量之间存在不同量纲由于不同变量之间存在不同量纲、不同数量级,为使各个变量更具有可比性,有必要对数据进行转换。目前进行数据处理的方法大致有三种,即标准化、极差标准化和正规化。为便于更直观的比较各市之间同一指标的数值大小,我们采用了正规化转换方式。其计算公式为:为了方便叙述,做如下设定:设Xi(i=1,2,3,…,21)为具体指标层中第i个评价指标的值,Pi(i=1,2,3,…,21)为第i个指标正规化后的值,0≤Pi≤1,Xs,i(Xs,i=Xmax-Xmin),为第i个评价指标的标准值,Xmax为最大值,Xmin为最小值。(1)对于越高越好的`指标①Xi≥Xmax,则Pi=1;②Xi≤Xmin,则Pi=0;③Xmin

三、聚类分析

1、聚类步骤(Stage).从1~3表示聚类的先后顺序。

2、个案合并(ClusterCombined)。表示在某步中合并的个案,如第一步中个案1叶县田庄盐矿段和个案2叶县马庄盐矿段合并,合并以后用第一项的个案号表示生成的新类。

3、相似系数(Coefficients).据聚类分析的基本原理,个案之间亲密程度最高即相似系数最接近于1的,最先合并。因此该列中的系数与第一列的聚类步骤相对应,系数值从小到大排列。

4、新类首次出现的步骤(StageClusterFirstAppears)。对应于各聚类步骤参与合并的两项中,如果有一个是新生成的类(即由两个或两个以上个案合并成的类),则在对应列中显示出该新类在哪一步第一次生成。如第三步中该栏第一列显示值为1,表示进行合并的两项中第一项是在第一步第一次生成的新类。如果值为O,则表示对应项还是个案(不是新类)。

5、新类下次出现步骤(NextStage)。表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值是11,表示第一步聚类生成的新类将在第11步与其他个案或新类合并。

6、解析图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚类树状图(方法:组间平均连接法)图清晰的显示了聚类的全过程。他将实际距离按比例调整到0~25之间,用逐级连线的方式连接性质相近的个案或新类,直至并未一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将与水平连线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的个案聚成一类。例如,选标尺值为5,则聚为3类:叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段为一类,叶县姚寨盐矿为一类。若选标尺值为10,则聚为2类:叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。

四、结论

对平顶山市5个盐矿区进行经济区划分,究竟划分为几个区合适,既不是越多越好,也不是越少越好。划分经济区的目的,就是要根据各盐矿经济区资源特点、勘察、开发的不同,分类指导经济活动,使人们的经济活动更加符合当地的实际,使各经济区能充分发挥各自的优势,做到扬长避短,趋利避害,达到投人少、产出多,创造良好的经济效益和社会效益之目的。分区太多,就失去了分区的意义,分区太少,则分类指导很难做到有的放矢。综合以上聚类分析结果,我们可以得出三个方案。其中两个方案比较合适,可供选择。方案一:(当比例尺为5时,分为3类)叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段为一类,叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案一。方案二:(当比例尺为10时,分为2类)叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案二。平顶山市盐矿区分类图方案2聚类分析的原理就是将矿石质量、资源储量、勘查阶段、利用状况相近或相类似的矿区聚合在一起,其分析结果也是直观易见的。在此结合平顶山市实际行政区划以及矿山企业特征我们对铁矿区划分做一个调整使其理论与实际能够结合的更紧密使其更好的指导实践。

1、叶县田庄盐段、叶县马庄盐矿段为一类,这一类属于矿床规模相当,资源储量接近,勘查开发阶段接近,利用程度相当,故,可以分为一类。

2、叶县娄庄盐矿、叶县五里堡盐矿段为一类,这一类属于勘查开发阶段处于同一阶段。

3、叶县姚寨盐矿为一类,这一类属于储量较高,盐矿品位较高,故其勘察开采规划有别于其它两类。总的说来,运用聚类分析是基本成功的,大部分的分类是符合实际的。综合以上论述盐矿区划分如下表所示:当然聚类分析有其优点也有其缺点:(1)优点:聚类分析模型的优点就是直观,结论形式简明。(2)缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试问内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。

聚类分析论文范文

在统计学中,统计模型是指当有些过程无法用理论分析 方法 导出其模型,但可通过试验或直接由工业过程测定数据,经过数理统计法求得各变量之间的函数关系。下文是我为大家整理的关于统计模型论文的 范文 ,欢迎大家阅读参考!

统计套利模型的理论综述与应用分析

【摘要】统计套利模型是基于数量经济学和统计学建立起来的,在对历史数据分析的基础之上,估计相关变量的概率分布,并结合基本面数据对未来收益进行预测,发现套利机会进行交易。统计套利这种分析时间序列的统计学特性,使其具有很大的理论意义和实践意义。在实践方面广泛应用于个对冲基金获取收益,理论方面主要表现在资本有效性检验以及开放式基金评级,本文就统计套利的基本原理、交易策略、应用方向进行介绍。

【关键词】统计套利 成对交易 应用分析

一、统计套利模型的原理简介

统计套利模型是基于两个或两个以上具有较高相关性的股票或者其他证券,通过一定的方法验证股价波动在一段时间内保持这种良好的相关性,那么一旦两者之间出现了背离的走势,而且这种价格的背离在未来预计会得到纠正,从而可以产生套利机会。在统计套利实践中,当两者之间出现背离,那么可以买进表现价格被低估的、卖出价格高估的股票,在未来两者之间的价格背离得到纠正时,进行相反的平仓操作。统计套利原理得以实现的前提是均值回复,即存在均值区间(在实践中一般表现为资产价格的时间序列是平稳的,且其序列图波动在一定的范围之内),价格的背离是短期的,随着实践的推移,资产价格将会回复到它的均值区间。如果时间序列是平稳的,则可以构造统计套利交易的信号发现机制,该信号机制将会显示是否资产价格已经偏离了长期均值从而存在套利的机会 在某种意义上存在着共同点的两个证券(比如同行业的股票), 其市场价格之间存在着良好的相关性,价格往往表现为同向变化,从而价格的差值或价格的比值往往围绕着某一固定值进行波动。

二、统计套利模型交易策略与数据的处理

统计套利具 体操 作策略有很多,一般来说主要有成对/一篮子交易,多因素模型等,目前应用比较广泛的策略主要是成对交易策略。成对策略,通常也叫利差交易,即通过对同一行业的或者股价具有长期稳定均衡关系的股票的一个多头头寸和一个空头头寸进行匹配,使交易者维持对市场的中性头寸。这种策略比较适合主动管理的基金。

成对交易策略的实施主要有两个步骤:一是对股票对的选取。海通证券分析师周健在绝对收益策略研究―统计套利一文中指出,应当结合基本面与行业进行选股,这样才能保证策略收益,有效降低风险。比如银行,房地产,煤电行业等。理论上可以通过统计学中的聚类分析方法进行分类,然后在进行协整检验,这样的成功的几率会大一些。第二是对股票价格序列自身及相互之间的相关性进行检验。目前常用的就是协整理论以及随机游走模型。

运用协整理论判定股票价格序列存在的相关性,需要首先对股票价格序列进行平稳性检验,常用的检验方法是图示法和单位根检验法,图示法即对所选各个时间序列变量及一阶差分作时序图,从图中观察变量的时序图出现一定的趋势册可能是非平稳性序列,而经过一阶差分后的时序图表现出随机性,则序列可能是平稳的。但是图示法判断序列是否存在具有很大的主观性。理论上检验序列平稳性及阶输通过单位根检验来确定,单位根检验的方法很多,一般有DF,ADF检验和Phillips的非参数检验(PP检验)一般用的较多的方法是ADF检验。

检验后如果序列本身或者一阶差分后是平稳的,我们就可以对不同的股票序列进行协整检验,协整检验的方法主要有EG两步法,即首先对需要检验的变量进行普通的线性回归,得到一阶残差,再对残差序列进行单位根检验,如果存在单位根,那么变量是不具有协整关系的,如果不存在单位根,则序列是平稳的。EG检验比较适合两个序列之间的协整检验。除EG检验法之外,还有Johansen检验,Gregory hansan法,自回归滞后模型法等。其中johansen检验比较适合三个以上序列之间协整关系的检验。通过协整检验,可以判定股票价格序列之间的相关性,从而进行成对交易。

Christian L. Dunis和Gianluigi Giorgioni(2010)用高频数据代替日交易数据进行套利,并同时比较了具有协整关系的股票对和没有协整关系股票对进行套利的立即收益率,结果显示,股票间价格协整关系越高,进行统计套利的机会越多,潜在收益率也越高。

根据随机游走模型我们可以检验股票价格波动是否具有“记忆性”,也就是说是否存在可预测的成分。一般可以分为两种情况:短期可预测性分析及长期可预测性分析。在短期可预测性分析中,检验标准主要针对的是随机游走过程的第三种情况,即不相关增量的研究,可以采用的检验工具是自相关检验和方差比检验。在序列自相关检验中,常用到的统计量是自相关系数和鲍克斯-皮尔斯 Q统计量,当这两个统计量在一定的置信度下,显著大于其临界水平时,说明该序列自相关,也就是存在一定的可预测性。方差比检验遵循的事实是:随机游走的股价对数收益的方差随着时期线性增长,这些期间内增量是可以度量的。这样,在k期内计算的收益方差应该近似等于k倍的单期收益的方差,如果股价的波动是随机游走的,则方差比接近于1;当存在正的自相关时,方差比大于1;当存在负的自相关是,方差比小于1。进行长期可预测性分析,由于时间跨度较大的时候,采用方差比进行检验的作用不是很明显,所以可以采用R/S分析,用Hurst指数度量其长期可预测性,Hurst指数是通过下列方程的回归系数估计得到的:

Ln[(R/S)N]=C+H*LnN

R/S 是重标极差,N为观察次数,H为Hurst指数,C为常数。当H>时说,说明这些股票可能具有长期记忆性,但是还不能判定这个序列是随机游走或者是具有持续性的分形时间序列,还需要对其进行显著性检验。

无论是采用协整检验还是通过随机游走判断,其目的都是要找到一种短期或者长期内的一种均衡关系,这样我们的统计套利策略才能够得到有效的实施。

进行统计套利的数据一般是采用交易日收盘价数据,但是最近研究发现,采用高频数据(如5分钟,10分钟,15分钟,20分钟收盘价交易数据)市场中存在更多的统计套利机会。日交易数据我们选择前复权收盘价,而且如果两只股票价格价差比较大,需要先进性对数化处理。Christian L. Dunis和Gianluigi Giorgioni(2010)分别使用15分钟收盘价,20分钟收盘价,30分以及一个小时收盘价为样本进行统计套利分析,结果显示,使用高频数据进行统计套利所取得收益更高。而且海通证券金融分析师在绝对收益策略系列研究中,用沪深300指数为样本作为统计套利 配对 交易的标的股票池,使用高频数据计算累计收益率比使用日交易数据高将近5个百分点。

三、统计套利模型的应用的拓展―检验资本市场的有效性

Fama(1969)提出的有效市场假说,其经济含义是:市场能够对信息作出迅速合理的反应,使得市场价格能够充分反映所有可以获得的信息,从而使资产的价格不可用当前的信息进行预测,以至于任何人都无法持续地获得超额利润.通过检验统计套利机会存在与否就可以验证资本市场是有效的的,弱有效的,或者是无效的市场。徐玉莲(2005)通过运用统计套利对中国资本市场效率进行实证研究,首先得出结论:统计套利机会的存在与资本市场效率是不相容的。以此为理论依据,对中国股票市场中的价格惯性、价格反转及价值反转投资策略是否存在统计套利机会进行检验,结果发现我国股票市场尚未达到弱有效性。吴振翔,陈敏(2007)曾经利用这种方法对我国A股市场的弱有效性加以检验,采用惯性和反转两种投资策略发现我国A股若有效性不成立。另外我国学者吴振翔,魏先华等通过对Hogan的统计套利模型进行修正,提出了基于统计套利模型对开放式基金评级的方法。

四、结论

统计套利模型的应用目前主要表现在两个方面:1.作为一种有效的交易策略,进行套利。2.通过检测统计套利机会的存在,验证资本市场或者某个市场的有效性。由于统计套利策略的实施有赖于做空机制的建立,随着我股指期货和融资融券业务的推出和完善,相信在我国会有比较广泛的应用与发展。

参考文献

[1] . Burgess:A computational Methodolology for Modelling the Dynamics of statistical arbitrage, London business school,PhD Thesis,1999.

[2]方昊.统计套利的理论模式及应用分析―基于中国封闭式基金市场的检验.统计与决策,2005,6月(下).

[3]马理,卢烨婷.沪深 300 股指期货期现套利的可行性研究―基于统计套利模型的实证.财贸研究,2011,1.

[4]吴桥林.基于沪深 300 股指期货的套利策略研究[D].中国优秀硕士学位论文.2009.

[5]吴振翔,陈敏.中国股票市场弱有效性的统计套利检验[J].系统工程理论与实践.2007,2月.

关于半参统计模型的估计研究

【摘要】随着数据模型技术的迅速发展,现有的数据模型已经无法满足实践中遇到的一些测量问题,严重的限制了现代科学技术在数据模型上应用和发展,所以基于这种背景之下,学者们针对数据模型测量实验提出了新的理论和方法,并研制出了半参数模型数据应用。半参数模型数据是基于参数模型和非参数模型之上的一种新的测量数据模型,因此它具备参数模型和非参数模型很多共同点。本文将结合数据模型技术,对半参统计模型进行详细的探究与讨论。

【关键词】半参数模型 完善误差 测量值 纵向数据

本文以半参数模型为例,对参数、非参数分量的估计值和观测值等内容进行讨论,并运用三次样条函数插值法得出非参数分量的推估表达式。另外,为了解决纵向数据下半参数模型的参数部分和非参数部分的估计问题,在误差为鞅差序列情形下,对半参数数据模型、渐近正态性、强相合性进行研究和分析。另外,本文初步讨论了平衡参数的选取问题,并充分说明了泛最小二乘估计方法以及相关结论,同时对半参数模型的迭代法进行了相关讨论和研究。

一、概论

在日常生活当中,人们所采用的参数数据模型构造相对简单,所以操作起来比较容易;但在测量数据的实际使用过程中存在着相关大的误差,例如在测量相对微小的物体,或者是对动态物体进行测量时。而建立半参数数据模型可以很好的解决和缓解这一问题:它不但能够消除或是降低测量中出现的误差,同时也不会将无法实现参数化的系统误差进行勾和。系统误差非常影响观测值的各种信息,如果能改善,就能使其实现更快、更及时、更准确的误差识别和提取过程;这样不仅可以提高参数估计的精确度,也对相关科学研究进行了有效补充。

举例来说,在模拟算例及坐标变换GPS定位重力测量等实际应用方面,体现了这种模型具有一定成功性及实用性;这主要是因为半参数数据模型同当前所使用的数据模型存在着一致性,可以很好的满足现在的实际需要。而新建立的半参数模型以及它的参数部分和非参数部分的估计,也可以解决一些污染数据的估计问题。这种半参数模型,不仅研究了纵向数据下其自身的t型估计,同时对一些含光滑项的半参数数据模型进行了详细的阐述。另外,基于对称和不对称这两种情况,可以在一个线性约束条件下对参数估计以及假设进行检验,这主要是因为对观测值产生影响的因素除了包含这个线性关系以外,还受到某种特定因素的干扰,所以不能将其归入误差行列。另外,基于自变量测量存在一定误差,经常会导致在计算过程汇总,丢失很多重要信息。

二、半参数回归模型及其估计方法

这种模型是由西方著名学者Stone在上世纪70年代所提出的,在80年代逐渐发展并成熟起来。目前,这种参数模型已经在医学以及生物学还有经济学等诸多领域中广泛使用开来。

半参数回归模型介于非参数回归模型和参数回归模型之间,其内容不仅囊括了线性部分,同时包含一些非参数部分,应该说这种模型成功的将两者的优点结合在一起。这种模型所涉及到的参数部分,主要是函数关系,也就是我们常说的对变量所呈现出来的大势走向进行有效把握和解释;而非参数部分则主要是值函数关系中不明确的那一部分,换句话就是对变量进行局部调整。因此,该模型能够很好的利用数据中所呈现出来的信息,这一点是参数回归模型还有非参数归回模型所无法比拟的优势,所以说半参数模型往往拥有更强、更准确的解释能力。

从其用途上来说,这种回归模型是当前经常使用的一种统计模型。其形式为:

三、纵向数据、线性函数和光滑性函数的作用

纵向数据其优点就是可以提供许多条件,从而引起人们的高度重视。当前纵向数据例子也非常多。但从其本质上讲,纵向数据其实是指对同一个个体,在不同时间以及不同地点之上,在重复观察之下所得到一种序列数据。但由于个体间都存在着一定的差别,从而导致在对纵向数据进行求方差时会出现一定偏差。在对纵向数据进行观察时,其观察值是相对独立的,因此其特点就是可以能够将截然不同两种数据和时间序列有效的结合在一起。即可以分析出来在个体上随着时间变化而发生的趋势,同时又能看出总体的变化形势。在当前很多纵向数据的研究中,不仅保留了其优点,并在此基础之上进行发展,实现了纵向数据中的局部线性拟合。这主要是人们希望可以建立输出变量和协变量以及时间效应的关系。可由于时间效应相对比较复杂,所以很难进行参数化的建模。

另外,虽然线性模型的估计已经取得大量的成果,但半参数模型估计至今为止还是空白页。线性模型的估计不仅仅是为了解决秩亏或病态的问题,还能在百病态的矩阵时,提供了处理线性、非线性及半参数模型等方法。首先,对观测条件较为接近的两个观测数据作为对照,可以削弱非参数的影响。从而将半参数模型变成线性模型,然后,按线性模型处理,得到参数的估计。而多数的情况下其线性系数将随着另一个变量而变化,但是这种线性系数随着时间的变化而变化,根本求不出在同一个模型中,所有时间段上的样本,亦很难使用一个或几个实函数来进行相关描述。在对测量数据处理时,如果将它看作为随机变量,往往只能达到估计的作用,要想在经典的线性模型中引入另一个变量的非线性函数,即模型中含有本质的非线性部分,就必须使用半参数线性模型。

另外就是指由各个部分组成的形态,研究对象是非线性系统中产生的不光滑和不可微的几何形体,对应的定量参数是维数,分形上统计模型的研究是当前国际非线性研究的重大前沿课题之一。因此,第一种途径是将非参数分量参数化的估计方法,也称之为参数化估计法,是关于半参数模型的早期工作,就是对函数空间附施加一定的限制,主要指光滑性。一些研究者认为半参数模型中的非参数分量也是非线性的,而且在大多数情形下所表现出来的往往是不光滑和不可微的。所以同样的数据,同样的检验方法,也可以使用立方光滑样条函数来研究半参数模型。

四、线性模型的泛最小二乘法与最小二乘法的抗差

(一)最小二乘法出现于18世纪末期

在当时科学研究中常常提出这样的问题:怎样从多个未知参数观测值集合中求出参数的最佳估值。尽管当时对于整体误差的范数,泛最小二乘法不如最小二乘法,但是当时使用最多的还是最小二乘法,其目的也就是为了估计参数。最小二乘法,在经过一段时间的研究和应用之后,逐步发展成为一整套比较完善的理论体系。现阶段不仅可以清楚地知道数据所服从的模型,同时在纵向数据半参数建模中,辅助以迭代加权法。这对补偿最小二乘法对非参数分量估计是非常有效,而且只要观测值很精确,那么该法对非参数分量估计更为可靠。例如在物理大地测量时,很早就使用用最小二乘配置法,并得到重力异常最佳估计值。不过在使用补偿最小二乘法来研究重力异常时,我们还应在兼顾着整体误差比较小的同时,考虑参数估计量的真实性。并在比较了迭代加权偏样条的基础上,研究最小二乘法在当前使用过程中存在的一些不足。应该说,该方法只强调了整体误差要实现最小,而忽略了对参数分量估计时出现的误差。所以在实际操作过程中,需要特别注意。

(二)半参模型在GPS定位中的应用和差分

半参模型在GPS相位观测中,其系统误差是影响高精度定位的主要因素,由于在解算之前模型存在一定误差,所以需及时观测误差中的粗差。GPS使用中,通过广播卫星来计算目标点在实际地理坐标系中具体坐标。这样就可以在操作过程中,发现并恢复整周未知数,由于观测值在卫星和观测站之间,是通过求双差来削弱或者是减少对卫星和接收机等系统误差的影响,因此难于用参数表达。但是在平差计算中,差分法虽然可以将观测方程的数目明显减少,但由于种种原因,依然无法取得令人满意的结果。但是如果选择使用半参数模型中的参数来表达系统误差,则能得到较好的效果。这主要是因为半参数模型是一种广义的线性回归模型,对于有着光滑项的半参数模型,在既定附加的条件之下,能够提供一个线性函数的估计方法,从而将测值中的粗差消除掉。

另外这种方法除了在GPS测量中使用之外,还可应用于光波测距仪以及变形监测等一些参数模型当中。在重力测量中的应用在很多情形下,尤其是数学界的理论研究,我们总是假定S是随机变量实际上,这种假设是合理的,近几年,我们对这种线性模型的研究取得了一些不错的成果,而且因其形式相对简洁,又有较高适用性,所以这种模型在诸多领域中发挥着重要作用。

通过模拟的算例及坐标变换GPS定位重力测量等实际应用,说明了该法的成功性及实用性,从理论上说明了流行的自然样条估计方法,其实质是补偿最小二乘方法的特例,在今后将会有广阔的发展空间。另外 文章 中提到的分形理论的研究对象应是非线性系统中产生的不光滑和不可微的几何形体,而且分形已经在断裂力学、地震学等中有着广泛的应用,因此应被推广使用到研究半参数模型中来,不仅能够更及时,更加准确的进行误差的识别和提取,同时可以提高参数估计的精确度,是对当前半参数模型研究的有力补充。

五、 总结

文章所讲的半参数模型包括了参数、非参数分量的估计值和观测值等内容,并且用了三次样条函数插值法得到了非参数分量的推估表达式。另外,为了解决纵向数据前提下,半参数模型的参数部分和非参数部分的估计问题,在误差为鞅差序列情形下,对半参数数据模型、渐近正态性、强相合性进行研究和分析。同时介绍了最小二乘估计法。另外初步讨论了平衡参数的选取问题,还充分说明了泛最小二乘估计方法以及有关结论。在对半参数模型的迭代法进行了相关讨论和研究的基础之上,为迭代法提供了详细的理论说明,为实际应用提供了理论依据。

参考文献

[1]胡宏昌.误差为AR(1)情形的半参数回归模型拟极大似然估计的存在性[J].湖北师范学院学报(自然科学版),2009(03).

[2]钱伟民,李静茹.纵向污染数据半参数回归模型中的强相合估计[J].同济大学学报(自然科学版),2009(08).

[3]樊明智,王芬玲,郭辉.纵向数据半参数回归模型的最小二乘局部线性估计[J].数理统计与管理,2009(02).

[4]崔恒建,王强.变系数结构关系EV模型的参数估计[J].北京师范大学学报(自然科学版).2005(06).

[5]钱伟民,柴根象.纵向数据混合效应模型的统计分析[J].数学年刊A辑(中文版).2009(04)

[6]孙孝前,尤进红.纵向数据半参数建模中的迭代加权偏样条最小二乘估计[J].中国科学(A辑:数学),2009(05).

[7]张三国,陈希孺.EV多项式模型的估计[J].中国科学(A辑),2009(10).

[8]任哲,陈明华.污染数据回归分析中参数的最小一乘估计[J].应用概率统计,2009(03).

[9]张三国,陈希孺.有重复观测时EV模型修正极大似然估计的相合性[J].中国科学(A辑).2009(06).

[10]崔恒建,李勇,秦怀振.非线性半参数EV四归模型的估计理论[J].科学通报,2009(23).

[11]罗中明.响应变量随机缺失下变系数模型的统计推断[D].中南大学,2011.

[12]刘超男.两参数指数威布尔分布的参数Bayes估计及可靠性分析[D].中南大学,2008.

[13]郭艳.湖南省税收收入预测模型及其实证检验与经济分析[D].中南大学,2009.

[14]桑红芳.几类分布的参数估计的损失函数和风险函数的Bayes推断[D].中南大学,2009.

[15]朱琳.服从几类可靠性分布的无失效数据的bayes分析[D].中南大学,2009.

[16]黄芙蓉.指数族非线性模型和具有AR(1)误差线性模型的统计分析[D].南京理工大学,2009.

猜你喜欢:

1. 统计学分析论文

2. 统计方面论文优秀范文参考

3. 统计优秀论文范文

4. 统计学的论文参考范例

聚类分析算法论文

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。下面是我分享给大家的聚类分析算法论文,欢迎阅读。

一、引言

聚类分析算法是给定m维空间R中的n个向量,把每个向量归属到k个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为:类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。聚类分析的基本思想是:采用多变量的统计值,定量地确定相互之间的亲疏关系,考虑对象多因素的联系和主导作用,按它们亲疏差异程度,归入不同的分类中一元,使分类更具客观实际并能反映事物的内在必然联系。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。盐矿区系统是一个多层次、复杂的大系统,涉及诸多模糊、不确定的因素。平顶山市盐矿区的经济分类是以整个平顶山市的所有盐矿区为研究对象,以各盐矿区为基本单元,以经济为中心,以发展战略和合理布局为目标进行经济类型区划。其基本原则是:平顶山市的盐矿区资源开发、利用的相对一致性;自然、经济、社会条件的一致性;保持一定行政地域单元的相对稳定性。现行的平顶山市盐矿区行政划分不能反映出各个盐矿区的共同点,有必要通过模糊聚类分析将那些经济实际状况相似的铁矿区归类,剖析、发现各况矿区的差异,对症下药,为制定发展对策提供依据。

二、建立指标体系

1、确定分类指标进行经济区划分,应考虑的指标因素是多种多样的。既要以岩盐矿资源储量为主,又要适当考虑岩盐质量和勘察阶段和开发利用状况;既要有直接指标,又要有间接指标;既要考虑矿区发展的现状,又要考虑矿区发展的过程和矿区发展的未来方向。参考有关资料,结合专家意见,我们确定了对平顶山市盐矿区进行经济区划分的指标。如表1所示。表中列举了具体指标及各指标的原始数据(数据来源于河南省2006年矿产资源储量简表)。表1盐矿区经济划分指标体系及指标数据注:表中N表示缺失数据,勘察阶段1、2、3分别表示:初步勘探、详细普查、详细勘探,利用状况1~7分别表示:近期不宜进一步工作、可供进一步工作、近期难以利用、推荐近期利用、计划近期利用、基建矿区、开采矿区。

2、转换指标数据由于不同变量之间存在不同量纲由于不同变量之间存在不同量纲、不同数量级,为使各个变量更具有可比性,有必要对数据进行转换。目前进行数据处理的方法大致有三种,即标准化、极差标准化和正规化。为便于更直观的比较各市之间同一指标的数值大小,我们采用了正规化转换方式。其计算公式为:为了方便叙述,做如下设定:设Xi(i=1,2,3,…,21)为具体指标层中第i个评价指标的值,Pi(i=1,2,3,…,21)为第i个指标正规化后的值,0≤Pi≤1,Xs,i(Xs,i=Xmax-Xmin),为第i个评价指标的标准值,Xmax为最大值,Xmin为最小值。(1)对于越高越好的`指标①Xi≥Xmax,则Pi=1;②Xi≤Xmin,则Pi=0;③Xmin

三、聚类分析

1、聚类步骤(Stage).从1~3表示聚类的先后顺序。

2、个案合并(ClusterCombined)。表示在某步中合并的个案,如第一步中个案1叶县田庄盐矿段和个案2叶县马庄盐矿段合并,合并以后用第一项的个案号表示生成的新类。

3、相似系数(Coefficients).据聚类分析的基本原理,个案之间亲密程度最高即相似系数最接近于1的,最先合并。因此该列中的系数与第一列的聚类步骤相对应,系数值从小到大排列。

4、新类首次出现的步骤(StageClusterFirstAppears)。对应于各聚类步骤参与合并的两项中,如果有一个是新生成的类(即由两个或两个以上个案合并成的类),则在对应列中显示出该新类在哪一步第一次生成。如第三步中该栏第一列显示值为1,表示进行合并的两项中第一项是在第一步第一次生成的新类。如果值为O,则表示对应项还是个案(不是新类)。

5、新类下次出现步骤(NextStage)。表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值是11,表示第一步聚类生成的新类将在第11步与其他个案或新类合并。

6、解析图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚类树状图(方法:组间平均连接法)图清晰的显示了聚类的全过程。他将实际距离按比例调整到0~25之间,用逐级连线的方式连接性质相近的个案或新类,直至并未一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将与水平连线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的个案聚成一类。例如,选标尺值为5,则聚为3类:叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段为一类,叶县姚寨盐矿为一类。若选标尺值为10,则聚为2类:叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。

四、结论

对平顶山市5个盐矿区进行经济区划分,究竟划分为几个区合适,既不是越多越好,也不是越少越好。划分经济区的目的,就是要根据各盐矿经济区资源特点、勘察、开发的不同,分类指导经济活动,使人们的经济活动更加符合当地的实际,使各经济区能充分发挥各自的优势,做到扬长避短,趋利避害,达到投人少、产出多,创造良好的经济效益和社会效益之目的。分区太多,就失去了分区的意义,分区太少,则分类指导很难做到有的放矢。综合以上聚类分析结果,我们可以得出三个方案。其中两个方案比较合适,可供选择。方案一:(当比例尺为5时,分为3类)叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段为一类,叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案一。方案二:(当比例尺为10时,分为2类)叶县田庄盐段、叶县马庄盐矿段为一类,叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案二。平顶山市盐矿区分类图方案2聚类分析的原理就是将矿石质量、资源储量、勘查阶段、利用状况相近或相类似的矿区聚合在一起,其分析结果也是直观易见的。在此结合平顶山市实际行政区划以及矿山企业特征我们对铁矿区划分做一个调整使其理论与实际能够结合的更紧密使其更好的指导实践。

1、叶县田庄盐段、叶县马庄盐矿段为一类,这一类属于矿床规模相当,资源储量接近,勘查开发阶段接近,利用程度相当,故,可以分为一类。

2、叶县娄庄盐矿、叶县五里堡盐矿段为一类,这一类属于勘查开发阶段处于同一阶段。

3、叶县姚寨盐矿为一类,这一类属于储量较高,盐矿品位较高,故其勘察开采规划有别于其它两类。总的说来,运用聚类分析是基本成功的,大部分的分类是符合实际的。综合以上论述盐矿区划分如下表所示:当然聚类分析有其优点也有其缺点:(1)优点:聚类分析模型的优点就是直观,结论形式简明。(2)缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试问内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。

聚类分析外文文献毕业论文

基于聚类分析的广西区域经济发展状况研究的论文

【摘要】:本文以广西壮族自治区14个地级市作为研究对象,从地区生产总值、社会消费品零售总额、全社会固定资产投资、公共财政预算收支总额等方面,选取11个具体指标,运用聚类分析方法分析并评价各地级市经济发展状况。研究结果显示,广西14个地级市可划分为四类经济区域,不同城市之间的经济发展水平存在较大差异。在此基础上,从加强各地级市之间的经济合作、积极推动开放型经济发展、强化科技创新以推动产业结构优化升级等方面提出具体建议,为促进广西区域经济的全面发展提供参考。

【关键词】:聚类分析;广西;经济发展;政策建议

一、引言

近年来,随着中国—东盟自由贸易区的建成,中国与东盟各国贸易投资增长,经济融合加深,经贸往来愈加频繁。广西作为中国—东盟自由贸易区的门户省份,加之“一带一路”战略的提出与实施,良好的区位优势和资源环境承载能力,无疑将会为推动广西区域经济的腾飞提供持续的动力和良好的机遇,发展前景十分广阔。但由于历史的原因,加上人口、社会和基础设施等因素的影响,广西的经济发展水平和人均地区生产总值在内陆31个省、市、自治区中仍处于中下水平,与上述提到拥有的区位优势、经济优势是极不相称的。广西下辖的14个地级市经济发展程度和产业结构也存在一定的差异。一直以来,区域经济发展问题都是区域经济学、经济地理学等学科关注和研究的对象,区域经济发展中出现差距,是各国经济发展中存在的普遍现象[1]。如何就广西下辖的14个地级市进行经济发展程度的分析和分类,对于正确认识广西各地级市经济发展所处的发展阶段,制定正确的宏观政策,以促进各地区的良好协调发展具有重要的理论和现实意义。

二、研究区域概况

广西壮族自治区,简称“桂”,首府南宁,位于中国华南地区西部,与广东、湖南等省份接壤,南濒北部湾,面向东南亚,是中国唯一一个沿海自治区,自然条件优越,资源丰富,尤以海洋资源和矿产资源为甚。截至2015年12月,全区辖14个地级市,县级行政区111个,行政区划面积万平方公里。2015年全区总人口为5518万人,地区生产总值亿元,占全国的。人均地区生产总值为39150元。但由于历史的原因,加上人口、社会和基础设施等因素的影响,广西的经济发展水平,无论是地区生产总值还是三大产业结构完善程度等方面,在内陆31个省市中均处于中下水平。区内下辖的14个地级市,经济发展水平和产业结构各异,部分地级市经济发展程度相对滞后。近年来,随着中国—东盟自由贸易区的建成和“一带一路”战略的实施,广西吸引着国内外大量的资本和人力涌入,显现出广阔的发展前景。

三、聚类分析方法研究设计

(一)指标选择及数据来源

区域经济发展状况的研究,依靠单一的指标,是无法对其进行综合、全面的评价与分析的。因此,在对广西区域经济发展水平分析评价的过程中,需要借助多个评价指标,构建合理完善的评价指标体系。本着建立评价指标体系要遵循科学性、系统性、全面性、独立性、可操作性等原则,本文在参考以往文献资料的基础上,根据广西各地级市经济发展状况、人口条件、社会资源等方面的实际情况选取了11个具体指标,分别是:行政区划土地面积(平方公里)、地区生产总值(亿元)、人均地区生产总值(元)、户籍年末总人口(万人)、固定资产投资(亿元,不含农户)、公共财政预算收入(亿元)、公共财政预算支出(亿元)、农民居民人均纯收入(元)、城镇居民人均可支配收入(元)、社会消费品零售总额(亿元)、进出口总额(人民币,万元)。为方便后续各指标数据的处理,分别以X1、X2、X3、X4、X5、X6、X7、X8、X9、X10和X11指代。各指标详细数据均来自《广西统计年鉴2016》和《2015年广西壮族自治区国民经济与社会发展统计公报》。

(二)数据处理

本文利用对反映广西14个地级市经济发展状况的指标进行聚类分析。由上述内容可知,研究所选取的11个指标由于它们原始数据量刚的不同,为防止指标取值的分散程度较大,需对各指标的取值做标准化处理。

各指标数据经过标准化处理后,X2(地区生产总值)与X5(固定资产投资)、X6(公共财政预算收入)、X10(社会消费品零售总额)的相关系数都大于,故而这四个指标不必均作为聚类变量,选择其中一个即可,本文选择X2(地区生产总值)。接着,运用不同的聚类方法进行聚类分析。

(三)结果分析

本文利用对广西14个地级市经济发展状况进行聚类分析,在对选定的11个聚类变量的数据经过标准化处理后,依据结果聚类个数的不同,而相继运用系统聚类和K—均值聚类法进行聚类分析,并得出结果。参考以往文献资料对广西14个地级市经济发展状况的分类,以及广西各地区实际的经济、社会和人口状况,本文认为对广西14个地级市经济发展水平的分类,聚类个数分为四类比较适宜。对于广西14个地级市经济发展水平的分类应为:南宁、北海、钦州为第一类;柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类;防城港为第三类;崇左为第四类。

由聚类分析结果可知,南宁、北海、钦州为第一类,这三个地级市经济相对发达。南宁是广西的首府,全区的政治、经济、文化、金融和信息中心,经济发展程度高,产业结构相对完整,良好的区位优势、众多的政策支持以及坚实的经济发展基础,使得南宁在多方面的发展都领跑于广西区的其他地级市。北海是全国14个沿海开放城市之一,处于泛北湾经济合作区域结合部的中心位置,便捷、高效的交通设施,众多经济圈的发展福利,以及丰富的海洋资源、繁荣的旅游业,都推动着北海经济社会的快速发展。钦州,南海之滨,北部湾经济区南的中心位置,是大西南最便捷的出海通道,依托于得天独厚的港口优势,大力发展进出口贸易。

柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类,这9个地级市经济发展水平较高,三大产业结构相对完善,各自依托于自身的经济发展优势,经济发展增速较快。

防城港和崇左分别是第三和第四类。防城港是中国的深水良港,是中国25个沿海主要港口之一,对外贸易额较高,在中国—东盟自由贸易区、泛北部湾区域合作中具有特殊重要的战略地位。崇左位于广西西南部,地理位置相对较差,工业基础薄弱,交通设施落后,虽然资源丰富,但限于人力资源的短板,是广西经济发展较为落后的地级市。

四、结论及政策建议

本文利用对广西14个地级市经济发展状况进行聚类分析,将广西14个地级市经济发展水平分为四类,分别是南宁、北海、钦州为第一类;柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类;防城港为第三类;崇左为第四类。从聚类分析的结果来看,就如何促进广西区域经济的快速、协调发展,可从以下几个方面着手:

(一)加强各地级市之间的经济合作,增强较发达地区的经济辐射力度

广西各地区经济发展水平差异显著,各自依托的经济发展要素也不尽相同,例如人力资本、环境资源、基础设施完善程度和地理位置等就相差较大。因此,各地区根据自身的条件优势,因地制宜地制定经济发展策略,就显得尤为重要。因地制宜地制定经济发展策略的同时,加强各地级市之间的经济合作,实现资源、信息的共享互通,人力、资金的自由流通,各自取长补短,将为促进各地区的快速、协调发展发挥重要作用。以南宁、桂林和柳州为主的老牌较发达地区,拥有较发达的工业基础、第三产业和相对完善的基础设施,在立足自身优势发展,加强与各地级市之间的经济合作中,要发挥好领头羊的作用,率先做出垂范,积极探索出可供借鉴的合作模式,增强对周边地级市的经济辐射力度,以少带多,以强扶弱,真正促进广西经济发展迈上新台阶。

(二)依托良好的区位优势和叠加的'政策优势,积极推动开放型经济发展

随着经济全球化和区域经济一体化的发展,我国经济和世界经济发展的融合在不断加深,积极推动外向型经济的发展,成为了我国及各地区经济转型升级的关键所在。2015年3月,国家发改委、外交部和商务部联合发布了《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》,广西借助于自身的区位优势,被纳入国家“一带一路”建设规划,发展开放型经济面临着重大的历史机遇。广西的外向型经济近些年来虽有发展,但整体情况仍不容乐观,相对薄弱的经济基础制约着开放型经济的发展后劲以及支撑开放型经济发展的高级要素也存在不足[2]。借助于“一带一路”战略实施的机遇和叠加密集的国家开发政策,依托沿海、沿江、沿边的区位优势,借鉴东部沿海典型的开放型经济发展模式,例如上海模式和东莞模式,积极推动广西的外向型经济发展,才能快速、协调地完成广西经济的转型升级。

(三)强化科技创新,加速推动产业结构优化升级

科技创新与产业结构优化升级是长期的协调关系,依托于科技创新能有效推动产业结构优化升级。一般来说,产业结构指的是一二三产业所占的比重,产业结构优化升级有两个含义:一个是产业结构合理化,另一个是产业结构高级化,如果第三产业所占的比重越大,那么可以说它的高级化程度越大[3]。未来一段时间,可以从以下几个方面强化科技创新,加速广西产业结构的转型升级:一是加强科技创新方面的改革,建立完善的科技管理协调机制和信息公开机制,优化科技资源配置机制,以统筹科技创新全方位管理;二是加大对科技创新的财政支持,保证各项用于科技创新的资金行使到位;三是优化科技创新体系,不仅要保证建立完善的科技创新管理机制,更要全面扩大科技创新的主体,落实科技创新成果的投入使用。

(四)完善各地区的基础设施建设,大力发展地区特色经济

广西各地区经济发展水平差异显著,相对发达的地区,例如南宁、柳州和桂林等,除主城经济区外,基础设施建设仍不尽完善。河池、百色、崇左等市地处偏远地区,交通不便,基础设施建设更是落后。良好的交通条件、便利的通讯设施、覆盖全面的水利、电力设施等是居民和企业的共同物质基础,更是物质生产和劳动力再生产的重要条件。因此,各地区应把完善基础设施建设放在重要位置,适当扩大社会固定资产投资总量,积极利用本地区丰富的人文资源,打好“侨牌”,让更多拥有广西籍的海外华人华侨参与到广西的经济建设之中,尽快完善基础设施建设,为经济的快速发展提供良好的基础。同时,各地区应找准自身的发展定位,结合地区优势,大力发展地区特色经济。

参考文献:

[1]孟倩.基于主成分分析和聚类分析的山东省区域经济协调发展研究[J].区域经济,2016(1):138-139

[2]李继宏.“一带一路”建设背景下广西开放型经济发展模式及实现路径[J].广西社会科学,2016(4):14-19

[3]徐晓慧.广西科技创新对产业结构升级的影响[J].合作经济与科技,2016(11):19-21

外文文献有,翻译没有,翻译得靠你自己了,如果需要直接百度私信或者Hi中留言贴出问题的链接地址及邮箱地址即可,希望能满足你的需要,能帮到你,并请及时知道评价,多多给点悬赏分吧,急用的话请多选赏点分吧,这样更多的知友才会及时帮到你,我找到也是很花时间的

童鞋你好!这个估计需要自己搜索了!网上基本很难找到免费给你服务的!我在这里给你点搜索国际上常用的外文数据库:----------------------------------------------------------❶ISI web of knowledge Engineering Village2❷Elsevier SDOL数据库 IEEE/IEE(IEL)❸EBSCOhost RSC英国皇家化学学会❹ACM美国计算机学会 ASCE美国土木工程师学会❺Springer电子期刊 WorldSciNet电子期刊全文库❻Nature周刊 NetLibrary电子图书❼ProQuest学位论文全文数据库❽国道外文专题数据库 CALIS西文期刊目次数据库❾推荐使用ISI web of knowledge Engineering Village2-----------------------------------------------------------中文翻译得自己做了,实在不成就谷歌翻译。弄完之后,自己阅读几遍弄顺了就成啦!学校以及老师都不会看这个东西的!外文翻译不是论文的主要内容!所以,很容易过去的!祝你好运!

  • 索引序列
  • 毕业论文做聚类分析
  • 毕业论文模糊聚类分析
  • 采用聚类分析的毕业论文
  • 聚类分析论文范文
  • 聚类分析外文文献毕业论文
  • 返回顶部