论文聚类分析案例模板

2个回答默认排序

默认排序

按时间排序

魔幻光环

已采纳

聚类分析算法论文

聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。下面是我分享给大家的聚类分析算法论文，欢迎阅读。

一、引言

聚类分析算法是给定m维空间R中的n个向量，把每个向量归属到k个聚类中的某一个，使得每一个向量与其聚类中心的距离最小。聚类可以理解为：类内的相关性尽量大，类间相关性尽量小。聚类问题作为一种无指导的学习问题，目的在于通过把原来的对象集合分成相似的组或簇，来获得某种内在的数据规律。聚类分析的基本思想是：采用多变量的统计值，定量地确定相互之间的亲疏关系，考虑对象多因素的联系和主导作用，按它们亲疏差异程度，归入不同的分类中一元，使分类更具客观实际并能反映事物的内在必然联系。也就是说，聚类分析是把研究对象视作多维空间中的许多点，并合理地分成若干类，因此它是一种根据变量域之间的相似性而逐步归群成类的方法，它能客观地反映这些变量或区域之间的内在组合关系。盐矿区系统是一个多层次、复杂的大系统,涉及诸多模糊、不确定的因素。平顶山市盐矿区的经济分类是以整个平顶山市的所有盐矿区为研究对象,以各盐矿区为基本单元,以经济为中心,以发展战略和合理布局为目标进行经济类型区划。其基本原则是：平顶山市的盐矿区资源开发、利用的相对一致性；自然、经济、社会条件的一致性；保持一定行政地域单元的相对稳定性。现行的平顶山市盐矿区行政划分不能反映出各个盐矿区的共同点,有必要通过模糊聚类分析将那些经济实际状况相似的铁矿区归类，剖析、发现各况矿区的差异,对症下药，为制定发展对策提供依据。

二、建立指标体系

1、确定分类指标进行经济区划分，应考虑的指标因素是多种多样的。既要以岩盐矿资源储量为主，又要适当考虑岩盐质量和勘察阶段和开发利用状况；既要有直接指标，又要有间接指标；既要考虑矿区发展的现状，又要考虑矿区发展的过程和矿区发展的未来方向。参考有关资料，结合专家意见，我们确定了对平顶山市盐矿区进行经济区划分的指标。如表1所示。表中列举了具体指标及各指标的原始数据（数据来源于河南省2006年矿产资源储量简表）。表1盐矿区经济划分指标体系及指标数据注：表中N表示缺失数据，勘察阶段1、2、3分别表示：初步勘探、详细普查、详细勘探，利用状况1~7分别表示：近期不宜进一步工作、可供进一步工作、近期难以利用、推荐近期利用、计划近期利用、基建矿区、开采矿区。

2、转换指标数据由于不同变量之间存在不同量纲由于不同变量之间存在不同量纲、不同数量级，为使各个变量更具有可比性，有必要对数据进行转换。目前进行数据处理的方法大致有三种，即标准化、极差标准化和正规化。为便于更直观的比较各市之间同一指标的数值大小，我们采用了正规化转换方式。其计算公式为:为了方便叙述，做如下设定：设Xi(i=1，2，3，…，21)为具体指标层中第i个评价指标的值，Pi(i=1，2，3，…，21)为第i个指标正规化后的值，0≤Pi≤1，Xs,i(Xs,i=Xmax-Xmin)，为第i个评价指标的标准值，Xmax为最大值，Xmin为最小值。（1）对于越高越好的`指标①Xi≥Xmax，则Pi=1；②Xi≤Xmin，则Pi=0；③Xmin

三、聚类分析

1、聚类步骤(Stage).从1~3表示聚类的先后顺序。

2、个案合并(ClusterCombined)。表示在某步中合并的个案，如第一步中个案1叶县田庄盐矿段和个案2叶县马庄盐矿段合并，合并以后用第一项的个案号表示生成的新类。

3、相似系数(Coefficients).据聚类分析的基本原理，个案之间亲密程度最高即相似系数最接近于1的，最先合并。因此该列中的系数与第一列的聚类步骤相对应，系数值从小到大排列。

4、新类首次出现的步骤(StageClusterFirstAppears)。对应于各聚类步骤参与合并的两项中，如果有一个是新生成的类(即由两个或两个以上个案合并成的类)，则在对应列中显示出该新类在哪一步第一次生成。如第三步中该栏第一列显示值为1，表示进行合并的两项中第一项是在第一步第一次生成的新类。如果值为O，则表示对应项还是个案(不是新类)。

5、新类下次出现步骤(NextStage)。表示对应步骤生成的新类将在第几步与其他个案或新类合并。如第一行的值是11，表示第一步聚类生成的新类将在第11步与其他个案或新类合并。

6、解析图DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombine聚类树状图（方法：组间平均连接法）图清晰的显示了聚类的全过程。他将实际距离按比例调整到0~25之间，用逐级连线的方式连接性质相近的个案或新类，直至并未一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值，然后垂直标尺划线，该垂线将与水平连线相交，则相交的交点数即为分类的类别数，相交水平连线所对应的个案聚成一类。例如，选标尺值为5，则聚为3类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。若选标尺值为10，则聚为2类：叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。

四、结论

对平顶山市5个盐矿区进行经济区划分，究竟划分为几个区合适，既不是越多越好，也不是越少越好。划分经济区的目的，就是要根据各盐矿经济区资源特点、勘察、开发的不同，分类指导经济活动，使人们的经济活动更加符合当地的实际，使各经济区能充分发挥各自的优势，做到扬长避短，趋利避害，达到投人少、产出多，创造良好的经济效益和社会效益之目的。分区太多，就失去了分区的意义，分区太少，则分类指导很难做到有的放矢。综合以上聚类分析结果，我们可以得出三个方案。其中两个方案比较合适,可供选择。方案一：（当比例尺为5时，分为3类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段为一类，叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案一。方案二：(当比例尺为10时，分为2类）叶县田庄盐段、叶县马庄盐矿段为一类，叶县娄庄盐矿、叶县五里堡盐矿段、叶县姚寨盐矿为一类。从聚类分析中看出平顶山市盐矿区分类图方案二。平顶山市盐矿区分类图方案2聚类分析的原理就是将矿石质量、资源储量、勘查阶段、利用状况相近或相类似的矿区聚合在一起，其分析结果也是直观易见的。在此结合平顶山市实际行政区划以及矿山企业特征我们对铁矿区划分做一个调整使其理论与实际能够结合的更紧密使其更好的指导实践。

1、叶县田庄盐段、叶县马庄盐矿段为一类，这一类属于矿床规模相当，资源储量接近，勘查开发阶段接近，利用程度相当，故，可以分为一类。

2、叶县娄庄盐矿、叶县五里堡盐矿段为一类，这一类属于勘查开发阶段处于同一阶段。

3、叶县姚寨盐矿为一类，这一类属于储量较高，盐矿品位较高，故其勘察开采规划有别于其它两类。总的说来，运用聚类分析是基本成功的，大部分的分类是符合实际的。综合以上论述盐矿区划分如下表所示：当然聚类分析有其优点也有其缺点：(1)优点：聚类分析模型的优点就是直观，结论形式简明。(2)缺点：在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试问内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

186 评论 2小时前发布

八零梁行

之前的笔记：聚类介绍：点这里层次聚类分析案例（一）：世界银行样本数据集层次聚类分析案例（二）：亚马逊雨林烧毁情况层次聚类分析案例（三）：基因聚类

食品消费模式是医学和营养学领域关注的一大热点。食物消费与个人的整体健康、食物的营养价值、购买食品的经济性和消费环境有关。这项分析涉及25个欧洲国家肉类和其他食品之间的关系。观察肉类和其他食品的相关性是很有意思的。这些数据包括：红肉、白肉、蛋类、牛奶、鱼类、谷类、淀粉类食品、坚果（包括豆类和油籽）、水果和蔬菜。

准备工作

为了应用k均值聚类，我们使用欧洲25个国家的蛋白质消费量数据集。

第1步：收集和描述数据

该任务使用名为protein的数据集，该数据集以标准格式存储在CSV格式的文件中，其中包含25行数据和10个变量。数据获取路径

数值型变量如下： RedMeat WhiteMeat Eggs Milk Fish Cereals Starch Nuts Fr&Veg 非数值型变量如下： Country 具体实施步骤以下为实现细节。

第2步：探索数据

让我们探索数据并理解变量间的关系。从导入名为Europenaprotein.csv的CSV文件开始，将该数据保存到protein数据框：

head（）函数返回了一个向量、矩阵、表、数据框或函数首或尾的部分。将protein数据框传入head（）函数。

结果如下：

第3步：聚类

开始在三个簇的基础上进行聚类。为了在初始阶段产生随机的簇数量，调用set.seed（）函数。set.seed（）函数能够产生随机数。

kmeans（）函数能够在数据矩阵上执行k均值聚类。protein数据矩阵被当作一个对象传入该函数，该对象必须是数值型矩阵。centers＝3代表初始化簇中心数量。因为簇的数量由一个数字指定，nstart＝10定义了随机被选择的中心数。

结果如下：

接下来，生成簇指派列表。order（）函数返回一个序列，以升序或者降序重新生成它的第一个参数。groupMeat数据框被当作一个数据框对象传入：

调用data.frame（）函数，显示了国家和这些国家所处的簇：

结果如下：

plot（）函数是一个绘制R对象的通用函数。参数类型指明了要被显示的图的种类。xlim参数的意思是参数应该被给定范围的边界，而不是一个范围。xlab和ylab提供了x轴和y轴各自的标题：

结果如下：

第4步：改进模型

接下来，在所有9个蛋白质组上进行聚类，并且7个簇已经被创建了。在散点图上不同颜色的点代表了吃白肉和红肉的国家。地理上临近的国家倾向于分到同一组。

center＝7代表初始的聚类中心数量：

7个不同的聚类形成了。25个国家都一一被分配到了某一个簇中。

结果如下：

clustplot（）函数创造了一个二变量的图，其中可以看到数据的可视化划分。所有观测值使用主成分以点的方式表示。在每个簇周围绘制椭圆形。protein数据框被当作对象传入：

结果如下：

另一个层次化形式展现的方法如下。这里使用agnes（）函数。通过设置diss＝FALSE，不相似度矩阵被用来计算原始数据。metric="euclidean"表明使用欧氏距离进行计算：

结果如下：

plot()画出图形：按回车可查看下一章图，共两张图。

结果如下：

cutree（）函数切割树到几个组中，通过设定期望的组数量或者切割的高度来进行划分：

结果如下：

356 评论 7小时前发布

论文聚类分析案例模板

2个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序