分类变量的相关性研究应用论文

4个回答默认排序

默认排序

按时间排序

吾是土豆泥

已采纳

1.相关性分析相关分析是指变量之间存在着非严格的依存关系。也就是说，当一个变量或几个变量取定一个数值时，另一个对应变量的数值是不确定的，但是，该变量的数值却是随着前述变量的所取数值而发生一定的变化规律。如果变量之间存在一种相关关系，可能的情形有以下三种：（1）变量之间存在因果关系；（2）变量之间存在着相互依存的关系，这时就很难确定孰因孰果；（3）变量之间存在虚假的依存关系，这时候的变量间仅仅是从数字上来看有关系。比如某人将某地区一段时间内的植物生长速度与市场上水果的销售数量做相关性分析，发现他们之间是负相关，也即是市场上的水果销售数量越多，植物的生长速度越慢。这就是典型的伪相关分析。因此，在做相关性分析之间，我们必要联系实务、科学理论等方面来分析，不能简单的从数字上来探讨变量间的相关性关系。脱离了现实中实际情况的数据分析，都是伪分析！2.相关分析种类划分方式笔者认为主要有两种：函数关系和统计关系。统计关系：企业竞争力=F(企业规模、利润增长、营收增长、议价能力……)；而统计关系按照相关性的形态来说，可以分为线性和非线性。直接上图，一目了然：而对于其中的线性与非线性的关系，见下图所示：3.相关分析的解释（1）含义：简单相关分析：就是直接计算两变量之间的相关程度；偏相关分析：排除了某个因素后，两变量之间的相关程度；距离相关分析：通过两变量之间的距离来评估其相似性，在现实中很少用到。上图：（2）度量简单的相关分析，主要有三种相关系数：pearson系数、spearman相关系数、kendall系数。在统计上，我们最常用的是pearson系数，其计算公式为：相关系数的取值范围：[-1,1]。大于0，表示正相关；小于0，表示负相关；等于0，表示不相关。总之，数值越接近0，表示变量之间的相关性越弱。4.相关分析探索：图形探讨、统计显著性（1）图形探讨：折线图和散点图折线图对于数据不复杂的两变量之间的相关关系，可以直接先画一个简单的折线图看一下，一目了然。如下图：很明显能够看出来，x1与x2之间的相关性关系很弱。散点图还是上一组数据，可以得出如下散点图：从图中可以明显的看出，该组数据的点与趋势线基本没在一条线上或在这条线的附近，说明相关性弱；另选一组数据来画散点图和折线图，变量之间的相关性关系就非常明显了：散点图折线图（2）统计显著性检验步骤：①提出原假设：两变量之间无显著线性关系；②构造一个t统计量：变量x与y服从正态分布时，该t统计量服从自由度（n-2）的t分布；③计算统计量t，并查询t分布对应的概率p值；

195 评论 2小时前发布

小托0207

判断两个或多个变量之间的统计学关联；

如果存在关联，进一步分析关联强度和方向

定类变量：

无序的：性别(男、女)、血型(A、B、O、AB);

有序的：肥胖等级(重度肥胖，中度肥胖、轻度肥胖、不肥胖)

1 相关分析

对定量变量两两之间的相关程度进行分析，例如人的身高和体重之间；空气中的相对湿度与降雨量之间的相关关系

类型：

Pearson相关系数（适用于定量数据，且数据满足正态分布）

Spearman相关系数（数据不满足正态分布时使用）

Kendall's tau -b相关系数（有序定类变量）

案例：研究人的身高和体重之间的关系

196 评论 3小时前发布

阳光77770906

5.2 基本描述分析基本描述分析是数据分析的基础，通常对数值型变量进行描述分析，涉及数据的集中趋势和离散程度。描述集中趋势的描述性统计量一般有均值、中位数和众数；描述离散程度的描述性统计量一般有方差、标准差和极差。5.2.1 计算基本描述统计量在流中添加“Statistics”节点，打开设置面板。在“检查”中用户可以选择要进行统计的变量如下；然后在“统计量”中可以选择可统计的描述性统计量有哪些；在“相关”中可以设置与哪些变量进行简单相关分析（即求得Pearson简单相关系数）。Clementine数据基本分析（一）在“相关设置”中可以设置相关分析的一些参数如下。Clementine数据基本分析（一）下图为得到的相关分析及其它描述性统计分析的结果：Clementine数据基本分析（一）还可以生成符合要求的Filter。在Generate工具中，可以根据需要设置一定的相关性条件，然后生成Filter，这个功能很重要。5.2.2 绘制散点图除了进行描述性统计分析外，还可以生成散点图查看数据间的要关性，添加节点“Plot”并打开设置面板。“X字段”中选择X轴变量；“Y字段”中选择Y轴变量。Overlay为交叠字段，你可以在Color、Size或Shape中选择Overlay字段即流失字段，从而在散点图中实现相应效果。“面板”表示可以绘制多个不同散点图反映Overlay变量；“动画”表示以动画方式显示多张散点图。交叠字段类型选项：无：表示不拟合回归直线；平滑器（Smoother）：表示采用LOESS（Locally weighted iterative robust least squares regression)方法，拟合样本数据的回归线并显示；函数（Function）：表示自德输入一个回归议程，回归线也显示。Clementine数据基本分析（一）结果如下：Clementine数据基本分析（一）5.4 两分类变量相关性的研究两分类变量的相关性研究在实践中有广泛应用。做DataMining，对数据的类型应该极为敏感，几乎任何的统计分析或者数据挖掘，都要涉及这样一个问题：是分类型变量还是数值型变量。同理，前面我们使用相关和回归两个思维来对数值型变量的相关性进行了探讨，其中涉及到许多描述性统计量，既有描述数据集中趋势的，也有描述数据离散程度的。也涉及到散点图等图形。下面，我们将涉足分类变量。分类变量中最有名的分析，莫过于列联分析，但我们一开始并不介绍它。一般分析分为图形分析和数值分析，不止于两分类变量5.4.1两分类变量相关性的图形分析一、条形图将“Distribution”节点添加到流上。Distribution提供了两种输入字段的途径。“选定字段”选中，我们可以自定义哪些分类型字段可以进入；“所有标志”选中，则前面“Type”节点中的所有分类型字段都会进入分析。这里我们自定义“套餐类型”为我们的描述字段，然后在交叠字段中设置为“流失”。一般情况下，目标变量恒为交叠字段。”按“比例尺”表示将把频数最多的取值对应的条设置为最长，然后其它的条都会按比例设置，这样能更加清晰地看到不同取值的频数的差异；“按颜色标准化”，选中表示所有的条形都会被设置为相同长度，然后不同颜色比例表示目标变量取值不同时的情况，但“按颜色标准化”后，我们就不能比较不同取值下频数的差异了。Clementine数据基本分析（一）Clementine数据基本分析（一）二、Web图Web图的力量在沈浩老师挖挖双色球案例中得到充分的体现。Web图为我们提供了两种分类比较模型，一是计算两两分类变量间的相关性，一是计算多个分类变量对一个分类变量的相关性。将“Web”节点添加到流上，打开设置面板。网络：选中表示系统将计算两两分类变量间的相关性，在下面会让用户自定义进行两两分析的字段；导向网络：选中表示系统将计算多个分类变量对一个分类变量的相关性，选中后会让用户自定义分析变量和目标变量；仅显示真值标志：选中表示仅显示“流失”取值为“Yes”的网络，我们往往不进行这样的选择；得到如下的结果图。在结果图中，系统在标尺上有默认的两个边界，如图中为44和250，则表示Web图中最细线表示有频数44个，最粗线表示含频数250个。得到的Web图取值呈上下结构，其中下面的“Yes”和“No”是流失的两个取值，而上面的四个点是套餐类型的四个取值。其中，线条粗细程度代表着相关性程度。Clementine数据基本分析（一）Clementine数据基本分析（一）5.4.2两分类变量相关性的数值分析一、计算两分类变量的列联表以上我们通过两种图——Web图和条形图——对两分类变量的相关性进行了图形分析，除此之外，我们还可以对其进行数值分析。数值分析指的就是列联分析及相应的卡方分析。这里，我们使用的两分类变量仍然来自于电信客户数据的两个字段：套餐类型与客户是否流失。将Output卡中的“Matrix”节点添加到流中，打开设置面板。Matrix为我们提供了几种选择字段的方式。Slected：选中表示自定义列联表的行变量和列变量。我们在Rows中选择“套餐类型”，在Columns中选择“流失”。All Flags：选中表示将对所有Flag型变量进行列联表分析，生成多个列联表。Include Missing Values：选中表示即使取值为缺失值，也被列入相关的频数内。列联表分析的是多个分类变量间的相关性，统计的就自然是频数了。如果想把含缺失值的样本剔除出去，也可以通过Data Audit节点进行相关操作。Cell Contents：Table-tabulations表示列联表各单元格（Cell）中统计的是样本的频数，一般的列联表都是进行频数统计；Function表示列联表各单元格为指定变量的分类描述统计量，应该地Field中指定相关变量，描述统计量也可以自定义选择。打开Appearance面板，我们简要介绍一下其中的功能设置。Highlight top：表示频数最高的若干项数据以红字显示，具体的数额可以在后面设置；Highlight bottom：表示频数最低的若干项数据以显示，具体的数额可以在后面设置；Cross-tabulation cell contents:Counts：表示显示观测频数；Excepted Values：表示显示期望频数；Residuals：表示显示残差；Percentage Of row:表示计算行百分比；Percentage of column：表示计算列百分比；Percentage Of Total：表示计算总百分比。注意这三个百分比的不同表示及不同意义。Clementine数据基本分析（一）Clementine数据基本分析（一）二、行列变量的相关性分析通过对以上数据的分析，我们知道套餐类型与客户流失具有关联性，那么，这种关联性是此数据的偶然结果呢，还是总体即有这种关联性呢？从统计学上讲，这种分类变量间的关联性，是由于样本抽取过程中的随机误差导致的呢，还是系统本身固有的属性呢？为此，我们需要对此关联性做检验，这就涉及到我们要提到的卡方检验。卡方检验是统计学中经典假设检验的组成部分，由统计学之父卡尔·皮尔逊发明，被称为20世纪最有革命性的十大发明之一。卡方检验分四步：1、提出零假设：这里的零假设是行变量与列变量独立。2、选择和计算检验统计量，即Pearson卡方统计量，其数学公式这里不再提起。有关卡方检验的问题，我们会在后面的统计部分详细展开，我们在这里需要提一下，卡方公式中涉及到列联表的行数和列数，频数的观测值和期望值。那么，什么是期望频数（Expected Count）呢？期望频数指的是行列变量互相不相关的情况下的频数的均匀分布。求期望频数的方法非常简单，我们也将在后面有关统计学的部分中详细提到，此处略去不计。卡方统计量的大小与两个因素有关。一题名联表的单元格子数；二是观测频数与期望频数间的总差值。当列联表确定的时候，列联表的格子数亦确定，此时卡方统计量只与预测频数与期望频数间的总差值有关。当预测频数与期望频数总差值越大时，卡方统计量越大，表明行列变量的相关性越强；当预测频数与期望频数总差值越小时，卡方统计量越小，表明行列变量的相关性越弱。那么，如果进一步描述此卡方统计量的意义呢？卡方统计量近似服从卡方分布，故我们决定用一定的自由度和一定的显著性水平来框定卡方统计量的阈值。第三步，确定显著性水平和临界值显著性水平一般取0.05或0.01；卡方统计量服从（行数-1）*（列数-1）个自由度的卡方分布。因此，在行列数目和显著性水平确定的情况下，卡方临界值是可唯一确定的。第四步，结论和决策这一部分理解起来有些艰难，但对统计学的学生来说相当简单，即可以计算出相应卡方统计量的概率，如果小于显著性水平则拒绝原假设；反之，则不能拒绝原假设。这是非常常用的一种方法，即通过概率的方法。当然你也可以通过临界值的方法来做，即由行列数和显著性水平确定唯一的临界值，然后由软件计算出卡方统计量，比较二者。如果卡方统计量大于临界值，则行列变量有相关性；否则没有相关性。

88 评论 7小时前发布

妮子125940

设置哑变量。通常在回归分析时，如果是二分类变量可以直接当做连续性变量进行回归，而多分类时，则需要设置哑变量，即将每个类别转换成0,1的编码来表示，因此这里我们求相关系数时，也可以采用类似的设置哑变量，只不过是有几个类别就设置几个哑变量，这也相当于将多分类变量变成了多个0、1编码的二分类变量，然后再直接使用相关分析，选择所有的哑变量和连续性因变量进行普通的pearson相关，就可以得出每个分类与因变量的相关系数了。

358 评论 9小时前发布

分类变量的相关性研究应用论文

4个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

4个回答默认排序

默认排序

按时间排序