关于我国电子商务企业的数据分析方法的探讨
发布时间:2015-07-07 09:49
为了验证所提炼的因子影响程度及重要程度、检验问卷结构效度和后续回归分析的需要,本文首先对调查数据进行了因子分析,剔除不符合要求的题目,最终得到问卷;然后,使用spss软件对问卷调查数据进行信度、效度、描述性统计、方差和相关分析;最后,建立回归方程模型对假设进行检验。
1因子分析模型及其统计检验
因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。因子分析的目的即在找出量表潜在的结构,减少题目的数目,使之成为一组数量较少而彼此相关较大的变量。在本文中以主成分因素抽取法抽取共同因素,根据kaiesr(1960)的观点选取特征值大于1.0以上的共同因素,再以最大变异法进行共同因素正交旋转处理,保留共同度大于0.6以及因素负荷量大于0.5以上的题目。因素负荷量为写作硕士论文因素结构中原始变量与抽取出共同因素相关,负荷量越高表示该题目在该共同因素的重要性越大。共同度和特征值是因子分析的两个重要指标。共同度是每个变量在每个共同因子的负荷量的平方和,也就是个别变量可以被共同因子解释的变异量百分比,是个别变量与共同因子间多元相关的平方。特征值是每个变量在某一共同因子的因子负荷量的平方总和。
因子分析的数学模型及其统计检验描述如下:
彼此之间是独立的,则模型(4.1)称为正交因子模型;相反,如果公共因子彼此之间有一定相关性,则称为斜交因子模型。由于斜交因子模型比较复杂,在本文中只考虑正交因子模型,而且假定各公共因子的均值为0,方差为1。
模型中的矩阵a称为因子载荷矩阵,a称为因子“载荷”,是第i个变量在第j个因子上的负荷。因子载荷阵的求解方法有很多,本文用常用的主成分分析法,求解载荷阵得到仅包含m个因子的因子载荷阵。主要问题就在于如何通过spss统计软件对数据的分析来估计因子载荷矩阵a,负荷量大的指标给予保留,否则剔除。保留下来的指标所构成的体系就是本文最终研究得到的指标体系。关于因子载荷的检验有:模型的标准化,这主要是为了得到抽象的因子含义,即对因子各维度进行命名;变量共同度检验,变量的共同度越高,说明该因子分析模型的解释能力越高;因子的方差贡献检验,用因子的累计方差贡献率来确定公共因子提取的个数,也就是寻找一个使得累计方差贡献率达到较大百分比的自然数,即最终提取方差贡献大于1的因子作为公共因子。
由于本文的论题是电子商务环境下服务业企业绩效评价指标体系构建,本文主要运用平衡计分卡把评价指标体系分为四个方面,18个二级指标作为18个因子,按照因子分析法来选取有效指标,各项指标在选取时,需要遵循两个原则,一是该指标在以前的研究中出现的概率,二是指标与所要研究的问题的潜在相关性。本文在四个方面的指标的选取上,另外考虑了①全面性,要求所选的指标能反映企业的经营、客户、企业学习与成长、财务方面的状况;②有效性,要求选择那些能够对预测企业的整体状况有指示作用的重要指标;如,若各项指标的双尾t检验的显著性概率小于0.05,则能有效的反映企业的四个方面的状况,反之,则是无效指标,应剔除。③同趋势性,即当各项指标增大时,表示企业的整体状况改善,反之当各项指标减少时,表示企业的整体状况恶化;④可操作性,采用易得到的数据。
2信度、效度、描述性统计、方差和相关分析方法
信度分析是采用一定的方法来衡量回收问卷中各变量的内部一致性,它主要考查的是问卷测量的可靠性,检验每一个因素中各个题目测量相同或相似的特性。本文采用克隆巴赫(cronbacha)一致性系数检验量表的信度和各分量表的信度。效度分析是采用一定的方法对问卷的理论构思效度进行验证。首先,必须对题目的结构、测量的总体安排以及题目见的关系做出说明,然后运用一定的方法从数据中得出基本构思,以此来对测量构思的效度进行分析。用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因素对量表或问卷的累积有效程度,共同度反映由公因素解释原变量的有效程度,因子负荷反映原变量与某个公因素的相关度。描述性统计分析是对各维度中的测量题目的均值、标准差、方差等描述性统计量写作硕士论文进行统计,了解各维度中题目设置的水平。方差分析又称变异数分析或f检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否具有统计学意义。
方差分析对客观事物数量进行依存关系的分析,主要刻画两类变量间线性相关的密切程度,其两个变量全是随机变量,且处于平等地位。两变量之间的相关关系可以通过绘制散点图或计算相关系数来反映。
现实世界中,一个事物的运动变化,总是与其他事物相关联。其中,有的还存在因果关系,这种因果关系有的是线性的,有的是非线性的。当预测对象与其影响因素的关系是线性的,且只有一个影响因素时,就可以用一元线性回归方法建立其一元线性回归预测模型,来表述和分析其因果关系;当有两个或多个影响因素同时作用于一个预测对象时,则用多元线性回归法建立多元线性回归预测模型。
本文就是以多对一的关系,因此,用多元线性回归模型进行统计检验。对于多元线性回归模型及其统计检验描述如下:
当预测对象y同时受到多个解释变量x1,x2,...,xm影响,且各个xj(j=1,2,...,m)与y都近似地表现为线性相关时,则可建立多元线性回归模型来进行预测和分析,模型为:
3)回归方程整体显著性检验
回归模型的显著性检验包括两个方面,即回归方程的显著性检验和回归系数的显著
性检验。
(1)回归方程的显著性检验
回归方程的显著性检验用于检验被解释变量与所有解释变量之间的线性关系是否显著。回归模型总体函数的线性关系是否显著,其实质就是判断回归平方和与残差平方和之比值的大小问题,可以通过方差分析的思想,构造f统计量来进行检验,f检验是用来检验多元线性回归模型的总体效果。
(2)回归系数显著性检验
回归方程总体显著并不意味着每个解释变量对被解释变量的影响都是重要的,还需要对每个回归系数的显著性进行检验。回归系数显著性检验通过构造t统计量来进行,
4)残差正态性检验
残差e是随机扰动项ε的体现。对残差进行分析的目的是检验随机扰动项是否服从经典假设。残差分析的内容包括残差正态性检验、序列相关检验、异方差检验等。本文应用残差的累计概率散点图进行残差正态性检验。
5)异方差检验
异方差常常表现为残差随某个解释变量取值的变化而变化,因此,检验随机扰动项是否存在异方差可以通过绘制被解释变量与解释变量的散点图来简单的判断。如果散点图呈带状分布,则不存在异方差;如果随着解释变量的增大,被解释变量波动逐渐增大或减少,则很可能存在异方差的现象。实践中,常常使用加权最小二乘法消除异方差。
7)多重共线性检验
所谓多重共线性是指各个解释变量之间存在线性关系或接近线性关系的现象。多重共线性常常会导致回归系数方差增大,从而使得t检验难以通过。用spss检验多重共线性共有四种方法:容忍度、方差膨胀因子、条件指数和方差比例。本文选用条件指数和比例方差这两种方法来检验共线性。
(2)方差比例
通过对解释变量协差阵进行矩阵分解,协差阵的每个特征根可以解释各个解释变量方差的一部分。若对于几个不同的解释变量,某个特征根能够解释的方差比例都很高(一般认为都超过50%),则可以认为这几个解释变量之间存在较强的共线性。
需要注意的是,多元线性回归模型的构建中,可能会遇到多重共线性的问题。如果变量完全相关,则(x tx)?1不存在,最小二乘法失效。应用最小二乘法估计回归系数的一个重要条件就是自变量之间为不完全的线性相关。如果这种相关程度较低,其影响可以忽略;担任若高度相关时,则回归系数无效或无意义,因而所建模型无效或无意义。这时应该选择其他新的自变量以替代相关的变量或采用其他方法来建立模型。在本文中就是采用其他新的自变量,从模型中剔除不显著的变量,在这里剔除的是意义相对次要的变量。
1因子分析模型及其统计检验
因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。因子分析的目的即在找出量表潜在的结构,减少题目的数目,使之成为一组数量较少而彼此相关较大的变量。在本文中以主成分因素抽取法抽取共同因素,根据kaiesr(1960)的观点选取特征值大于1.0以上的共同因素,再以最大变异法进行共同因素正交旋转处理,保留共同度大于0.6以及因素负荷量大于0.5以上的题目。因素负荷量为写作硕士论文因素结构中原始变量与抽取出共同因素相关,负荷量越高表示该题目在该共同因素的重要性越大。共同度和特征值是因子分析的两个重要指标。共同度是每个变量在每个共同因子的负荷量的平方和,也就是个别变量可以被共同因子解释的变异量百分比,是个别变量与共同因子间多元相关的平方。特征值是每个变量在某一共同因子的因子负荷量的平方总和。
因子分析的数学模型及其统计检验描述如下:
彼此之间是独立的,则模型(4.1)称为正交因子模型;相反,如果公共因子彼此之间有一定相关性,则称为斜交因子模型。由于斜交因子模型比较复杂,在本文中只考虑正交因子模型,而且假定各公共因子的均值为0,方差为1。
模型中的矩阵a称为因子载荷矩阵,a称为因子“载荷”,是第i个变量在第j个因子上的负荷。因子载荷阵的求解方法有很多,本文用常用的主成分分析法,求解载荷阵得到仅包含m个因子的因子载荷阵。主要问题就在于如何通过spss统计软件对数据的分析来估计因子载荷矩阵a,负荷量大的指标给予保留,否则剔除。保留下来的指标所构成的体系就是本文最终研究得到的指标体系。关于因子载荷的检验有:模型的标准化,这主要是为了得到抽象的因子含义,即对因子各维度进行命名;变量共同度检验,变量的共同度越高,说明该因子分析模型的解释能力越高;因子的方差贡献检验,用因子的累计方差贡献率来确定公共因子提取的个数,也就是寻找一个使得累计方差贡献率达到较大百分比的自然数,即最终提取方差贡献大于1的因子作为公共因子。
由于本文的论题是电子商务环境下服务业企业绩效评价指标体系构建,本文主要运用平衡计分卡把评价指标体系分为四个方面,18个二级指标作为18个因子,按照因子分析法来选取有效指标,各项指标在选取时,需要遵循两个原则,一是该指标在以前的研究中出现的概率,二是指标与所要研究的问题的潜在相关性。本文在四个方面的指标的选取上,另外考虑了①全面性,要求所选的指标能反映企业的经营、客户、企业学习与成长、财务方面的状况;②有效性,要求选择那些能够对预测企业的整体状况有指示作用的重要指标;如,若各项指标的双尾t检验的显著性概率小于0.05,则能有效的反映企业的四个方面的状况,反之,则是无效指标,应剔除。③同趋势性,即当各项指标增大时,表示企业的整体状况改善,反之当各项指标减少时,表示企业的整体状况恶化;④可操作性,采用易得到的数据。
2信度、效度、描述性统计、方差和相关分析方法
信度分析是采用一定的方法来衡量回收问卷中各变量的内部一致性,它主要考查的是问卷测量的可靠性,检验每一个因素中各个题目测量相同或相似的特性。本文采用克隆巴赫(cronbacha)一致性系数检验量表的信度和各分量表的信度。效度分析是采用一定的方法对问卷的理论构思效度进行验证。首先,必须对题目的结构、测量的总体安排以及题目见的关系做出说明,然后运用一定的方法从数据中得出基本构思,以此来对测量构思的效度进行分析。用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因素对量表或问卷的累积有效程度,共同度反映由公因素解释原变量的有效程度,因子负荷反映原变量与某个公因素的相关度。描述性统计分析是对各维度中的测量题目的均值、标准差、方差等描述性统计量写作硕士论文进行统计,了解各维度中题目设置的水平。方差分析又称变异数分析或f检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否具有统计学意义。
方差分析对客观事物数量进行依存关系的分析,主要刻画两类变量间线性相关的密切程度,其两个变量全是随机变量,且处于平等地位。两变量之间的相关关系可以通过绘制散点图或计算相关系数来反映。
3回归模型及其统计检验
现实世界中,一个事物的运动变化,总是与其他事物相关联。其中,有的还存在因果关系,这种因果关系有的是线性的,有的是非线性的。当预测对象与其影响因素的关系是线性的,且只有一个影响因素时,就可以用一元线性回归方法建立其一元线性回归预测模型,来表述和分析其因果关系;当有两个或多个影响因素同时作用于一个预测对象时,则用多元线性回归法建立多元线性回归预测模型。
本文就是以多对一的关系,因此,用多元线性回归模型进行统计检验。对于多元线性回归模型及其统计检验描述如下:
当预测对象y同时受到多个解释变量x1,x2,...,xm影响,且各个xj(j=1,2,...,m)与y都近似地表现为线性相关时,则可建立多元线性回归模型来进行预测和分析,模型为:
3)回归方程整体显著性检验
回归模型的显著性检验包括两个方面,即回归方程的显著性检验和回归系数的显著
性检验。
(1)回归方程的显著性检验
回归方程的显著性检验用于检验被解释变量与所有解释变量之间的线性关系是否显著。回归模型总体函数的线性关系是否显著,其实质就是判断回归平方和与残差平方和之比值的大小问题,可以通过方差分析的思想,构造f统计量来进行检验,f检验是用来检验多元线性回归模型的总体效果。
(2)回归系数显著性检验
回归方程总体显著并不意味着每个解释变量对被解释变量的影响都是重要的,还需要对每个回归系数的显著性进行检验。回归系数显著性检验通过构造t统计量来进行,
4)残差正态性检验
残差e是随机扰动项ε的体现。对残差进行分析的目的是检验随机扰动项是否服从经典假设。残差分析的内容包括残差正态性检验、序列相关检验、异方差检验等。本文应用残差的累计概率散点图进行残差正态性检验。
5)异方差检验
异方差常常表现为残差随某个解释变量取值的变化而变化,因此,检验随机扰动项是否存在异方差可以通过绘制被解释变量与解释变量的散点图来简单的判断。如果散点图呈带状分布,则不存在异方差;如果随着解释变量的增大,被解释变量波动逐渐增大或减少,则很可能存在异方差的现象。实践中,常常使用加权最小二乘法消除异方差。
7)多重共线性检验
所谓多重共线性是指各个解释变量之间存在线性关系或接近线性关系的现象。多重共线性常常会导致回归系数方差增大,从而使得t检验难以通过。用spss检验多重共线性共有四种方法:容忍度、方差膨胀因子、条件指数和方差比例。本文选用条件指数和比例方差这两种方法来检验共线性。
(2)方差比例
通过对解释变量协差阵进行矩阵分解,协差阵的每个特征根可以解释各个解释变量方差的一部分。若对于几个不同的解释变量,某个特征根能够解释的方差比例都很高(一般认为都超过50%),则可以认为这几个解释变量之间存在较强的共线性。
需要注意的是,多元线性回归模型的构建中,可能会遇到多重共线性的问题。如果变量完全相关,则(x tx)?1不存在,最小二乘法失效。应用最小二乘法估计回归系数的一个重要条件就是自变量之间为不完全的线性相关。如果这种相关程度较低,其影响可以忽略;担任若高度相关时,则回归系数无效或无意义,因而所建模型无效或无意义。这时应该选择其他新的自变量以替代相关的变量或采用其他方法来建立模型。在本文中就是采用其他新的自变量,从模型中剔除不显著的变量,在这里剔除的是意义相对次要的变量。
下一篇:论电子商务对常设机构原则的挑战