矩阵分解论文研究方法

3个回答默认排序

默认排序

按时间排序

影子kerry

已采纳

■ 雅可比正交相似变换，适用于实对称矩阵求特征值，且计算结果很准确；当用于非对称矩阵时收敛效果并不好。■ QR正交相似变换，一般认为对任意中小型矩阵都可求特征值，实际上最适合非对称矩阵，计算结果准确。对称矩阵用QR正交相似变换时，收敛效果反而不理想。

86 评论 1小时前发布

吃撑了别跑

为什么要进行矩阵分解？ 1、从矩阵变换的角度：将复合变换后的矩阵分解成基本变换过程。具体请看奇异值分解之矩阵变换角度。 2、从研究动机的角度:

首先要理解基变换（坐标变换）再理解特征值的本质。 1、如果一个矩阵的行列式为0（非满秩），其特征值为0，这个证明比较简单： (单位矩阵有时候用表示，有时候用表示。) 如果，那么，进而 2、对于一个的矩阵，其 ; 3、主对角线上的元素都不为0，其他元素都为0的矩阵叫对角矩阵，对角矩阵一定是正交矩阵，即其基两两垂直。

特征值分解就是矩阵的对角化，就是可以将分解为，是由对应特征向量组成的矩阵--特征矩阵，为对角矩阵，对角线上的元素为的特征值。只有在一定条件下，一个变换可以由其特征值和特征向量完全表述，也就是说：所有的特征向量组成了空间的一组基。并不是所有方阵都可以对角化，方阵可以被对角化的条件是：

正交矩阵一定可以对角化。以三维空间为例，正交矩阵就是歪着的立方体，对角化就是把这个立方体摆正（就是让它的某一个顶点放在原点上，同时这个顶点的三条边放在三条坐标轴上）。对角矩阵就是摆正后的立方体。

机器学习中的特征值分解，往往是协方差矩阵，如PCA，所以我们要确保各个特征之间是线性无关的。

如何通俗地理解奇异值？

我们知道一个向量张成的空间是一条直线，任意实数可以得到非零向量张成的空间是一条直线。那么如果一个维空间中的向量其所张成的空间——一条直线上的点，经过一个矩阵变换到另一个的空间中依然在同一条直线上，这个直线是空间中的向量所张成的空间，只是会有对应的缩放，这个缩放的程度就是奇异值。用数学形式表达为：，是空间中的向量，是的变换矩阵，是空间中的向量，就是奇异值。

可以感觉到特征值是奇异值的特例，当m=n且和重叠的时候（方向可以不同），奇异值=特征值。

奇异值分解计算例子：

SVD（奇异值分解）Python实现：

矩阵分解为了解决传统协同过滤处理稀疏共现矩阵能力差的问题。使用矩阵分解相比传统协同过滤也提升了泛化性。

基于矩阵分解的模型又叫潜在因素模型、隐语义模型。

矩阵分解的开端是2006年的Netflix竞赛。

1、推荐系统中：分解的是什么矩阵？共现矩阵怎么共现矩阵分解？ 1）特征值分解要求待分解的是方阵，所以行不通 2）奇异值分解要求待分解矩阵是稠密矩阵，而共现矩阵是稀疏矩阵，所以不行；奇异值分解的复杂度是，复杂度很高，也不合适。 3）梯度下降法——也就是交替最小二乘法（alternating least squares，ALS），解决两个变量求解。使用梯度下降法进行矩阵分解（1）确定目标函数：，就是一个MSE；（2）分别对和求偏导（3）参数更新（4）迭代得到隐向量后，对某个用户进行推荐时，利用该用户的隐向量与所有物品的隐向量进行逐一内积运算，得到该用户对所有物品的得分，再进行排序，得到最终的推荐列表。 4)贝叶斯矩阵分解

2、PCA---奇异值分解

223 评论 11小时前发布

jialing612

3.2.4.1 方法建立

就全国范围而言，我国地下水质量总体较好，根据国家《地下水质量标准》（GB/T 14848—93），我国63%的地区地下水可直接饮用，17%经适当处理后可供饮用，12%不宜饮用，剩余8%为天然的咸水和盐水，由此可见，不宜饮用的地下水和天然咸水、盐水占到了20%，对于这些地下水型水源地饮用水指标并不一定受到污染而存在超标现象，其水质可能受到地下水形成演化影响更为明显，因此，考虑选择反映地下水形成、演化的地下水水化学类型常规指标，进行影响因素解析。地下水水质指标在取样与分析过程中，由于取样和样品处理、试剂和水纯度、仪器量度和仪器洁净、采用的分析方法、测定过程以及数据处理等过程均会产生测量误差（系统误差，随机误差，过失误差）。从取样到分析结果计算误差都绝对存在，虽然在各个过程中进行质量控制，但无法完全消除不确定性的影响，为确保分析结果的可靠性，采用PMF法对地下水水质指标考虑一定的不确定性误差，使分析数据能够准确地反映实际情况。

PMF（Positive Matrix Factorization）与主成分分析（PCA）、因子分析（FA）都是利用矩阵分解来解决实际问题的分析方法，在这些方法中，原始的大矩阵被近似分解为低秩的V＝WH形式。但PMF与PCA和FA不同，PCA、FA方法中因子W和H中的元素可为正或负，即使输入的初始矩阵元素全是正的，传统的秩削减算法也不能保证原始数据的非负性。在数学上，从计算的观点看，分解结果中存在负值是正确的，但负值元素在实际问题中往往是没有意义的。PMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法，在求解过程中对因子载荷和因子得分均做非负约束，避免矩阵分解的结果中出现负值，使得因子载荷和因子得分具有可解释性和明确的物理意义。PMF使用最小二乘方法进行迭代运算，能够同时确定污染源谱和贡献，不需要转换就可以直接与原始数据矩阵作比较，分解矩阵中元素非负，使得分析的结果明确而易于解释，可以利用不确定性对数据质量进行优化，是美国国家环保局（EPA）推荐的源解析工具。

3.2.4.2 技术原理

PMF：模型是一种基于因子分析的方法，具有不需要测量源指纹谱、分解矩阵中元素非负、可以利用数据标准偏差来进行优化等优点。目前PMF模型此方法成功用于大气气溶胶、土壤和沉积物中持久性有毒物质的源解析，已有成熟的应用模型 PMF1.1，PMF2.0，PMF3.0等。PMF模型基本方程为：

Xnm＝GnpFpm+E （3.7）

式中：n——取样点数；

m——各取样点测试的成分数量；

p——污染源个数；

Xnm——取样点各成分含量；

Gnp——主要源的贡献率；

Fpm——源指纹图谱。

基本计算过程如下：

1）样品数据无量纲化，无量纲化后的样品数据矩阵用D表示。

2）协方差矩阵求解，为计算特征值和特征向量，可先求得样品数据的协方差矩阵，用D′为D的转置，算法为：

Z＝DD′ （3.8）

3）特征值及特征向量求解，用雅各布方法可求得协方差矩阵Z的特征值矩阵E和特征向量矩阵Q，Q′表示Q的转置。这时，协方差矩阵可表示为：

Z＝QEQ′ （3.9）

4）主要污染源数求解，为使高维变量空间降维后能尽可能保留原来指标信息，利用累计方差贡献率提取显著性因子，判断条件为：

地下水型饮用水水源地保护与管理：以吴忠市金积水源地为例

式中：n——显著性因子个数；

m——污染物个数；

λ——特征值。

5）因子载荷矩阵求解，提取显著性因子后，利用求解得到的特征值矩阵E和特征向量矩阵Q进一步求得因子载荷矩阵S和因子得分矩阵C，这时，因子载荷矩阵可表示为：

S＝QE1/2 （3.11）

因子得分矩阵可表示为：

C＝（S′S）-1S′D （3.12）

6）非负约束旋转，由步骤5求得的因子载荷矩阵S和因子得分矩阵C分别对应主要污染源指纹图谱和主要污染源贡献，为解决其值可能为负的现象，需要做非负约束的旋转。

7）首先利用转换矩阵T1对步骤5求得的因子载荷矩阵S和因子得分矩阵C按下式进行旋转：

地下水型饮用水水源地保护与管理：以吴忠市金积水源地为例

C1＝T1C （3.14）

式中：S1——旋转后的因子载荷矩阵；

C1——旋转后的因子得分矩阵；

T1——转换矩阵，且T1＝（C∗C′）（C∗C′）-1（其中：C∗为把C中的负值替换为零后的因子得分矩阵）。

8）利用步骤7中旋转得到的因子载荷矩阵S1构建转换矩阵T2对步骤5中旋转得到的因子载荷矩阵S1和因子得分矩阵C1继续旋转：

S2＝S1T2 （3.15）

地下水型饮用水水源地保护与管理：以吴忠市金积水源地为例

式中：S2——二次旋转后的因子载荷矩阵；

C2——二次旋转后的因子得分矩阵；

T2——二次转换矩阵，且T2＝（S′1+S1）-1（S′1+ ）（其中：为S1中的负值换为零后的因子载荷矩阵）。

9）：重复步骤7、8，直到因子载荷中负值的平方和小于某一设定的误差精度e而终止，最终得到符合要求的因子载荷矩阵S，即主要污染源指纹图谱。

3.2.4.3 方法流程

针对受体采样数据直接进行矩阵分解，得到各污染源组分及其贡献率的统计方法（图3.5）。

图3.5 方法流程图

（1）缺失值处理

正定矩阵因子分析是基于多元统计的分析方法，对数据有效性具有一定的要求，因此在进行分析之前首先对数据进行预处理。根据已有数据的特征结合实际情况主要有以下5种处理方法。

1）采样数据量充足的情况下直接丢弃含缺失数据的记录。

2）存在部分缺失值情况下用全局变量或属性的平均值来代替所有缺失数据。把全局变量或是平均值看作属性的一个新值。

3）先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。

4）采用预测模型来预测每一个缺失数据。用已有数据作为训练样本来建立预测模型，如神经网络模型预测缺失数据。该方法最大限度地利用已知的相关数据，是比较流行的缺失数据处理技术。

5）对低于数据检测限的数据可用数据检测限值或1/2检测限以及更小比例检测限值代替。

（2）不确定性处理

计算数据不确定性。

地下水型饮用水水源地保护与管理：以吴忠市金积水源地为例

式中：s——误差百分数；

c——指标浓度值；

l——因子数据检出限。

（3）数据合理性分析

本研究所用数据在放入模型前以信噪比S/N（Signal to Noise）作为标准进行筛选，信噪比S/N为：

地下水型饮用水水源地保护与管理：以吴忠市金积水源地为例

式中：xij——第i采样点第j个样品的浓度；

sij——第i采样点第j个样品的标准偏差。

信噪比小，说明样品的噪声大，信噪比越大则表示样品检出的可能性越大，越适合模型。

（4）数据输入及因子分析

与其他因子分析方法一样，PMF不能直接确定因子数目。确定因子数目的一般方法是尝试多次运行软件，根据分析结果和误差，Q值以及改变因子数目时Q值的相对变化等来确定合理的因子数目。

3.2.4.4 适用范围

PMF对污染源和贡献施加了非负限制，并考虑了原始数据的不确定性，对数据偏差进行了校正，使结果更具有科学的解释。PMF使用最小二乘方法，得到的污染源不需要转换就可以直接与原始数据矩阵作比较，PMF方法能够同时确定污染源和贡献，而不需要事先知道源成分谱。适用于水文地质条件简单，观测数据量较大，污染源和污染种类相对较少的地区，运用简便，可应用分析软件进行计算。

3.2.4.5 NMF 源解析

NMF在实现上较PMF算法简单易行，非负矩阵分解根据目的的不同大致可以分为两种：一是在保证数据某些性质的基础上，将高维空间的样本点映射到某个低维空间上，除去一些不重要的细节，获得原数据的本质信息；二是在从复杂混乱的系统中得到混合前的独立信息的种类和强度。因此，基于非负矩阵分解过程应用领域的不同，分解过程所受的约束和需要保留的性质都不相同。本书尝试性地将NMF算法应用于水质影响因素的分离计算中（表3.2）。

表3.2 RMF矩阵分解权值表

依照非负矩阵分解理论的数学模型，寻找到一个分解过程V≈WH，使WH和V无限逼近，即尽可能缩小二者的误差。在确保逼近的效果，定义一个相应的衡量标准，这个衡量标准就叫作目标函数。目标函数一般采用欧氏距离和散度偏差来表示。在迭代过程中，采用不同的方法对矩阵W和H进行初始化，得到的结果也会不同，算法的性能主要取决于如何对矩阵W和H进行初始化。传统的非负矩阵算法在对矩阵W和H赋初值时采用随机方法，这样做虽然简单并且容易实现，但实验的可重复性以及算法的收敛速度是无法用随机初始化的方法来控制的，所以这种方法并不理想。许多学者提出改进W和H的初始化方法，并发展出专用性比较强的形式众多的矩阵分解算法，主要有以下几种：局部非负矩阵分解（Local Non-negative Matrix Factorization，LNMF）、加权非负矩阵分解（Weighted Non-negative Matrix Factorization，WNMF）、Fisher非负矩阵分解（Fisher Non-negative Matrix Factorization，FNMF）、稀疏非负矩阵分解（Sparse Non-negative Matrix Factorization，SNMF）、受限非负矩阵分解（Constrained Non-negative Matrix Factorization，CNMF）、非平滑非负矩阵分解（Non-smooth Non-negative Matrix Factorization，NSNMF）、稀疏受限非负矩阵分解（Nonnegative Matrix Factorization with Sparseness Constraints，NMF-SC）等理论方法，这些方法针对某一具体应用领域对NMF算法进行了改进。

本书尝试应用MATLAB工具箱中NNMF程序与改进的稀疏非负矩阵分解（SNMF）对研究区11项指标（同PMF数据）进行分解，得到各元素在综合成分中的得分H，初始W0，H0采用随机法取初值。r为分解的基向量个数，合适的r取值主要根据试算法确定，改变r值观察误差值变化情况，本书利用SMNF算法计算时，r分别取2，3，4，采用均方误差对迭代结果效果进行评价，结果显示当r取2，4时误差值为0.034，取3时误差值为0.016，因此r＝3是较合理的基向量个数。采用NNMF算法进行计算时，利用MATLAB工具箱提供的两种计算法分别进行计算，乘性法则（Multiplicative Update Algorithm）计算结果误差项比最小二乘法（Alternating Least-squares Algorithm）计算误差值小且稳定，但总体NNMF计算误差较大，改变初始W0，H0取值和增加迭代次数误差均未明显减小，调整r取值，随着r值的增大误差逐渐减小。

对比SNMF和NNMF算法所得权值结果，两种方法所得权值趋势一致，但得分值有所不同，由于SNMF算法对矩阵进行了稀疏性约束，计算结果中较小的权值更趋近于0，两次结果中在三个基向量上总体权值较大的元素项为T-Hard、、Mg2+、Ca2+、，从盲源分离的角度来看该几种元素对地下水具有较大的影响，但从地下水水质影响因素来看，该方法对数据的分析偏重于突出局部数据的特征，在各因素相关性较大但含量不高的情况下，容易忽略了关键的影响因素。从权值得分来看，SNMF法解析的第一个基向量上的元素包括EC、T-Hard、NH4—N、、、TDS；第二基向量主要有Na+、Mg2+、Cl-；第三个基向量、Ca2+，从结果可以看出该方法进行矩阵分解并未得到可合理解释的源项结果，方法有待进一步研究及验证。

88 评论 12小时前发布

矩阵分解论文研究方法

3个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序