• 回答数

    3

  • 浏览数

    140

我可不是吃素的
首页 > 学术论文 > 数据拟合的最小二乘法毕业论文

3个回答 默认排序
  • 默认排序
  • 按时间排序

Cupnightsky

已采纳

最小二乘法是回归分析的一种标准方法,它通过最小化每个方程式结果中的残差平方和来近似超定系统(方程组多于未知数的方程组)。

回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

最重要的应用是数据拟合。 最小二乘意义上的最佳拟合将残差平方的总和最小化(残差为:观察值与模型提供的拟合值之间的差)。 当问题在 自变量(x变量)中具有很大的不确定性 时,则简单回归和最小二乘法会出现问题。 在这种情况下,可以考虑拟合 变量误差模型 所需的方法,而不是最小二乘法。

最小二乘问题分为两类:线性或 普通最小二乘 和 非线性最小二乘 ,这取决于 残差在所有未知量中是否是线性的 。线性最小二乘问题发生在 统计回归分析 中,它有 解析解 。非线性问题通常是通过迭代优化来解决的,每次迭代系统都近似为线性系统,因此两种情况下的计算核心是相似的。

多项式最小二乘法 将因变量预测中的方差描述为自变量函数与拟合曲线的偏差。

当观测值来自 指数族 且满足温和条件时,最小二乘估计和 最大似然估计 是相同的。最小二乘法也可以由 矩估计 的方法导出。

下面的讨论主要是以 线性 函数的形式提出的,但是最小二乘法的使用对于更一般的函数族是有效和实用的。同时,通过迭代地应用局部二次逼近似然(通过 Fisher 信息 ),最小二乘法可用于拟合 广义线性模型 。

最小二乘法通常归功于 卡尔·弗里德里希·高斯 (Carl Friedrich Gauss,1795),但它首先由 阿德里安·玛丽·勒让德 (Adrien Marie Legendre,1805)发表。

目标包括调整模型函数的参数以最适合数据集。 一个简单的数据集由n个点(数据对) 组成,其中 是自变量, 是由观测值获得的因变量。模型函数具有 ,在向量 中保持m个可调参数。目的是为“最佳”拟合数据的模型找到参数值。 模型对数据点的拟合度通过其残差来度量,残差定义为因变量的实际值与模型预测的值之间的差: ,最小二乘法通过最小化残差平方和S来寻找最佳参数值: ,二维模型的一个例子是直线模型。y轴的截距表示为 ,斜率为 ,模型函数由 ,请参见线性最小二乘法,以获取该模型的完整示例。

一个数据点可以由多个自变量组成。例如,当将一个平面拟合到一组高度测量值时,平面是两个自变量的函数,例如x和z。在最一般的情况下,每个数据点可能有一个或多个自变量和一个或多个因变量。

下图是一个是一个残差图,说明了 的随机波动,显示了 这个线性模型是合适的, 是一个随即独立的变量。

如果残差点具有某种形状并且不是随机波动的,线性模型就不合适。例如,如果残差图如右图所示为抛物线形状,则为抛物线模型 对数据更加合适。抛物线模型的残差可以通过 计算。

这种回归公式只考虑因变量中的观测误差(但是可替代的 全最小二乘 回归可以解释这两个变量中的误差)。有两种截然不同的语境,具有不同的含义:

通过设置梯度为0求得平方和的最小值。因为模型包含m个参数,因此有m个梯度方程: 由 ,梯度方程可以推导为: 梯度方程适用于所有最小二乘问题。每一个问题都需要模型及其偏导数的特殊表达式。

当模型由参数的线性组合组成时,回归模型是线性模型,即: 式中 是x的函数。 令 ,并将自变量和因变量转换为矩阵X和Y,我们可以按以下方式计算最小二乘,注意D是所有数据的集合。 通过将损失梯度设置为零并求解 ,可以找到最小值。 最后,将损失的梯度设置为零,并求解 ,我们得到:

在某些情况下非线性最小二乘问题有一个 解析解 ,但通常情况下是没有的。在没有解析解的情况下,用数值算法求出使目标最小化的参数​的值。大多数算法都涉及到参数的初始值的选择。然后,迭代地对参数进行细化,即通过逐次逼近得到这些参数: 式中,上标k是迭代数,增量 的向量,称为位移向量。在一些常用算法中,每次迭代该模型都可以通过对 近似一阶 泰勒级数 展开来线性化: Jacobian矩阵J是常数、自变量和参数的函数,因此它在每次迭代时都会改变。残差由: 为最小化 的平方和,将梯度方程置为0,求解 : 经过重新排列,形成m个联立线性方程组, 正规方程组 : 正规方程用矩阵表示法写成 这就是 高斯牛顿法 的定义公式。

在寻求非线性最小二乘问题的解时,必须考虑这些差异。

为了对结果进行统计检验,有必要对实验误差的性质作出假设。通常的假设是误差属于正态分布。 中心极限定理 支持这样的观点:在许多情况下,这是一个很好的近似。

然而,如果误差不是正态分布的,中心极限定理通常意味着只要样本足够大,参数估计就会近似正态分布。因此,鉴于误差均值独立于自变量这一重要性质,误差项的分布在回归分析中不是一个重要问题。具体来说,误差项是否服从正态分布并不重要。

在具有单位权重的最小二乘法计算中,或在线性回归中,第j个参数的方差 ,通常估计为: 其中,真实误差方差 由基于目标函数平方和最小值的估计值代替。分母,n−m,是统计自由度;请参见有效自由度以获取归纳。 如果参数的 概率分布 已知或渐近近似,则可以找到 置信限 。同样,如果残差的概率分布已知或假设,则可以对残差进行统计检验。如果已知或假设实验误差的概率分布,我们就可以导出因变量的任何线性组合的概率分布。当假设误差服从正态分布时,推断很容易,因此意味着参数估计和残差也将是正态分布的,这取决于自变量的值。

当Ω(残差的相关矩阵)的所有非对角项都为空时, 广义最小二乘法 的一个特例称为 加权最小二乘法 ;观测值的方差(沿协方差矩阵对角线)可能仍然不相等( 异方差 )。更简单地说,异方差是当 的方差取决于 的值,这会导致残差图产生“扇出”效应,使其朝向更大的 值,如下侧残差图所示。另一方面, 同构性 假设 和的 方差相等。

关于一组点的平均值的第一个主成分可以用最接近数据点的那条线来表示(用最接近的距离的平方来测量,即垂直于直线)。相比之下,线性最小二乘法只尝试最小化 方向上的距离。因此,虽然二者使用相似的误差度量,但线性最小二乘法是一种优先处理一维数据的方法,而PCA则同等对待所有维度。

tikhonov 正则化

在某些情况下,最小二乘解的正则化版本可能更可取。 Tikhonov正则化 (或 岭回归 )添加了一个约束,即参数向量的 L2范数 ,即参数向量的L2范数,不大于给定值。它可以通过添加 ,其中 是一个常数(这是约束问题的 拉格朗日 形式)。在 贝叶斯 背景下, 这相当于在参数向量上放置一个零均值正态分布的 先验 。

Lasso method

最小二乘法的另一种正则化版本是Lasso(least absolute shrinkage and selection operator),它使用 ,参数向量的L1范数,不大于给定值。(如上所述,这相当于通过添加惩罚项 对最小二乘法进行无约束最小化)。在贝叶斯背景下, 这相当于在参数向量上放置一个零平均 拉普拉斯 先验分布 。优化问题可以使用 二次规划 或更一般的 凸优化方法 ,以及由具体算法如 最小角度回归 算法。 Lasso 和岭回归的一个主要区别是,在岭回归中,随着惩罚的增加,所有参数都会减少但仍然保持非零;而在Lasso中,增加惩罚将导致越来越多的参数被驱动到零。这是Lasso相对于岭回归的一个优势, 因为驱动参数为零会从回归中取消选择特征 。因此,Lasso自动选择更相关的特征并丢弃其他特征,而岭回归永远不会完全丢弃任何特征。基于LASSO开发了一些 特征选择 技术,包括引导样本的Bolasso方法和分析不同 值对应的回归系数,对所有特征进行评分的FeaLect方法

L1正则化公式在某些情况下是有用的,因为它倾向于选择更多参数为零的解,从而给出依赖较少变量的解。因此,Lasso及其变体是 压缩传感 领域的基础。这种方法的一个扩展是 弹性网络正则化 。

From Wikipedia, the free encyclopedia

116 评论

雁儿小妞宝

对于曲线拟合函数ψ(x),不要求其严格的通过所有数据点,也就是说拟合函数ψ(x)在xi处的偏差(亦称残差)不都严格的等于零,即为矛盾方程组:为了是近似曲线能尽量反映所给数据点的变化趋势,要求偏差按照某种度量标准最小。这后面的分析用到了范数的概念。这种方法就叫做曲线拟合的最小二乘法。

我们新建并打开一个excel表格,在excel中输入或打开要进行最小二乘法拟合的数据。此时按住“shift”键,同时用鼠标左键单击以选择数据。单击菜单栏上的“插入”-“图表”-“散点图”图标。

此时,我们选择第一个“仅带数据标记的散点图”图标,随后我们可以在窗口中间弹出散点图窗口。鼠标左键单击上边的散点,单击鼠标右键,弹出列表式对话框,再单击“添加趋势线(R)”。右侧就会弹出“设置趋势线格式”对话框。

利用最小二乘法将上面数据所标示的曲线拟合为二次曲线,使用c语言编程求解函数系数;最小二乘法原理 原理不再赘述,主要是解法采用偏微分求出来的。

349 评论

kiko小毒

打开Excel,先将数据绘成线性图,然后在图表中添加趋势线,然后勾选:显示公式,就可以拟合出数据的公式了。

最小二乘法:

(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。

拟合:

对给定数据点{(Xi,Yi)}(i=0,1,…,m),在取定的函数类Φ 中,求p(x)∈Φ,使误差的平方和E^2最小,E^2=∑[p(Xi)-Yi]^2。从几何意义上讲,就是寻求与给定点 {(Xi,Yi)}(i=0,1,…,m)的距离平方和为最小的曲线y=p(x)。函数p(x)称为拟合函数或最小二乘解,求拟合函数p(x)的方法称为曲线拟合的最小二乘法。

183 评论

相关问答

  • 毕业论文没最新数据

    ?如果处理不出来会有以下几种可能:1、请求导师帮助,让导师帮忙分析、探索或建议相关的处理思路。2、请教同行、老师或同学的帮助,看是否有人有经验可以分享。3、多查

    倾城闸北摄影 3人参与回答 2023-12-10
  • 毕业论文的数据要用最新的吗

    用。论文数据大多选取最近五年内的数据,所以23年毕业论文用20年数据。毕业论文(graduation study)是指高等学校(或某些专业)为对本科学生集中进行

    猫19820728 1人参与回答 2023-12-05
  • 最小二乘法毕业论文

    最小二乘方法最早是有高斯提出的,他用这种方法解决了天文学方面的问题,特别是确定了某些行星和彗星的天体轨迹。这类天体的椭圆轨迹由5个参数确定,原则上,只要对它的位

    姣姣Devil 3人参与回答 2023-12-10
  • 最小二乘法毕业论文博客

    最小二乘法是通过使因变量的观测值与估计值之间的离差平方和达到最小来估计µº和µ¹的方法。1、最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平

    猪猪爱吃草 3人参与回答 2023-12-12
  • 毕业论文数据一定要最新的吗

    不可以。论文数据不能用最新的是论文理论不支持最新数据。论文上面的数据最好是不要随便改动,这是经过非常严格的实验得出来的结果,不是说想改就能改的,假如要改变数据的

    jason19203 2人参与回答 2023-12-07