基于贝叶斯的复原图像研究论文

4个回答默认排序

默认排序

按时间排序

红色芍药

已采纳

下的拼音：xià。

部首一部，部外笔画2画，总笔画3画。

五笔GHI，仓颉MY，郑码AID，四角10230。

结构单一，电码0007，区位4734，统一码4E0B。

基本字义：

1、位置在低处的，与“上”相对：下层。下款。

2、等级低的：下级。下品。下乘（佛教用语，一般借指文学艺术的平庸境界或下品）。下里巴人（泛指通俗的普及的文学艺术，常与“阳春白雪”对举）。

3、方面，方位：两下都同意。

4、次序或时间在后的：下卷。下次。下限。

5、由高处往低处，降落：下山。下车。下马。下达。

6、使降落：下半旗。下棋。

7、进入：下海。

相关组词：

水下[shuǐ xià]

水面以下。

下手[xià shǒu]

（动）动手；开始做：无从～。（名）助手。

低下[dī xià]

（形）（生产水平、经济地位等）在一般标准之下的。

下巴[xià ba]

（名）下颌的通称。颏的通称。

下级[xià jí]

指在同一组织系统中级别低的人员或组织。

200 评论 1小时前发布

最美遇见微风

通过优化的标准神经网络训练（从概率的角度来看）等同于权重的最大似然估计（MLE）。由于许多原因，这往往是不能令人满意的 —— 使用 MLE 会忽略在适当的权重值中可能存在的任何不确定性，即无法正确评估训练数据中的不确定性，从实际的角度来看，这种类型的训练容易出现过拟合现象。

对此的一个解决方案是引入正则化（从贝叶斯的角度来看，这相当于在权重上引入先验）。如果我们可以通过规范模型来解决过度自信决策和防止模型过度拟合的问题，那为什么我们需要贝叶斯神经网络？答案是：当前神经网络架构中缺少预测中的不确定性度量，但贝叶斯神经网络将其纳入其中。BNN 在特定环境中很重要，特别是当我们非常关心不确定性时，贝叶斯方法自然地解释了参数估计中的不确定性，并且可以将这种不确定性传播到预测中。

深度神经网络已成功应用于许多领域，包括非常敏感的领域，如医疗保健，安全性，欺诈性交易等等。这些领域在很大程度上依赖于模型的预测准确性，甚至一个过度自信的决策也可能导致一个大问题。此外，这些领域具有非常不平衡的数据集（百万个交易中的一个是欺诈性交易，百分之五的癌症检测结果是阳性，不到百分之一的电子邮件是垃圾邮件），容易导致该模型过度拟合。

从概率论的角度来看，使用单点估计权重以进行分类是不合理的。而贝叶斯神经网络对于过拟合更加鲁棒，并且可以从小数据集中轻松学习。贝叶斯方法将其参数以概率分布的形式表示以提供不确定性估计；同时，通过使用先验概率分布的形式来表示参数，训练期间在许多模型上计算平均值，这给网络提供了正则化效果，从而防止过度拟合。

在标准神经网络中，权重由单个点表示。而贝叶斯神经网络以分布形式表示权重，如下图所示：

即使使用少量参数，在贝叶斯神经网络中推断后验模型也是一项艰巨的任务，因此通常使用后验模型的近似值，变分推理是一种流行的方法。人们将使用简单的变分分布（例如高斯分布）对后验进行模拟，并尝试调整分布的参数使其尽可能接近真实的后验 —— 通过最小化这种简单变分分布和真实后验之间的 KL 散度来完成。

但是用于逼近 BNN 后验的变分方法在计算上可能相当昂贵，因为使用近似分布会大大增加模型参数的数量，但不会大幅增加模型容量。例如，使用 BNN 后验近似的高斯分布，模型参数的数量增加了一倍，但报告了与使用丢失的传统方法相同的预测性能。这使得该方法在实践中不适合与 CNN 一起使用，因为参数数量的增加太昂贵。

关于神经网络权重的精确贝叶斯推断是难以处理的，因为参数的数量非常大，并且神经网络的函数形式不适合精确积分。因此，我们用变分概率分布 q θ (w | D) 逼近难以处理的真实后验概率分布 p(w | D)，它包括高斯分布的性质 μ∈ℝ d 和 σ∈ℝ d ，表示为 N（θ | μ，σ²），其中 d 是定义概率分布的参数总数。这些高斯变分后验概率分布的形状由它们的方差 σ² 确定，表示每个模型参数的不确定性估计。

在观察数据之前定义先验概率分布，一旦观察到数据（训练数据），学习就发生并且分布变换为后验分布。利用概率论从数据中学习构成了贝叶斯学习的基础。贝叶斯定理如下：

P(θ | x) 为后验概率，也是我们想要计算的；P(θ) 为先验概率，在训练数据之前就是已知的；P(x | θ) 为可能性，显示了数据分布；P(x) 为证据，我们只能通过对所有可能的模型值积分来计算其值：

这使得问题变得棘手，因此我们采用变分近似来找到近似贝叶斯后验分布。

首先，我们的原始目标是，需要根据已有数据推断需要的分布 p；当 p（下图中黄色区域）不容易表达，不能直接求解时，可以尝试用变分推断的方法，即，寻找容易表达和求解的分布 q（下图中红线和绿线构成的区域），当 q 和 p 的差距很小的时候，q 就可以作为 p 的近似分布，成为输出结果了。例如，我们用 q θ (w | D) 来近似 p(w | D)。首先注意 q θ (w | D) 的表达，其中 w 是变量，θ 是后验概率分布 q 的参数。所以在构造 q 的时候也分两步：第一，概率分布的选择；第二，参数的选择。第一步，我们在选择 q 的概率分布时，通常会直观选择 p 可能的概率分布，这样能够更好地保证 q 和 p 的相似程度。例如高斯混合模型中，原始假设 p 服从高斯分布，则构造的 q 依然服从高斯分布。之后，我们通过改变 θ，使得 q 不断逼近 p。

我们希望尽可能接近真正的分布，这可以通过最小化两者之间的 Kullback-Liebler（KL）散度来做到这一点。然而 KL 的表达式中依然有一部分不可求的后验概率，这个问题仍然是棘手的，所以用到了 ELBO：

但是由于积分的存在，这个公式仍然难以解决。此时，我们可以从近似函数 q θ (w | D) 中进行采样，因为从近似函数中采样权值要比真正的后验函数 p(w | D) 更容易。这样得到容易计算的函数：

这些采样权值 w 被用于神经网络的反向传播，学习后验分布。

贝叶斯建模中，存在两种类型的不确定：偶然不确定性和认知不确定性。

可以通过在模型参数或模型输出上放置概率分布来估计不确定性。通过在模型的权重上放置先验分布，然后尝试捕获这些权重在给定数据的情况下变化多少来模拟认知不确定性。另一方面，通过在模型的输出上放置分布来模拟偶然不确定性。

传统神经网络常使用反向传播来训练。对于 BNN，其自然地解释了参数估计中的不确定性，并且可以将这种不确定性传播到预测结果中；此外，对参数值进行取平均而不是仅选择单点估计值使得模型不易出现过拟合。因此，对 BNN 参数的训练也需要特殊的训练方法，Bayes by Backprop 就是其中一种（它也是一种变分推断）。

Bayes by Backprop 用来学习神经网络权重的概率分布。它是一种变分推理方法，用于学习神经网络权重 w ~ q θ (w | D) 的后验分布，可以在反向传播中对权重 w 进行采样。整个方法可归纳如下：

由于参数数目较大，所以需要对模型权重进行适当的修剪。模型修剪减少了深度神经网络的各种连接矩阵中的稀疏性，从而减少了模型中有价值的参数的数量。模型修剪的整个想法是减少参数的数量而不会损失模型的准确性。最常用的修剪模型的方法是将低贡献权重映射到零并减少整体非零值权重的数量，可以通过训练大型稀疏模型并进一步修剪来实现。

（这部分内容摘自一个例子搞清楚先验分布/后验分布/似然估计）

给定一些数据样本 x，假定我们知道样本是从某一种分布中随机取出的，但我们不知道这个分布具体的参数 θ。

因为给定样本 x 后， p(x) 会在 θ 空间上为一个定值，和 θ 的大小没有关系，所以可以省略分母 p(x)。可化简为：

p(x) 相当于是一个归一化项，整个公式就表示为： Posterior∝(Likelihood∗Prior)（后验概率正比于先验概率 ∗ 似然函数）

需要一提的是，对贝叶斯 CNN 而言，不仅在卷积层中将概率分布置于权重上，还要求在全连接层中将概率分布置于权重上。

假设权重的变分后验概率分布 q θ (w ijhw | D) = N(μ ijhw ，α ijhw μ 2 ijhw )（其中，i 和 j 分别对应输入和输出层数，h 和 w 分别对应过滤器的高度和宽度），那么卷积公式被重定义为：

其中，ε j ~ N(0，1)，A i 为过滤器在第 i 层要卷积的部分，b j 为相应的第 j 层的激活值，∗ 为卷积操作，⊙ 为元素乘法(component-wise multiplication)。

对 CNN 的权重应用概率分布而非单点值，并且要在反向传播时更新变分后验概率分布 q θ (w | D)，关键在于过滤器会执行两次卷积操作（在单点预测的 CNN 中只执行一次卷积）。

从前面的公式我们看到，卷积操作的输出 b 是期望 μ ijhw 和方差 α ijhw μ 2 ijhw 的函数，因此我们可以分别计算出 μ ijhw 和 α ijhw μ 2 ijhw 的值，从而可以得到一个高斯概率分布。方法就是执行两次卷积操作：第一次，我们将 b 视为通过频率推理更新的 CNN 的输出，将单点估计值解释为变分后验概率分布的期望；第二次，我们将得到方差。通过这种方式，我们确保每个卷积操作只更新一个参数（第一次为 μ ijhw ，第二次为 α ijhw ），这与通过频率推断更新的 CNN 完全相同。

实际上，当我们执行第一次卷积操作，我们得到的是 q θ (w | D) 的最大后验概率，而第二次卷积操作则是得出权重 w 偏离了最大后验概率多少。另外，为了加速计算，确保方差 α ijhw μ 2 ijhw 为非零正数，并提到准确度，我们学习 logα ijhw 并使用 Softplus 激活函数。

在分类任务中，我们关注的是 P D (y* | x*)；对于贝叶斯神经网络，其被表示为：

在 Bayes by Backprop 中，q θ (w | D) ~ N(w | μ, σ 2 )，而 θ = {μ, σ} 在数据集 D = {x i , y i } n i=1 的训练中学习得到。由于分类问题多是离散的，因此：

其中，Σ c f(x c ∗ | w) = 1，C 为总类数。通过从 q θ (w | D) 取样，可以获得期望值的无偏估计：

T 为样本数量。这个估计值允许我们评估预测值的不确定性，因此称为预测方差，用 Var q 表示：

这个值可以进一步分为偶然不确定性和认知不确定性：

由于贝叶斯 CNN 中的权重都由期望和方差来表示其分布，因此，相较于单点估计 CNN，贝叶斯 CNN 的参数数量翻了一倍。为了使贝叶斯 CNN 参数数量等于传统 CNN，可以使 BCNN 的过滤器数目减半。

另一种模型修剪的技术是对每层的权重使用 L1 归一化。通过 L1 归一化，我们使各模型层中的权重向量变得非常稀疏，即大部分矩阵元素变得接近零；同时，剩余的非零元素则捕获数据的最重要特征。我们设置一个阈值，如果该值低于阈值，则使权重为零。通过只保留非零权重，可以减少模型的参数数量，而不会影响模型的整体性能。

看了一些国内的论文，将贝叶斯应用于 BP 神经网络优化，往往是利用贝叶斯定理寻找最优神经网络参数，以解决神经网络权值易陷入局部最优的问题，同时也能解决神经网络过拟合。其中心思想在于：根据给定的先验分布，利用贝叶斯定理考察神经网络参数的不确定性，从样本数据中，获得网络结构的后验概率，那么，使得该后验概率最大化的网络参数即为所需的最优参数（我认为这其实是 MAP 而非贝叶斯估计）。最优参数定义为：

为方便计算，对后验概率取对数得到：

假设先验概率分布 p(w) 满足高斯分布：

则有：

上式中，似然函数部分对应于目标函数中的适应度函数，而先验概率部分对应于正则项，因此我们可以通过确定先验概率得到正则项，从而对神经网络的目标函数进行优化，进而有效控制网络规模，提高网络泛化能力。

后验分布是人们在获得样本数据 D 之后对参数 w 的一种调整。贝叶斯把上一步得到的后验分布信息储存起来，在将来做推测时，上一步的后验信息就成为了先验信息，这样持续数次操作之后，样本数据的预测结果会一直进行调整，最后对参数估计的结果精确度更高。

神经网络中最重要的两个性能参数就是权值和阈值，而这两个参数的分布情况受到了目标函数中超参数的控制，但一般的算法不能确定超参数的取值。可以利用贝叶斯定理来求取目标函数的超参数，并且要求达到自主调节超参数取值的目标，并且通过持续的调整最后找到最优的取值，相应的确定 BP 神经网络的最优权值和阈值。

209 评论 1小时前发布

吃鱼的猫g

公式和特殊字符没有翻译，自己带进去看看吧，希望有帮助：非负矩阵算法因式分解丹尼尔-李贝尔实验室朗讯科技默里山，新泽西州07974H.塞巴斯蒂安承脑和齿轮系。SCI。麻省理工学院剑桥，马02138摘要非负矩阵分解（NMF）先前已被证明是一个有用的分解多元数据。两种不同的多—折扇状的NMF算法的分析。他们只是略有不同用于更新规则的乘法因子。一个算法可以以减少传统的最小二乘误差而其他广义的Kullback-Leibler散度最小化。单调的这两种算法的收敛可以使用一个辅助函数证明—法类似于用于证明的期望收敛—最大化算法。该算法也可以被解释为诊断—只要调整梯度下降，其中的缩放因子是最佳的选择以确保收敛。1引言无监督学习算法，如主成分分析和矢量量化—量化可以理解为不同约束条件下的数据矩阵分解。德—待时限制利用，产生的因素可以有非常不同的—不同的代表性的性能。主成分分析执行只有微弱的或—波函数的正交约束，导致在一个完全分布式的表示使用取消产生变异，[ 1，2 ]。另一方面，矢量量化，用硬的赢家—把所有的约束，结果聚类中的数据分为相互排斥的原型[ 3 ]。我们先前已经表明，非负矩阵分解是一个有用的约束可以学习数据中的一部分表示[ 4，5 ]。非负的基础载体，所使用的分布式，但仍然稀疏的组合产生的表现重建[ 6，7 ]。在本次提交的，我们分析了两种数值算法从数据中学习最优非负因子。2非负矩阵分解我们正式考虑算法解决以下问题：非负矩阵分解（NMF）给定一个非负矩阵ﬁ，和非负矩阵的因素和这样：1。NMF可以应用在以下方式多元数据的统计分析。给定一组的多维数据矢量，矢量被放置在列的矩阵在哪儿是一些例子中的数据集。这矩阵，然后分解成一个近似矩阵和一个矩阵。通常选择小于或你说呢和比原来的矩阵。这个结果在一个原始数据矩阵的压缩版本。在方程近似意义ﬁ意义是什么（1）？它可以改写柱柱在哪儿和有相应的列和。在其他的话，每个数据向量通过对列的一个线性组合近似，通过成分加权。因此可被视为含有基础这是该数据在线性近似优化。由于相对较少的基础向量来代表许多数据载体，良好的逼近，只能实现如果基础矢量数据中发现潜在的结构。本文件是不是应用NMF，而把注意力集中在技术—非负矩阵分解的ﬁnding技术方面。当然，其他类型的马—矩阵分解已在数值线性代数被广泛研究，但不—负约束使得许多以前的工作不适用于本案8。在这里，我们讨论的NMF基于迭代更新的两种算法和。因为这是很容易实现的算法及其收敛性保证，我们发现他们在实际应用中非常有用。其他的算法可能更有效ﬁ整体计算时间充足，但也更困难ﬁ崇拜的实现可能无法推广到不同的成本函数。我们的算法类似的地方只有一个的因素适于先前已被用于发射断层扫描的反褶积和天文图像[ 9，10，11，12 ]。在每一次迭代的算法，新的价值或被发现了一些因素，取决于情商的近似质量的电流值（1）。我们证明了近似的质量与应用单调提高这些乘法更新规则。在实践中，这意味着，反复迭代更新规则，保证收敛到局部最优矩阵分解。3的成本函数对ﬁNd近似因式分解首先，我们ﬁ需要ﬁNE的成本函数量化近似的质量。这样的成本函数可以构造采用一些措施两个非负矩阵之间的距离和。一个有用的测量是简单的平方之间的欧氏距离这是下界的零，当且仅当地消失和13。。2。另一个有用的措施3。这也是像欧氏距离的下界的零，如果只有和消失如果。但它不能被称为一个“距离”，因为它不是对称的和，所以我们将它称为“发散”从。它减少的Kullback-Leibler距离发散，或相对熵，当你说呢和可作为归一化的概率分布。我们现在考虑NMF两种配方的优化问题：1最小化问题相对于和，受约束。2最小化问题相对于和，受约束。虽然功能和是凸的只有或只是，他们在这两个变量是不凸。因此，它是期望算法不切实际解决问题1和2在ﬁnding全局极小的感觉。然而，有许多从数值优化，可以应用于ﬁ和局部极小的方法。梯度下降可能是实现最简单的方法，但收敛可以缓慢的。其他方法，如共轭梯度法有更快的收敛速度，至少在局部极小值附近，但更复杂的实现比梯度下降8。基于梯度的方法也很不利对步长的选择敏感，可为大型应用程序很不方便。4乘法更新规则我们发现，下面的“乘法更新规则”是一个很好的妥协在速度和易于实施的解决问题1和2。定理1的欧氏距离更新的规则下是减4。欧氏距离是不变的这些更新的当且仅当固定点的距离。和在一个定理2的分歧更新的规则下是减5。分歧是不变的这些更新的当且仅当和在一个固定的的分歧点。在后面的章节中给出了这些定理的证明。现在，我们注意到，每个更新由乘法的一个因素。特别是，它是直接看到这个乘法因子统一时，这样完美的重建是必要的一个ﬁXED的更新规则点。5的乘法和添加剂的更新规则这是对比这些乘法的更新与梯度下降产生有用的14。特别是，一个简单的添加剂的更新减少平方距离可写为6。如果都设置为等于一些小的正数，这相当于传统梯度下降。只要这个数是足够地小ﬁ，更新应减少。现在如果我们对角缩放变量和设定7。我们得到的更新规则这给出了定理1。请注意，这个尺度在梯度的积极成分的派别宗教的乘法因子的结果—但是第和因子的分子的负分量的绝对值。的发散，对角缩放梯度下降的形式8。再次，如果是小的和积极的，此更新应减少。如果我们现在集9。我们得到的更新规则这给出了定理2。这种调整也可以被解释为与梯度的积极成分的乘法规则分母和负成分作为乘法因子分子。由于我们的选择不小，似乎也不能保证这样的调整梯度下降导致成本函数下降。令人惊讶的是，这是事实上的情况下，在下一节中所示。6的收敛证明为了证明定理1和定理2，我们将使用一个辅助函数类似于使用在期望最大化算法[ 15，16 ]。德ﬁ定义1是一个辅助函数如果条件10。均ﬁ版。辅助功能是一个有用的概念，因为下面的引理，这也是图1图示。1如果引理是一个辅助函数，然后是减下的更新11。证明：请注意，只有是一个局部最小值。如果衍生物的存在并有连续的一个小邻域内的，这也意味着衍生物。因此，通过迭代更新公式（11）我们得到一个序列估计的收敛到一个局部最小值的目的功能：12。我们将表明，德ﬁ宁合适的辅助功能两和定理1，更新规则和2容易遵循从式（11）。分享到： 1.4万G（H，HT）F（H）HT HT＋1图1：最小化的辅助功能为。2如果引理正对角矩阵HMINH保证13。然后14。是一个辅助函数15。证明：自很明显，我们只需要表明。以做到这一点，我们比较16。利用公式（14），ﬁ发现相当于17。118。这是一个标度的组件semideﬁ黑夜的当且仅当是的，和。然后是积极的19。20。21。22。23。1你也可以证明正semideﬁ有限考虑矩阵。然后是一个积极的特征向量随着统一的特征值，和Frobenius Perron定理的应用表明，公式17持有。分享到： 1.4万现在我们可以证明定理1的收敛性：定理1的证明替代从式（14）是一个辅助函数，在公式（11）由式（14）中的更新规则的结果：24。这是减更新规则下，根据引理1。写这个方程的成分明确，我们得到25。通过扭转的作用和引理1和2，同样可以证明是减的更新规则下。我们现在考虑以下的发散的成本函数的辅助功能：引理3 deﬁNE26。27。这是一个辅助函数28。证明：它是简单的验证。表明，我们使用对数函数的凸性得到的不等式29。所有非负的货舱那笔统一。设置30。我们得到的31。从这个不等式如下。定理2，然后从引理1中的应用：定理2的证明：最小的相对于通过设置梯度为零：32。因此，方程的更新规则（11）的形式33。自是一个辅助函数，在公式（28）是减下此更新。重写—十的矩阵形式，这相当于在情商的更新规则（5）。通过扭转的作用和，更新规则同样可以证明是减。7讨论我们已经证明，在情商的更新规则中的应用。（4）和（5）保证问题1和2ﬁNd至少局部最优解，分别。的收敛性证明依赖的ﬁ宁适当的辅助功能。我们目前的工作这些定理推广到更复杂的约束。更新规则本身实现的计算非常简单，且可望利用别人各种各样的应用。我们承认，贝尔实验室的支持。我们也要感谢卡洛斯布洛迪，Ken克拉克森，科琳娜科尔特斯，罗兰弗氏，琳达考夫曼，晏乐村，山姆学报，拉里撒乌耳，和玛格丽特Wright有益的讨论。工具书类[ 1 ]乔利夫，它（1986）。主成分分析。纽约：斯普林格出版社。[ 2 ]土耳其，并购Pentland，一（1991）。特征脸的识别。J.认识。神经科学。3，86，71–。[ 3 ] Gersho，一个灰色，RM（1992）。矢量量化的信号压缩。中国科学院。出版社。【4】李，DD和承，HS。利用凸锥编码的无监督学习（1997）。诉讼的神经信息处理系统9会议上，515–521。【5】李，DD和承，HS（1999）。非负矩阵factoriza学习物体的部分—和灰。性质401，788–791。[ 6 ]领域，DJ（1994）。感官编码的目的是什么？神经计算。6，601，559–。[ 7 ] foldiak，P & Young，M（1995）。稀疏的灵长类动物大脑皮层的编码。该手册的大脑理论和神经网络，895–898。（麻省理工学院出版社，剑桥，MA）。[ 8 ]出版社，WH，展示，SA，维特林，重量和弗兰纳里，英国石油公司（1993）。数值方法：艺术科学计算ﬁC。（剑桥大学出版社，剑桥，英国）。[ 9 ]西普，La和瓦迪，Y（1982）。用于最大似然重建发射断层扫描。IEEE Transactions。113–2，122。[ 10 ]理查德森，谁（1972）。基于贝叶斯网络的迭代的图像恢复方法。J.选择。SOC。我。62，59，55–。[ 11 ]露西，LB（1974）。观察到的分布的ﬁ阳离子的迭代技术。天文学。·74，745–754。[ 12 ]博曼，CA和绍尔，K（1996）。一个大学ﬁED的方法来利用坐标统计断层扫描下降的优化。IEEE Transactions。图像处理。5，492，480–。[ 13 ] paatero，P和T，U（1997）。最小二乘法制定的鲁棒非负因子分析—SIS。计量学。智能。实验37，23–35。[ 14 ] Kivinen和Warmuth，J，M（1997）。添加剂和幂梯度更新线性预测。信息与计算杂志132，1–64。[ 15 ] Dempster，Laird，AP，纳米和Rubin，DB（1977）。通过最大似然数据不完整EM算法。J.皇家统计系统。39，38，1–。[ 16 ]撒乌耳，L和佩雷拉，F（1997）。集料和混合阶马尔可夫模型的统计语言处理。C.心和R.魏谢德尔（EDS）。第二次会议录在自然语言处理中的实证方法，81–89。ACL出版社。

100 评论 7小时前发布

janesmonkey

自己不能翻译吗

309 评论 7小时前发布

基于贝叶斯的复原图像研究论文

4个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

4个回答默认排序

默认排序

按时间排序