• 回答数

    4

  • 浏览数

    359

82海王子82
首页 > 学术期刊 > wgan论文模板

4个回答 默认排序
  • 默认排序
  • 按时间排序

烧饼小顺顺

已采纳

渐渐体会到GAN训练难确实是一个让人头疼的问题,一个多月前我曾粗略地了解了一下WGAN,知道这是一个着眼于提高GAN训练稳定性的成果,但后来发现,我对其原理理解得还不是很充足。于是我把WGAN的一作作者Martin Arjovsky在2017年先后参与的三篇相关论文找来看,对WGAN的来龙去脉有了一个更清晰的理解。 这篇论文是WGAN发表前的铺垫,它最大的贡献是从理论上解释了GAN训练不稳定的原因。 人们在应用GAN时经常发现一个现象:不能把Discriminator训练得太好,否则Generator的性能很难提升上去。该文以此为出发点,分析了GAN目标函数的理论缺陷。 在最早提出GAN的论文中,Goodfellow把GAN的目标函数设置为: 他也证明了,固定Generator时,最优的Discriminator是 然后在面对最优Discriminator时,Generator的优化目标就变成了 可以把上述公式简洁地写成JS散度的形式: 也就是说,如果把Discriminator训练到极致,那么整个GAN的训练目标就成了最小化真实数据分布与合成数据分布之间的JS散度。 该文花了大量的篇幅进行数学推导,证明在一般的情况下,上述有关JS散度的目标函数会带来 梯度消失 的问题。也就是说,如果Discriminator训练得太好,Generator就无法得到足够的梯度继续优化,而如果Discriminator训练得太弱,指示作用不显著,同样不能让Generator进行有效的学习。这样一来,Discriminator的训练火候就非常难把控,这就是GAN训练难的根源。 该文还用实验对这一结论进行了验证:让Generator固定,然后从头开始训练Discriminator,绘制出Generator目标函数梯度和训练迭代次数的关系如下。 可以看到,经过25 epochs的训练以后,Generator得到的梯度已经非常小了,出现了明显的梯度消失问题。 Goodfellow提到过可以把Generator的目标函数改为-logD的形式,在实际应用中,人们也发现这个形式更好用,该文把这个技巧称为 the - log D alternative 。此时Generator的梯度是: 该文证明在最优的Discriminator下,这个梯度可以转化为KL散度和JS散度的组合: 该文对这一结论有两点评论: 1. 该公式的第二项意味着最大化真实数据分布和生成数据分布之间的JS散度,也就是让两者差异化更大,这显然违背了最初的优化目标,算是一种缺陷。 2. 同时,第一项的KL散度会被最小化,这会带来严重的 mode dropping 问题。 关于上述第二点,下面补充一点说明。 mode dropping在更多的情况下被称作mode collapse,指的是生成样本只集中于部分的mode从而缺乏多样性的情况。例如,MNIST数据分布一共有10个mode(0到9共10个数字),如果Generator生成的样本几乎只有其中某个数字,那么就是出现了很严重的mode collapse现象。 接下来解释为什么上述的KL散度 会导致mode collapse。借用网上 某博客 的图,真实的数据分布记为P,生成的数据分布记为Q,图的左边表示两个分布的轮廓,右边表示两种KL散度的分布(由于KL散度的不对称性,KL(P||Q)与KL(Q||P)是不同的)。 右图蓝色的曲线代表KL(Q||P),相当于上述的 可以看到,KL(Q||P)会更多地惩罚q(x) > 0而p(x) -> 0的情况(如x = 2附近),也就是惩罚“生成样本质量不佳”的错误;另一方面,当p(x) > 0而q(x) -> 0时(如x = -3附近),KL(Q||P)给出的惩罚几乎是0,表示对“Q未能广泛覆盖P涉及的区域”不在乎。如此一来,为了“安全”起见,最终的Q将谨慎地覆盖P的一小部分区域,即Generator会生成大量高质量却缺乏多样性的样本,这就是mode collapse问题。 另外,通过类似的分析可以知道,KL(P||Q)则会导致Generator生成多样性强却低质量的样本。 除了上述的缺陷,该文还通过数学证明这种-logD的目标函数还存在梯度方差较大的缺陷,导致训练的不稳定。然后同样通过实验直观地验证了这个现象,如下图,在训练的早期(训练了1 epoch和训练了10 epochs),梯度的方差很大,因此对应的曲线看起来比较粗,直到训练了25 epochs以后GAN收敛了才出现方差较小的梯度。 该文通过严谨的理论推导分析了当前GAN训练难的根源:原始的目标函数容易导致梯度消失;改进后的-logD trick虽然解决了梯度消失的问题,然而又带来了mode collapse、梯度不稳定等问题,同样存在理论缺陷。既然深入剖析了问题的根源,该文自然在最后也提出了一个解决方案,然而该方案毕竟不如后来的WGAN那样精巧,因此我把这部分略过了。 这是最早提出WGAN的论文,沿着上篇论文的思路,该文认为需要对“生成分布与真实分布之间的距离”探索一种更合适的度量方法。作者们把眼光转向了 Earth-Mover 距离,简称 EM 距离,又称 Wasserstein 距离。 EM距离的定义为: 解释如下: 是 和 组合起来的所有可能的联合分布的集合,对于每一个可能的联合分布 而言,可以从中采样 得到一个真实样本 和一个生成样本 ,并算出这对样本的距离 ,所以可以计算该联合分布下样本对距离的期望值 。在所有可能的联合分布中能够对这个期望值取到的下界,就定义为EM距离。 Earth-Mover的本意是推土机的意思,这个命名很贴切,因为从直观上理解,EM距离就是在衡量把 Pr 这堆“沙土”“推”到 Pg 这个“位置”所要花费的最小代价,其中的γ就是一种“推土”方案。 该文接下来又通过数学证明,相比JS、KL等距离,EM距离的变化更加敏感,能提供更有意义的梯度,理论上显得更加优越。 作者们自然想到把EM距离用到GAN中。直接求解EM距离是很难做到的,不过可以用一个叫 Kantorovich-Rubinstein duality 的理论把问题转化为: 这个公式的意思是对所有满足 1-Lipschitz 限制的函数 取到 的上界。简单地说,Lipschitz限制规定了一个连续函数的最大局部变动幅度,如K-Lipschitz就是: 。 然后可以用神经网络的方法来解决上述优化问题: 这个神经网络和GAN中的Discriminator非常相似,只存在一些细微的差异,作者把它命名为Critic以便与Discriminator作区分。两者的不同之处在于: 1. Critic最后一层抛弃了sigmoid,因为它输出的是一般意义上的分数,而不像Discriminator输出的是概率。 2. Critic的目标函数没有log项,这是从上面的推导得到的。 3. Critic在每次更新后都要把参数截断在某个范围,即 weight clipping ,这是为了保证上面讲到的 Lipschitz 限制。 4. Critic训练得越好,对Generator的提升更有利,因此可以放心地多训练Critic。 这样的简单修改就是WGAN的核心了,虽然数学证明很复杂,最后的变动却十分简洁。总结出来的WGAN算法为: GAN与WGAN的对比如下图: 最后,该文用一系列的实验说明了WGAN的几大优越之处: 1. 不再需要纠结如何平衡Generator和Discriminator的训练程度,大大提高了GAN训练的稳定性:Critic(Discriminator)训练得越好,对提升Generator就越有利。 2. 即使网络结构设计得比较简陋,WGAN也能展现出良好的性能,包括避免了mode collapse的现象,体现了出色的鲁棒性。 3. Critic的loss很准确地反映了Generator生成样本的质量,因此可以作为展现GAN训练进度的定性指标。 紧接着上面的工作,这篇论文对刚提出的WGAN做了一点小改进。 作者们发现WGAN有时候也会伴随样本质量低、难以收敛等问题。WGAN为了保证Lipschitz限制,采用了weight clipping的方法,然而这样的方式可能过于简单粗暴了,因此他们认为这是上述问题的罪魁祸首。 具体而言,他们通过简单的实验,发现weight clipping会导致两大问题:模型建模能力弱化,以及梯度爆炸或消失。 他们提出的替代方案是给Critic loss加入 gradient penalty (GP) ,这样,新的网络模型就叫 WGAN-GP 。 GP项的设计逻辑是:当且仅当一个可微函数的梯度范数(gradient norm)在任意处都不超过1时,该函数满足1-Lipschitz条件。至于为什么限制Critic的梯度范数趋向1(two-sided penalty)而不是小于1(one-sided penalty),作者给出的解释是,从理论上最优Critic的梯度范数应当处处接近1,对Lipschitz条件的影响不大,同时从实验中发现two-sided penalty效果比one-sided penalty略好。 另一个值得注意的地方是,用于计算GP的样本 是生成样本和真实样本的线性插值,直接看算法流程更容易理解: 最后,该论文也通过实验说明,WGAN-GP在训练的速度和生成样本的质量上,都略胜WGAN一筹。

171 评论

狐狸猫fiesta

这一切都是关于什么的?在这篇博文中,我将分享三种技术,帮助我充分利用深度学习研究论文。在过去的11个月里,我一直致力于每周阅读五篇研究论文,以便跟上计算机视觉领域最前沿的想法。几个月来,我尝试了许多不同的技术,我将与您分享三种最有效的技术,这些技术对我有用,以便开始理解并喜欢阅读研究论文。为何阅读研究论文?在您的学习之旅中,您将需要真正开始摆脱教程和课程,然后走出去看看人们正在谈论的想法。为了获得在机器学习中实现理想工作所需的真实世界体验,您需要跟上这个领域。机器学习和深度学习正在迅速改变,似乎每天都有一篇论文发表新想法。“跟上这个领域”的好处是了解并实施最先进的技术,以供未来的雇主观看,了解这些技术可能会引导您研究和创造自己的尖端技术。技巧#1:做笔记即使这看起来很明显,但最简单的事情也很容易做不到。我有一种特殊的方式,我喜欢出去为研究论文做笔记。我发现的内容可以帮助我保留我从深度学习论文中读到的信息,每个部分都有两个注释。即使是论文摘要,我也写下了一些与论文讨论的内容不同的东西。我相信这样做有助于您密切关注论文的想法。技术#2:可视化实施我所说的“视觉实现”是一种我一直在使用的技术,它最适合学习深度学习研究论文中的不同网络架构。在阅读本文时,以您阅读并将其填写的语言查找当前论文的实现。我相信拥有视觉可以让你的思想与你正在学习的想法联系起来。可视化也是为新复杂材料提供更多上下文的一种非常有效的方法。技巧#3:数学这项技术的重点是理解深度学习研究论文中的数学。很多人认为他们不够聪明,不能阅读研究论文的原因是他们可能会看数学并认为研究论文不是为了他们的大脑速度。现在这可能是最难使用的技术,但我相信它真实可以让您对阅读的纸张有最清晰的了解。我使用这种技术的一种方法是第一次阅读论文并忽略数学,然后我会再次阅读它并确保我知道所有的数学方程式。理解数学显然不是最容易做到的事情,但能够在阅读和理解研究论文时形成信心,这只会有助于你在人工智能领域未来的发展!

189 评论

乘风秋夜

Wasserstain-GAN 是 GAN 中非常重要的一个工作 ,文章:

已有的一些距离,定义 为 compact metrix set (随机变量), 是 的波莱尔子集(?), 是所有定义在 上的分布的空间,对于两个分布 有以下的距离的定义:

这四种距离:

文章作者举了例子来阐述了EM距离在连续性上的优越性:

令 , 是 二维随机变量的分布,而 是二维随机变量 的随机分布族,其中 是超参数。

可以发现,当且仅当 时, 和 是同一分布 ,而当 时, 和 是完全没有交集的两个分布 ,下面我们可以分情况计算这四种距离:

比较这四种距离,发现只有EM距离对于 是连续的, 只有EM距离可以使得当 时,分布族 收敛到 ,而且当两个分布完全不相交时,其他距离对于 的导数是0,使得无法通过梯度下降学习。

EM距离中的 计算是非常困难的,作者使用了Kantorovich-Rubinstein对偶,将距离变成了另一个公式:

上式的意思是,对所有满足 1-Lipschitz 的函数 , 的上确界。

将 1-Lipschitz 条件替换为 K-Lipschitz 条件( 为任意常数),如果我们有满足 K-Lipschitz 条件的函数族 ( ),把求解 变成求最优值的问题:

这里就可以引入函数的万能近似器NN了,将其中的 和 替换,最终得到的WGAN的优化目标为:

其中 表示满足Lipschitz-1条件的函数族。

WGAN的训练过程如下图所述:

不难看出D训练地越好,越能反应真实的Wasserstain距离,所以作者也提出可以 将损失函数的值作为Wasserstain距离的近似,衡量WGAN学习的好坏。

总结的上图的要点有:

一点经验之谈:

WGAN使得训练GAN更加容易,至于Mode Collapse,作者只是提到在实验中并没有发现这一现象。

Lipschitz条件的定义:

直观上看,就是函数 任意两点连线斜率小于 。

满足上述条件的函数也称Lipschitz连续,比起连续的函数,满足Lipschitz连续的函数更加光滑,而且它对函数的变化做了要求: 函数在任意区间的变化不能超过线性的变化 , 线性变化的大小不超过Lipschitz常数 。

在非凸优化中,Lipschitz条件对函数定义了一类边界。

文章是为了方便自己理解而写,所以难免有不清楚或错误之处、或者自创的方便理解的术语,如有错误,欢迎指正。

226 评论

麦兜籹籹

深度学习 论文专业发布 从此不再为论文熬夜深度学习 论文 10年高品质!快速审稿!专业团队指导咨询!本机构多年深度学习 论文经验,10年优良品质,深度学习 论文实力强!!!333.wenlinjson.top 广告查看详情深度学习 论文 如何发表?找我们!论文不用愁 深度学习 论文 专业指导团队 审稿效率高,品质有保证还在熬夜找资料吗?审稿论文团队,严格保密_333.wenlinjson.top 广告查看详情2020深度学习 论文_收费低_包修改到过__200元起接单 高品质超低价深度学习 论文_资深编辑团队_深度学习 论文售后无忧_12年经验_百人团队_低价格_深度学习 论文高品质_诚信深度学习 论文咨询热线15150443595777.hshnbjn.cn 广告查看详情深度学习 论文200元起步_收费低_服务好_深度学习 论文_稳定_低价_ 超低价深度学习 论文期刊发表_硕博团队_高品质低价格_期刊发表200元,发表低至300元_诚信深度学习 论文,诚信_咨询热线15150443595777.hshnbjn.cn 广告查看详情管理学教学理念的创新与实践论文.doc5页发布时间:2017年6月27日管理学教学理念的创新与实践论文摘要针对目前在管理学的教学理念中存在的问题。在... 同时缺少深度(如有些教师花大量的课时来讲授“人力资源管理”,效果并不好)。因此应...100%分成比例文档分享网如何写好一篇经管理学论文.doc10页发布时间:2016年10月4日如何创作经济学论文一.发现一个好问题尽管有不少的文章谈到如何创作经济学论文,但... 而且资深记者的报道通常有一定的深度。杂志相对于报纸而言,可能更彻底、更有深度,...100%分成比例文档分享网管理学论文范文 管理学论文大全(500篇) 学术堂学术堂提供管理论文,专业编辑每天更新国内外最新管理论文,首创免费提供论文模式,是您查找管理论文的最权威网站! ... 智能仓储管理系统是一套基于iFIX和RFID解决传统仓储管...lunwenstudy.com管理学论文 UC论文网UC论文网(https://www.lw85.com/)提供经济管理类论文、医药卫生类论文、教育教学类论文、语言文学类论文、外语文学类、信息科技类论文、工程技术类

276 评论

相关问答

  • 论文封面模板专题模板

    封面 :封面是一篇论文的门面,所以要简洁明了。封面应该写明毕业论文,字体为“宋体二号”。名称下面依次是论文题目、作者、学院、专业、学号、班级、指导老师,字体为"

    芯是酸的 2人参与回答 2023-12-10
  • word论文模板专题模板

    Word软件的使用对读者来说并不陌生,很多人也用它来写论文,它的论文格式是怎么样的呢?下面是我精心推荐的一些word论文格式模板,希望你能有所感触!

    paradisevita 2人参与回答 2023-12-06
  • 论文翻译模板模板

    1、论文题目 2、摘要与关键词 3、目录 4、翻译任务描述:主要写有关报告的背景,翻译任务的内容,目的、意义及报告整体结构。 5、翻译过程描述:包括译前——准备

    0921缘分 2人参与回答 2023-12-12
  • 模电论文模板

    论文整体格式模板如下: 1、题目:题目应简洁、明确、有概括性,字数不宜超过20个字(不同院校可能要求不同)。本专科毕业论文一般无需单独的题目页,硕博士毕业论文一

    天堂的阶梯 2人参与回答 2023-12-11
  • 论文模板专题模板

    毕业论文模板如下: 1、绪论 1.1选题依据和选题背景 主要是写论文研究的背景说明,介绍论文选题的初衷,可以从个人需求和社会需求等多角度来说明自己选题的原因。

    魅影幽兰 2人参与回答 2023-12-10