论文研究:WGAN
一些已有的距离,定义为紧矩阵集(随机变量),是(?),它是上定义的所有分布的空间,对两个分布的距离有以下定义:
这四个距离:
作者举例说明了EM距离在连续性方面的优越性:
设是二维随机变量的分布,但它是二维随机变量的随机分布族,其中是超参数。
可以发现,当且仅当,和是同一个分布,而当,和是两个完全没有交集的分布,我们可以在不同的情况下计算这四个距离:
对比这四个距离,发现只有EM距离对是连续的,只有EM距离能使分布族收敛到,而当两个分布完全不相交时,其他距离对的导数都是0,这就使得梯度下降法无法学习。
计算电磁距离是非常困难的。作者用Kantorovich-Rubinstein对偶把距离换成另一个公式:
上式表示所有满足1-Lipschitz的函数的上确界。
将1-Lipschitz条件替换为K-Lipschitz条件(这是一个任意常数)。如果我们有一族满足K-Lipschitz条件的函数(),那么解决方案就变成了寻找最优值的问题:
这里可以引入函数的通用逼近器NN,代入它们的和,最终得到WGAN的优化目标如下:
其中它表示满足Lipschitz-1条件的函数族。
WGAN的培训流程如下:
不难看出,D训练得越好,越能反映真实的瓦瑟斯坦距离。因此,作者还提出损失函数值可以作为Wasserstein距离的近似值来衡量WGAN的学习质量。
上图的要点总结如下:
一点经验:
WGAN更容易训练GAN。关于模式崩塌,作者只是提到实验中没有发现这种现象。
李普希茨条件的定义:
直观的说就是函数任意两点连线的斜率小于。
满足上述条件的函数也称为Lipschitz连续性。与连续函数相比,满足Lipschitz连续性的函数更光滑,它要求函数的变化:函数在任意区间的变化不能超过线性变化,线性变化的大小不能超过Lipschitz常数。
在非凸优化中,Lipschitz条件定义了函数的一类边界。
文章是为了自己的理解而写的,难免会有歧义或错误,或者是自创的容易理解的术语。如有错误,请指正。