梯度下降优化论文

公式和特殊字符尚未翻译。请你自己看一看。希望有所帮助:

非负矩阵算法

因子分解

李仁港

贝尔实验室

朗讯科技

新泽西州默里山07974

H.塞巴斯蒂安·程

大脑和齿轮系。SCI .

麻省理工学院

马萨诸塞州剑桥02138

摘要

非负矩阵分解(NMF)以前已经被证明过。

是对多元数据的一种有用的分解。两种不同的——

折扇NMF算法分析。它们只是略有不同。

用于更新规则的倍增系数。算法可以

为了减少传统的最小二乘误差等

广义Kullback-Leibler散度最小化。单调的

这两种算法的收敛性可以用一个辅助函数来证明——

该方法类似于用于证明的预期收敛—

最大化算法。算法也可以解释为诊断—

只要调整好梯度下降，比例因子就是最好的。

选择以确保收敛。

1简介

无监督学习算法，如主成分分析和矢量量化—

量化可以理解为不同约束下的数据矩阵分解。表示“向下”

等待时间来限制利用率的因素可能非常不同—

不同的代表表现。主成分分析执行得很弱，或者—

波函数的正交约束导致在完全分布的表象中取消使用。

产生变异，[1，2]。另一方面，矢量量化，有很大的赢家—

将所有约束划分为互斥的原型[3]。

我们以前已经表明，非负矩阵分解是一个有用的约束。

你可以学习数据中的一些表示[4，5]。非负碱性载体，

所使用的分布式但仍然稀疏的组合产生了性能。

重建[6，7]。在这篇文章中，我们分析了两种数值算法。

从数据中学习最优非负因子。

2非负矩阵分解

我们正式考虑该算法来解决以下问题:

非负矩阵分解(NMF)给出一个非负矩阵。

、和非负矩阵的因子。

和

像这样:

1。NMF可通过以下方式应用于多元数据的统计分析。

给定一组多维数据向量，向量放在

圆柱

矩阵

在哪里

在一些例子中是数据集。这

矩阵，然后分解成一个近似值。

矩阵

第一

矩阵

通常选择小于或

你说什么

和

比原来的

矩阵

。这个结果是原始数据矩阵的压缩版本。

在方程式的大概意思里？(1)是什么意思？它可以重写该列。

支柱

在哪里

和

有相应的列

和

。在其他方面

如果是，每个数据向量

通过列的线性组合近似

按成分加权。因此

可以算是包含了基础。

这是数据的线性近似优化。

。由于相对较少的基础

向量来表示许多数据载体，良好的近似，只能实现。

如果在基本矢量数据中发现潜在结构。

这份文件是否应用了NMF并专注于技术—

非负矩阵因式分解？Nding技术。当然，其他类型的马—

矩阵分解在数值线性代数中已被广泛研究，但它不—

负约束使得许多以前的工作不适用于这种情况。

8。

这里，我们讨论两种基于迭代更新的NMF算法。

和

。因为

这是一个简单的算法和它的收敛性保证。

我们发现它们在实际应用中非常有用。其他算法可以

更有效？整体计算时间充足，但也比较难？崇拜的实现可能性

它不能扩展到不同的成本函数。我们的算法只有一个相似之处。

该因子适用于先前用于发射断层摄影的去卷积。

以及天文图像[9，10，11，12]。

在算法的每次迭代中，都会获得新的值。

或者

被发现了。

一些因素取决于等式(1)的近似质量的当前值。我们

证明了近似性质和应用是单调改进的。

这些乘法更新了规则。在实践中，这意味着迭代。

更新规则以确保收敛到局部最优矩阵分解。

3的成本函数

对吗？Nd近似因子分解

首先，我们？需要？NE的成本函数

量化近似的质量。可以构建这样的成本函数

使用一些度量，两个非负矩阵之间的距离

和

。一个有用的

度量就是正方形之间的欧几里得距离。

这是零的下界，当且仅当它局部消失。

和

13。

2。

另一个有用的措施

3。

这也像欧几里德距离下界的零点，如果只有和消失。

如果

。但不能称之为“距离”，因为它是不对称的。

和

所以我们称之为“发散”

从

。它减小了库尔贝克-莱布勒距离

散度，或相对熵，当

你说什么

和

能

作为一个标准化的概率分布。我们现在考虑NMF的两种配方的优化:

1最小化问题

相对于

和

被束缚

2最小化问题

相对于

和

被束缚

尽管该功能

和

是凸的。

仅或

只是他们

这两个变量是不凸的。所以，对算法的期待是不现实的。

解决1和2中的问题？寻找全局最小值的感觉。然而，有许多

从数值优化来说，是否可以应用到？和局部最小值。

梯度下降可能是实现它的最简单的方法，但收敛可以

慢点。其他方法，如* * *轭梯度法，收敛速度更快，至少在

附近的局部极小值，但是比梯度下降实现起来更复杂。

8。基于梯度的方法也是不利的。

对步长的选择敏感，但不便于大规模应用。

4乘法更新规则

我们发现下面的“乘法更新规则”是一个很好的折中方案。

解决1和2在速度和易于实现的问题。

定理1的欧氏距离

根据更新后的规则，它是负的。

4。

当且仅当进行了这些更新时，欧几里德距离才是恒定的。

固定点的距离。

和

在一个地方

定理2的分歧

根据更新后的规则，它是负的。

5。

差异是不断的，这些更新是必要的，也是唯一必要的。

和

在固定的

分歧点。

这些定理的证明将在后面的章节中给出。现在，我们注意到每次更新

乘以一个倍数。尤其是直接看到这一点。

当乘法因子统一时

这种完美的重建是必要的

一个？XED的更新规则点。

5的乘法和加法规则的更新

将这些乘法的更新与梯度下降进行比较是有用的。

14。特别是更新了一个简单的添加剂。

减小平方距离可以

写为

6。

如果

都被设为等于一些小正数，相当于传统。

梯度下降。只要这个数字足够小？，应该减少更新。

。如果我们对角缩放变量和设置，

7。

我们得到的更新规则。

这给出了定理1。请注意，这个比例

梯度的正分量中宗派宗教的倍增因子的结果—

而是第一个和因子的分子的负分量的绝对值。

散度，对角缩放梯度下降形式

8。

同样，如果

是小而正的，这个更新应该会减少。

。如果我们现在

收集

9。

我们得到的更新规则。

这给出了定理2。也可以进行这种调整。

被解释为具有梯度的正分量的乘法规则。

分母和负分量用作乘法因子分子。

因为我们的选择

不小，这个好像没有保证。

调整梯度的减小导致代价函数的减小。令人惊讶的是，这是

事实上，这种情况将在下一节中介绍。

6的收敛性证明

为了证明定理1和定理2，我们将使用一个类似于using的辅助函数。

在期望最大化算法[15，16]中。

德？定义1

是辅助功能。

如果条件

10。

两者都有？版本。

可达性是一个有用的概念，因为下面的引理，它也是。

图1示意图。

1 If引理

是一个辅助功能，然后

这是一个减法更新

11。

证明:

请注意，

只有

是本地最小值。

。如果导数

关于

在一个小的社区中存在并且持续

，这也意味着

衍生物

。因此，通过迭代更新公式(11)，我们得到一个序列。

估计收敛到局部最小值。

的目的

功能:

12。

我们会证明德国？适当的辅助功能

二

和

定理1，更新规则和2容易遵循以下公式(11)。分享到:14000克(高，高)

女(男)

HT HT+1

图1:最小化可访问性

为

If引理

正对角矩阵

HMIN

保证

13。

然后

14。

是辅助功能。

15。

证明:来自

显然，我们只需要展示

。随着

为此，我们比较了

16。

使用公式(14)？发现

胜任

17。

18。

这是一个缩放组件。

semide？当且仅当夜晚。

是的，还有

。然后

是积极的。

19。

20。

21。

22。

23。

你也可以证明这一点

正半？有限考虑矩阵

。然后

是正的特征向量。

随着

应用统一特征值和Frobenius Perron定理表明公式17成立。分享到:14000现在我们可以证明定理1的收敛性了:

定理1的证明替换

从属公式(14)是一个辅助函数，

在公式(11)中，更新公式(14)中规则的结果是:

24。

这是根据负更新规则，根据

引理1。这个等式的组成很清楚，我们得到

25。

通过扭转的作用

和

引理1和2，

这也可以证明

在更新的减法规则下

我们现在考虑发散成本函数的下列辅助函数:

引理3 de NE

26。

27。

这是一个辅助功能

28。

证明:这是一个简单的验证。

。显示

利用对数函数的凸性得到的不等式。

29。

所有非负货舱

那种统一。建立

30。

我们得到了什么

31。

从这个不等式得出如下

定理2，然后从应用引理1:

定理2的证明:最小值

相对于

通过设置

梯度为零:

32。

因此，方程的更新规则是(11)的形式。

33。

自己

是一个辅助功能，

从等式(28)中减去该更新。重写—

ten的矩阵形式，相当于EQ (5)的更新规则。通过扭转的作用

和

，更新规则

也可以证明是负的。7讨论

我们证明了它在方程规则更新中的应用。(4)和(5)保证

问题1和2？Nd个至少局部最优解。的趋同

依赖证明？宁适当的辅助功能。我们目前的工作

这些定理被推广到更复杂的约束。更新规则本身

计算很简单，估计会用到别人。

各种应用。

我们感谢贝尔实验室的支持。我们也要感谢卡洛斯

布劳迪，肯·克拉克森，科琳娜·科尔特斯，罗兰·弗罗因德，琳达·考夫曼，颜乐存，萨姆。

Journal、Larry Sauer和Margaret Wright进行了有益的讨论。

参考书

[1] Jolliffe，it (1986)。主成分分析。纽约:斯普林格出版社。

[2]土耳其，收购彭特兰，I (1991)。特色人脸识别。j .相知神经科学。3,86,71–。

[3]格绍，灰色，RM(1992)。矢量量化的信号压缩。中国科学院。

出版社。

4李大东和程，房协。使用凸锥编码的无监督学习(1997)。诉讼

在神经信息处理系统第9次会议上，515–521。

5李大东和程，房协(1999)。非负矩阵分解学习对象的部分—

还有阿什。房产401，788–791。

[6]菲尔德，DJ(1994)。感官编码的目的是什么？神经计算。6,601,559–。

[ 7 ]福尔迪亚克，P & amp杨，男(1995).稀疏灵长类大脑皮层的编码。大脑手册。

理论与神经网络，895–898。麻省理工学院出版社，麻省剑桥。

[8]出版社，WH，秀，萨，维特林，权重和弗兰纳里，英国石油公司(1993)。数值方法:艺术

科学计算？丙.(剑桥大学出版社，英国剑桥)。

[9]西浦，拉和瓦迪，Y(1982)。最大似然重建的发射断层成像。

IEEE汇刊.113–2,122。

【10】理查森，谁(1972)。基于贝叶斯网络的迭代图像复原方法。j .选择。SOC .

我。62,59,55–。

露西，LB(1974)。观察分布？阳离子迭代技术。天文学。

74,745–754。

[12]加州博曼和K绍尔(1996)。一所大学？使用坐标统计层析成像的方法

下降的最优化。IEEE汇刊.图像处理。5,492,480–。

[13]帕特罗，P和T，U(1997)。用最小二乘法制定的稳健非负因素分析—

姐姐.计量学。智力。实验37，23–35。

基维宁和沃穆斯，J，M(1997)。加法和功率梯度更新线性

预测。信息与计算杂志132，1–64。

登普斯特，莱尔德，美联社，纳诺和鲁宾，DB(1977)。最大似然法的不完全数据

EM算法。皇家统计系统。39,38,1–。

绍尔，L和佩雷拉，F。聚集和混合序马尔可夫模型的统计语言

处理。C. Heart和R. Wei Scheedel(编辑)。第二次会议纪要

自然语言处理中的经验方法，81–89。ACL出版社