GCN卷积网络的详细介绍

在本文中,我们将仔细研究一个著名的图形神经网络称为GCN。首先让我们直观的了解一下它的工作原理,然后深入的了解一下背后的数学原理。

字幕组双语原创:GCN图卷积网络介绍(GCN)

原英语:图形非自愿网络(GCN)

听风1996,大表哥

很多问题本质上都是图。在我们的世界里,我们看到很多数据都是图,比如分子,社交网络,论文引用网络。

图表示例。(图片来自[1])

在图中,我们有节点的特征(表示节点的数据)和图的结构(表示节点是如何连接的)。

对于节点,我们可以很容易的得到每个节点的数据。但是当涉及到图的结构时,要从中提取有用的信息并不容易。比如两个节点距离很近,是否应该和其他节点对区别对待?高低节点怎么处理?其实对于每一个具体的工作,只是特征工程,也就是把图的结构转化成我们的特征,会消耗大量的时间和精力。

图形特征工程。(图片来自[1])

如果能以某种方式获取图的节点特征和结构信息作为输入,让机器判断哪些信息有用就更好了。

这就是为什么我们需要图形表示学习。

我们希望涂能自学“特征工程”。(图片来自[1])

论文:基于图神经网络的半监督分类(2017)[3]

GCN是一种卷积神经网络,它可以直接在图上工作,并利用图的结构信息。

它解决了图(如引文网络)中节点(如文档)的分类问题,只对少量节点进行标记(半监督学习)。

图上半监督学习的一个例子。一些节点没有标签(未知节点)。

正如“卷积”这个名字所指,这个想法来源于图像,后来被引入到图形中。然而,当图像具有固定的结构时,图就复杂得多。

从图像到图形的卷积思想。(图片来自[1])

GCN的基本思想:对于每个节点,我们从它所有的邻居那里获得它的特征信息,包括它自己的特征。假设我们使用average()函数。我们将对所有节点进行同样的操作。最后,我们将这些计算的平均值输入到神经网络中。

在下图中,我们有一个简单的引用网络的例子。每个节点代表一篇研究论文,边代表一篇引文。我们在这里有一个预处理步骤。这里我们不用原纸作为特征,而是把纸转换成向量(通过使用NLP嵌入,比如tf-idf)。NLP嵌入,比如TF-IDF)。

让我们考虑绿色节点。首先我们得到它所有邻居的特征值,包括我们自己的节点,然后取平均值。最后,通过神经网络返回一个结果向量作为最终结果。

GCN的主要思想。让我们以绿色节点为例。首先,我们取它所有邻居的平均值,包括我们自己的节点。然后,平均值通过神经网络。请注意,在GCN,我们只使用一个全连接层。在这个例子中,我们得到一个二维向量作为输出(全连接层的两个节点)。

在实践中,我们可以使用比平均函数更复杂的聚合函数。我们也可以将更多的层堆叠在一起,以获得更深的GCN。每一层的输出将被视为下一层的输入。

两层GCN的例子:第一层的输出是第二层的输入。同样,注意GCN的神经网络只是一个完全连接的层(图片来自[2])。

让我们从数学的角度认真看看它是如何工作的。

首先,我们需要一些笔记。

我们来考虑图G,如下图所示。

从图g中,我们有一个邻接矩阵a和一个度矩阵d,同时,我们还有特征矩阵x。

那么如何才能从相邻节点得到每个节点的特征值呢?解决方法在于a和x的相乘。

看邻接矩阵的第一行,我们可以看到节点A和节点E之间有连接,矩阵的第一行是节点E与A连接的特征向量(如下图)。同样,得到的矩阵的第二行是D和e的特征向量之和,通过这种方法,我们可以得到所有邻居节点的向量之和。

计算“和向量矩阵”的第一行AX。

在问题(1)中,我们可以通过在A上加一个单位矩阵I来求解,得到一个新的邻接矩阵?。

取lambda=1(让节点本身的特征和邻居一样重要),我们有?=A+I,注意我们可以把lambda看成一个可训练参数,但是现在我们只需要把lambda赋值为1。即使在论文中,lambda也被简单地赋值为1。

通过给每个节点添加一个自循环,我们得到一个新的邻接矩阵。

对于问题(2):对于矩阵缩放,我们通常将矩阵乘以对角矩阵。在目前的情况下,应该取聚合特征的平均值,还是数学上应该根据节点的度来比较聚合向量矩阵?x缩放。直觉告诉我们,这里用于缩放的对角矩阵是和矩阵d?相关的事情(为什么d?,不是d?因为我们在考虑一个新的邻接矩阵?度矩阵d?,而不再是一个)。

现在的问题变成了我们如何缩放/归一化和向量?换句话说:

我们如何将邻居的信息传递给特定的节点?先说老朋友平均。在这种情况下,d?(即d的逆矩阵?{-1})就可以了。基本上,d?的逆矩阵中的每个元素都是对角矩阵d中对应项的倒数。

比如节点A的度是2,那么我们把节点A的聚合向量乘以1/2,节点E的度是5,那么就要把E的聚合向量乘以1/5,以此类推。

因此,通过d?把倒数和x相乘,我们就可以取所有邻居节点(包括我们自己的节点)的特征向量的平均值。

到目前为止,一切都很好。但是你可能会问加权平均()呢?直观上来说,区别对待高低度的节点应该更好。

但是我们只按行缩放,而忽略了相应的列(虚线框)。

向列中添加新的定标器。

新的缩放方法为我们提供了一个“加权”平均值。我们在这里做的是给低级别节点更多的权重,以减少高级别节点的影响。这种加权平均的思想是,我们假设低级别节点对邻居节点的影响会更大,而高级别节点的影响会更小,因为它们的影响分散在太多的邻居节点上。

当在节点B聚集相邻节点的特征时,我们将最大权重(度3)分配给节点B本身,将最小权重(度5)分配给节点E..

因为我们规范化了两次,所以把“-1”改成了“-1/2”。

比如我们有一个10类的多分类问题,f设为10。在层2中有10维向量后,我们通过softmax函数预测这些向量。

损失函数的计算方法很简单,就是用所有标记样本的交叉熵误差来计算,其中Y_{l}是标记节点的集合。

图层数是指结点要素可以传输的最远距离。例如,在1层GCN中,每个节点只能从它的邻居那里获得信息。每个节点收集信息的过程是独立的,所有节点都是同时完成的。

当一层叠加在第一层上时,我们重复收集信息的过程,但这一次,邻居节点已经有了自己的邻居信息(来自上一步)。这使得层数成为每个节点可以进行的最大跳跃。因此,根据我们认为一个节点应该从网络获取信息的程度,我们可以为#layers设置一个适当的数量。但同样,在图片中,我们通常不想走得太远。设置为6-7跳,我们几乎可以得到整个图,但这使得聚合没有意义。

示例:收集目标节点I的两层信息的过程

本文还分别对浅层和深层GCN进行了实验。在下图中,我们可以看到使用2层或3层模型可以获得最佳结果。此外,对于深GCN(超过7层),它通常得到较差的性能(蓝色虚线)。一种解决方案是使用隐藏层之间的剩余连接(紫色线)。

#不同层的性能#。图片来自报纸[3]

论文作者的说明

这个框架目前仅限于无向图(加权或未加权)。但是,我们可以通过将原始有向图表示为无向二分图,并在原始图中添加表示边的节点,来处理有向边和边特征。

对于GCN,似乎我们可以同时利用节点特征和图结构。但是,如果图中有不同类型的边呢?我们是否应该区别对待每一段感情?这种情况下如何聚合邻居节点?最近有什么先进的方法?

在下一篇关于图形主题的文章中,我们将研究一些更复杂的方法。

如何处理不同的关系(兄弟,朋友,...)?

[1]Jure Leskovec(斯坦福)关于图形表示学习的精彩幻灯片:

[5]使用StellarGraph库的演示:-node-classification.html

雷锋字幕组是一个由AI爱好者组成的翻译团队,汇集了五位以上志愿者的力量,分享海外最新的AI资讯,交流人工智能技术领域的产业变革和技术创新。

团队成员包括大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT顾问、在校师生;志愿者来自IBM、AVL、Adobe、阿里、百度等知名企业,以及北大、清华、港大、中科院、南卡罗来纳大学、早稻田大学等国内外高校的科研院所。

如果,你也是一个爱分享的AI爱好者。欢迎和雷锋字幕组一起学习新知识,分享成长。