神经网络是大数据时代的必然(原始)发展。
?(上图):横轴代表数据量,纵轴代表算法精度。
我们看到了几个趋势:行业数据的指数级增长,以GPU为代表的专业芯片计算能力的增长,新算法的层出不穷,学术界的前沿研究,投资圈的资金投入,各种工商业场景,这些都推动了神经网络的快速发展。神经网络的发展有两个方向:一个是以DNN深度连接和CNN卷积神经网络为代表的垂直发展,即增加层数的垂直迭代,典型应用是CV计算机视觉;二是以RNN递归神经网络为代表的横向发展,即神经元之间的横向迭代。典型的应用是以NLP自然语言理解为代表的序列处理。神经网络技术同时呈现两种发展形态,并在多个领域得到广泛应用,说明该技术已经进入成熟阶段。下一步是哪个方向?很有可能将纵向开发和横向开发结合起来,渗透到更多的应用领域。这似乎是一个合乎逻辑的结论。事实证明这个判断是正确的,而图神经网络就是两者的结合。
纵观技术圈的发展历史,我们可以总结出一个事实:一项理论技术能否在更多领域普及,取决于它能否真实刻画现实世界的实质性特征和关系。越真实,应用场景就越多。例如,马尔可夫链理论真实地刻画了现实世界中时间序列对象的特征和依赖性,因此被广泛应用于语音理解、机器翻译、国民经济、事件预测等领域;再比如概率图论,用图来表示事件概率的依赖关系,也真实地刻画了现实世界中的实体关系,因此在反欺诈、图像理解、事件预测等领域也有广泛的应用。从方法论的角度来说,为了描述现实世界中的实体,需要在模型中放置代表这个实体的节点,并设计实体之间依赖关系的转换。但是马尔可夫链和概率图都弱化了嵌入表示,从而丢失了一些隐藏的语义信息,是有缺陷的。
图形神经网络(GNN)的出现扭转了局面。在图形神经网络中,有两种网络。一类是拓扑网络,通常描述许多实体及其关系;另一种是特征变换神经网络,通常用于节点、边、图或子图的特征变换。前者完成信息横向传播,实现图形信号的拓扑关系传递,理论基础是图论;后者基于深度学习,完成信息的垂直传播,实现从原始特征到嵌入式表示的转化。图形神经网络是图论和深度学习的完美结合,既考虑了实体关系,又考虑了实体特征。与传统的图方法和传统的深度学习相比,图神经网络具有明显的优势:对源数据的建模更加充分,能够更好地反映现实世界中实体之间的真实关系。它不仅可以从图结构表示的非欧空间数据中学习语义表示,而且可以使学习到的语义表示最大限度地符合图结构的实体关系。
现实世界中80%以上的数据更适合用图结构来描绘,比如流量数据、社会数据、分子结构数据、行业经济数据等等。图形神经网络可以适应这种数据。在分布式学习架构下,图形神经网络可以处理海量数据,非常适合处理上亿节点的工业数据。因此,图神经网络的应用场景更加广泛。近三年来,各种国际峰会频繁发表关于图神经网络的论文,许多互联网科技公司(如阿里、百度、字节跳动)在这一领域投入了大量资金,并取得了很大进展,广泛应用于相关搜索、实时推荐、风险防控、异常检测、行为预测、模式识别等领域。这些现象无疑表明,图形神经网络是未来技术发展的一个重要领域方向。
综上所述,在行业数据、算法理论、计算能力支撑、市场需求、资本涌入的背景下,图神经网络的快速崛起是大数据时代的必然。