恒环纸业出版

由大数据文摘制作

编译:李可、张、刘俊环

可解释性仍然是现代深度学习应用中最大的挑战之一。计算模型和深度学习研究的最新进展使我们能够创建极其复杂的模型，包括数千个隐藏层和数千万个神经元。令人惊叹的前沿深度神经网络模型构建相对简单，但要理解这些模型如何创造和使用知识仍然是一个挑战。

最近，来自Google Brain团队的研究人员发表了一篇论文，提出了一种新的方法，称为概念激活向量(Concept Activation Vectors，CAV)，为深度学习模型的可解释性提供了一个新的视角。

为了理解CAV技术，我们需要理解深度学习模型中可解释问题的本质。在当今这一代深度学习技术中，模型的准确性和可解释性之间存在着永恒的矛盾。可解释性和准确性的矛盾存在于完成复杂知识任务的能力和理解这些任务是如何完成的能力之间。知识和控制、性能和可验证性、效率和简单性...任何选择其实都是准确性和可解释性的权衡。

你关心的是得到最好的结果，还是结果是如何产生的？这是每个深度学习场景下数据科学家都需要回答的问题。许多深度学习技术在本质上非常复杂，尽管它们在许多场景中是准确的，但它们非常难以解释。如果我们在准确性-可解释性图表中绘制一些最著名的深度学习模型，我们会得到以下结果:

深度学习模型中的可解释性不是一个单一的概念。我们可以从多个层面来理解:

为了获得上图中每个层定义的可解释性，需要几个基本的构建块。在最近的一篇论文中，谷歌研究人员概述了一些他们认为可以解释的基本构件。

谷歌总结了以下可解读的原则:

-了解隐层的作用:深度学习模型中的大部分知识都是在隐层中形成的。了解不同隐藏层在宏观层面上的功能，对于解释深度学习模型非常重要。

-理解节点的激活模式:可解释性的关键不在于理解网络中每一个神经元的功能，而在于理解在同一空间位置上一起被激发的相互连接的神经元群。用相互连接的神经元群分割神经网络，可以使我们从更简单的抽象层面理解其功能。

-理解概念形成的过程:理解深度神经网络如何形成构成最终输出的单个概念是可解释性的另一个关键构建块。

这些原则是谷歌新CAV技术背后的理论基础。

遵循上面讨论的思想，可解释性通常被认为是通过其输入特征来描述深度学习模型的预测。逻辑回归分类器就是一个典型的例子，它的系数权重通常被解释为每个特征的重要性。然而，大多数深度学习模型对像素值等特征进行操作，这些特征并不对应人类容易理解的高级概念。此外，模型的内部值(例如，神经元激活)也很难理解。虽然显著图等技术可以有效地衡量特定像素区域的重要性，但它们无法与更高级别的概念相关联。

CAV背后的核心思想是测量模型输出中概念的相关性。概念的CAV是一个向量，由不同方向上的概念实例的一组值(例如，激活)组成。在这篇论文中，谷歌研究团队概述了一种称为CAV(TCAV)测试的线性可解释方法，该方法使用偏导数来量化预测CAV所代表的潜在高级概念的灵敏度。他们认为TCAV定义有四个目标:

-容易理解:用户几乎不需要机器学习专业知识。

个性化:适应任何概念(如性别)，不限于参与培训的人。

-即插即用:它可以在不重新训练或修改机器学习模型的情况下运行。

-全局量化:单个量化测量可用于解释所有类别或所有实例，而不仅仅是单个数据输入。

为实现上述目标，TCAV方法分为三个基本步骤:

1)为模型定义了相关概念。

2)理解预测对这些概念的敏感性。

3)推断每个概念对每个模型预测类的相对重要性的全局量化解释。

TCAV方法的第一步是定义相关概念。为了做到这一点，TCAV选择了一组代表概念的实例，或者寻找一个独立的数据集标记为概念。我们可以通过训练一个线性分类器来学习CAV，将概念实例产生的激活与每一层中的实例区分开来。

第二步是生成TCAV分数，该分数可用于量化预测对特定概念的敏感度。TCAV使用偏导数来衡量ML预测值对某个概念方向和激活水平上的输入的敏感度。

最后一步是尝试评估学习到的CAV的全局相关性，避免依赖不相关的CAV。毕竟，TCAV技术的一个缺点是有可能学习到无意义的CAV，因为CAV仍然可以通过使用一组随机选择的图像来获得，测试这种随机概念不太可能有意义。为了处理这个问题，TCAV引入了统计显著性检验，用随机的训练次数(通常是500次)来评估CAV。基本思想是有意义的概念应该在多次训练中获得一致的TCAV分数。

该小组进行了几次实验，以评估TCAV与其他可解释方法相比的效率。在最引人注目的测试之一中，该团队使用显著图来尝试预测出租车概念与标题或图像的相关性。显著图的输出如下:

使用这些图像作为测试数据集，谷歌大脑团队邀请了50个人在亚马逊Mechanical Turk上做实验。每个实验者对单个模型执行一系列* * *六个随机顺序任务(3种物体x 2种显著图)。

在每个任务中，实验者首先会看到四张图片和相应的显著性面具。然后，他们要评估图像对模型的重要性(10)、标题对模型的重要性(10)以及他们对答案的信心(5)。实验人员评估了60张不同的图像(120张不同的显著性图)。

实验的基本事实是图像的概念比标题的概念更相关。但是在看显著图的时候，人们会认为标题的概念更重要(0%噪声的模型)，或者分不清区别(100%噪声的模型)。相比之下，TCAV的结果正确地表明，形象的概念更为重要。

TCAV是近年来最具创新性的神经网络解释方法之一。最初的代码可以在GitHub上看到。许多主流深度学习框架可能会在不久的将来采用这些想法。