ICLR2022论文列表

论文:表征信号传播以缩小非标准化结果中的性能差距

?BatchNorm是深度学习中的核心计算组件,在大多数SOTA图像模型中使用,具有以下优点:

?不过BatchNorm虽然好,但是还是有以下缺点:

?目前,许多研究已经开始寻找规范化层来替代BatchNorm,但这些替代层要么表现不佳,要么带来新的问题,如增加推理的计算消耗。其他研究尝试去除归一化层,如初始化残差微分分支的权值使其输出为零,以保证在训练初期通过skip path传递大部分信息。虽然可以训练深度网络,但使用简单初始化方法的网络精度较差,这样的初始化很难用于更复杂的网络。

?因此,本文希望找到一种有效的方法来训练深度残差网络,而不需要批处理,并且测试集的性能可以媲美当前的SOTA。论文的主要贡献如下:

?许多研究从理论上分析了ResNet的信号传播,但很少在设计或魔变网络时现场验证不同层的特征缩放。实际上,用任意输入进行正向推理,然后记录网络不同位置特征的统计信息,可以直观地了解信息传播情况,尽早发现隐藏的问题,而不需要经过漫长的故障训练。因此,本文提出了信号传播图(SPPs),其中输入随机高斯输入或真实训练样本,然后分别统计每个残差块输出的以下信息:

?本文对常见的BN-ReLU-Conv结构和不常见的ReLU-BN-Conv结构进行了统计检验。实验网络为600层ResNet,由何初始化,定义为残差块。从SPPs中可以发现以下现象:

?如果直接去除BatchNorm,平均平方信道均值和平均信道方差会不断增加,这也是深度网络难以训练的原因。因此,要摆脱BatchNorm,就必须尝试模拟BatchNorm的信号传输效果。

?根据以前的SPPs,本文设计了一个新的矫正块,主要模拟BatchNorm在均值和方差方面的性能,具体如下:

?根据上述设计,给定总和,第一残差块的输出的方差可以根据下式直接计算。为了模拟ResNet中的累积方差在过渡块被重置,有必要将过渡块的跳过路径的输入减少到0,以确保过渡块在每个阶段开始时的输出方差被满足。无规格化器的resnet(NF-resnet)是通过将上述简单的缩放策略应用于剩余网络并移除BatchNorm层而获得的。

?本文对何初始化的NF-ResNet进行了SPPs分析。结果如图2所示,发现了两个意想不到的现象:

?为了验证上述现象,本文去除了网络的ReLU,并用SPPs进行了分析。如图7所示,去除ReLU后,平均通道均方接近0,剩余差分支路输出接近1,说明ReLU引起了均值漂移现象。

?文章还从理论角度对这一现象进行了分析。首先,变换被定义为一个任意的固定矩阵,它是一个作用于独立同分布输入的逐元素激活函数,所以它也是独立同分布的。假设每个维度都有和,则输出的均值和方差为:

?其中,总和是扇入的均值和方差:

?当ReLU的功能被激活时,这意味着后续线性层的输入都是正平均值。如果是这样,那么。因为,如果也是非零的,也有非零均值。需要注意的是,即使是从均值为零的分布中采样,实际的矩阵均值也肯定不会为零,所以残差微分分支的任何维度的输出都不会为零,而且随着网络深度的增加,训练的难度越来越大。

?为了消除mean-shift现象,保证残差分支具有方差不变性的特点,本文借鉴了权重标准化和中心权重标准化,提出了比例权重标准化(Scaled WS)的方法,将卷积层的权重重新初始化为:

?和是卷积核扇入的均值和方差,权值一开始是高斯权值,是固定的常数。代入公式1,可以得出结论,对,均值漂移现象消除。另外方差变成了,值由使用的激活函数决定,可以保持方差不变。

?Scaled WS在训练上的额外开销很小,与批量数据无关,推理上也没有额外开销。另外,训练和测试时的计算逻辑是一致的,对分布式训练也是友好的。从图2中的SPPs曲线可以看出,具有缩放WS的NF-ResNet-600的性能与ReLU-BN-Conv非常相似。

?最后一个因素是确定值,以确保初始阶段残余差分支路输出的方差接近1。该值由网络使用的非线性激活类型决定。假设非线性输入,ReLU输出相当于从具有方差的高斯分布中采样。因为,可以设定确保。虽然实际输入并不完全一致,但上述设置在实践中还是有不错的表现。

?对于其他复杂的非线性激活,如路斯和Swish,公式推导会涉及到复杂的积分,甚至无法推导。在这种情况下,可以使用数值近似值。首先从高斯分布中采样多维向量,计算每个向量主动输出的实际方差,然后取实际方差的平均值的平方根。

?本文的核心是保持正确的信息传递,所以很多常见的网络结构都需要修改。就像选择价值观一样,必要的修改可以通过分析或者实践来判断。比如SE模块的输出需要乘以的权重,导致信息传递减弱,网络不稳定。使用上面提到的数值近似值进行单独分析,发现期望方差为0.5,这意味着输出需要乘以2才能恢复正确的信息传输。

?事实上,有时相对简单的网络结构修改就能保持良好的信息传递,有时即使不修改网络结构,网络本身对网络结构引起的信息衰减也能非常鲁棒。因此,本文还尝试在保持训练稳定的前提下,测试了可伸缩WS层的约束条件的最大松弛度。例如,为了恢复缩放的WS层的一些卷积表达能力,分别为权重乘法和非线性输出加法添加了可学习的缩放因子和偏差。当这些可学习参数没有约束时,训练的稳定性没有受到太大影响,但对150层以上的网络训练有帮助。所以NF-ResNet直接放宽了约束,增加了两个可学习的参数。

?论文附录有详细的网络实现细节,有兴趣的可以去看看。

?综上所述,无规格化器ResNet的核心有以下几点:

?与其他方法相比,RegNet的无规范化器变体与EfficientNet几乎相同,但非常接近。

?本文提出NF-ResNet,根据网络实际的信号传输进行分析,模拟BatchNorm在均值和方差传输中的性能,进而替换BatchNorm。论文的实验和分析非常充分,效果也很好。有些初始化方法的理论效果是正确的,但实际使用中会有偏差。本文通过实践分析找到这一点,以补充和落实实践出真知的道理。