图像分割中具有关注特征聚集的密集预测

原始文档:/lart/papers/xnqoi0

偶然从arxiv翻出来的那篇论文，可以看作是上一篇工作的延伸，即面向语义切分的分层多尺度注意。

从不同图层的要素中聚合信息是密集预测模型的基本操作。

尽管它的表达能力有限，但特性串联主导了聚合操作的选择。

在本文中，我们引入了注意力特征聚合(AFA)来融合不同的网络层与更具表现力的非线性操作。AFA利用空间和通道注意力来计算层激活的加权平均值。

受神经体绘制的启发，我们使用尺度空间绘制(SSR)扩展了AFA，以执行多尺度预测的后期融合。

AFA适用于大范围的现有网络设计。

我们的实验显示，在具有挑战性的语义分割基准上，包括Cityscapes、BDD100K和Mapillary Vistas，在可忽略的计算和参数开销下，有一致和显著的改进。特别是，在城市景观中，AFA将深层聚合(DLA)模型的性能提高了近6%。我们的实验分析表明，AFA学会了逐步细化分割图和改善边界细节，从而在BSDS500和NYUDv2上的边界检测基准上产生了最新的结果。

这里设计了两种积分形式，一种适用于双输入，另一种适用于多输入渐进积分。核心是基于空间注意和通道注意。注意，这里的计算是成对积分的形式，所以在计算一个关注度后，用sigmoid来构造相对权重。

对于双输入形式，空间注意是通过浅层特征计算的，因为它包含了丰富的空间信息，而通道注意是通过深层特征计算的，因为它包含了更复杂的通道特征。对于多输入形式(图中只显示了三层，但实际上可以引入更多层的输入)，通道和空间注意力完全由当前层输入计算，如果有第一层计算，则该注意力将用于加权当前和先前的输出。此外，整合的顺序在原文中被描述为“具有较高优先级的特征将经历较高数量的聚合”。我的理解是，应该是一个由深到浅的过程。

提议的整合模块可用于许多结构，如DLA、联合国电子商务网、人力资源网和FCN。

这里提出的SSR是一种更类似于模型集成的策略。

它通过计算不同尺度下预测输出的相对权重，集成了多尺度推理。因此，这里涉及两个问题:

为了表达多尺度预测的集成，作者首先关注单个像素，并假设模型在不同尺度上为目标像素提供预测。

th标度的预测可以表示为。因此，目标像素在尺度空间中的特征表示可以定义为。此外，假设制图表达比例比比例更粗糙。

那么可以把目标像素想象成在尺度空间中运动的光，从尺度到尺度。

基于这一思想，重新设计了所提出的多特征融合机制中原有的分层注意，并模拟了体绘制方程，其中体由尺度空间隐式给出。

因此，除了该尺度下的特征表示之外，假设该模型还将预测目标像素的标量。在体绘制的情况下，粒子穿过尺度的概率可以表示为。

因此，尺度注意可以表示为粒子到达尺度并停留在此处的概率(每次满足伯努利分布，都必须停留或离开，都走在前面，所以停留在当前时间):

表示每个比例的目标像素预测的标量参数。

最后根据体绘制方程，对目标像素进行多尺度预测融合得到的最终预测是通过对不同尺度的关注度参数进行加权求和得到的，这也反映了对目标像素得到的最终特征是通过驱动所有尺度的特征表达式融合得到的。

基于全面的上下文分析，这里的设计最终应该将所有的音阶整合为1。

提出的SSR可以被视为分级多尺度注意力(HMA)的一般化形式。

通过设置和固定，可以获得后一种形式。这时，有:

从这里的形式来看，这里有两个令人费解的地方:

输入在发送到模型之前会被再次缩放。这里的最终输出大小相当于1.0倍的原始输入大小。因此，假设根据尺度数从K到1对特征进行积分，结果在1层输出。

因为本文构造的注意力是基于不选择当前层(通过当前层)的概率，一般形式如下:

可以看出，第一层的注意力权重是直接sigmoid的输出结果，而对于第k层的输出，它是通过取各层sigmoid输出的互补和相似乘积而获得的。

实验中使用了绝对值函数:。这是受到通过注意机制更好地保留梯度流的分析的启发，因为作者发现现有的注意机制可能会遭受梯度消失的问题。

注意系数排列在前面的形式:

考虑第一层系数关于可学习参数的导数；

当考虑两个尺度时，即:

左上角计算1层的关注系数相对于1层的参数的导数，右上角计算1层相对于第二层的导数。可以看出，无论多少，梯度都会消失。

所以为了避免渐变消失的问题，还是要慎重设置。当选择绝对值函数时，这里的雅可比矩阵在和的情况下不会消失。

考虑到HMA的情况，根据提交人提供的表格，有:

分支2不参与关注度计算。当梯度消失时。

而根据我之前的表格，有:

还会有失踪的问题。