Aaai论文

Paper:用于细粒度视觉分类的上下文感知注意力池(cap)。

？本文认为，大多数优秀的细粒度图像识别方法都是通过探索目标的局部特征来帮助识别，但并不标注局部信息，而是采用弱监督或无监督的方式来定位局部特征位置。而且，大多数方法使用预先训练的检测器，不能很好地捕捉目标和局部特征之间的关系。为了更好地描述图片内容，需要更细致地考虑从像素到目标再到场景的信息，不仅要定位局部特征/目标，还要从多维度描述其丰富互补的特征，从而得到完整的图片/目标内容。

？从卷积网络的角度考虑如何描述目标，提出了上下文感知注意池(CAP)模块，该模块能够有效地编码局部特征的位置信息和外观信息。该模块以卷积网络的输出特征为输入，在调整特征中学习不同区域的重要性，从而获得局部区域丰富的外观特征和空间特征，进而做出准确的分类。

？本文的主要贡献如下:

？本文算法的整体流程如上图所示。它输入图片并输出特定的从属类别，包括三个组件(三组参数):

[图像上传失败...(图片-bc43b-1644805770766)]

？卷积网络输出的特征定义为CAP的模块综合考虑像素级特征、小区域特征、大区域特征和图片级特征的上下文信息进行分类。

[图像上传失败...(图片-818dc 8-1644805770766)]

？像素级特征的上下文信息主要学习像素之间的相关程度。在计算位置的输出时，根据相关程度合成所有其他像素特征，直接由自我注意实现，特征变换使用卷积。这一步直接操作了骨干网输出的特性，但并没有体现在整体流程图中。

？为了更有效地学习上下文信息，在特征图上定义不同粒度级别的基本区域，粒度级别由区域的大小决定。以位置中最小的区域为例，通过放大宽度和高度可以导出一系列的区域。在不同的位置生成相似的区域集，得到最终的区域集。以不同的纵横比覆盖所有区域可以提供全面的上下文信息，并有助于在图片的不同级别提供细微的特征。

？根据上一步，我们在特征图上从最小到最大得到20个区域。本文的目标是将不同大小的区域表示为固定大小的特征，主要使用双线性插值。定义为坐标转换函数，为区域坐标，且对应的特征值为，则转换后图片的坐标上的值为:

？对于采样函数和核函数，这里采用了最原始的方法，将目标坐标映射回原始图像，取最近的四个点，按距离输出，最后合并后得到固定的特征。

？这里，论文使用了一种全新的注意机制来获取上下文信息，并根据与其他特征的相似度进行输出，使模型可以有选择地聚焦于更相关的区域，从而生成更全面的上下文信息。输出具有查询项和一组关键词项的上下文向量；

？用于将输入特征转换成查询项的参数矩阵和关键项是非线性组合，和是偏移项。总的可学习参数是0，而注意项表示两个特征之间的相似性。这样，上下文向量就可以表示该区域所包含的上下文信息，是根据其与其他区域的相关性得到的，整体计算思路基本类似于自我关注。

？上下文向量描述了一个区域的关键程度和特征。为了进一步增加与空间排列相关的结构信息，本文将一个区域的上下文向量转化为一个区域序列(从上到下，从左到右)，输入到递归神经网络中，用递归神经网络的隐单元表示结构特征。

？该区域的中间特征可以表示为LSTM，它包含了LSTM的相关参数。为了增加泛化能力和减少计算量，通过全局平均池化得到上下文特征，最后输出上下文特征序列对应的隐藏状态序列供分类模块后续使用。

[图像上传失败...(图片-AAB 286-1644805770766)]

？为了进一步引导模型区分细微变化，本文提出了一种可学习的池化操作，通过组合具有相似响应的隐藏层来整合特征信息。基于NetVLAD的思想，本文采用导数聚类法对隐含层响应值进行变换。首先，计算隐藏层的响应和类簇之间的相关性，然后将其加权到类簇的VLAD编码中:

[图像上传失败...(图片-2d95b2-1644805770766)]

？每个聚类都有其可学习的参数和。整个思想以softmax为基础，根据softmax的权重将隐层响应值分配给不同的簇。在获得所有聚类的编码向量之后，我们使用可学习的权重和softmax来归一化它们。因此，分类模块的可学习参数是。

[图像上传失败...(图片-d9e 014-1644805770766)]

？在不同的数据集上比较了不同的方法。

？不同骨干网下的精度比较。

？不同模块输出特性的可视化。图B显示了添加CAP后骨干网的输出特性。

？本文提出了一种细粒度的分类解决方案CAP，通过上下文感知的注意机制，帮助模型发现目标的细微特征变化。除了像素级的注意机制，还有区域注意机制和局部特征编码方法，与以往的视觉方案有很大不同，值得一看。

？