Swin变压器

目前《变形金刚》从语言到视觉任务的挑战主要源于这两个领域的差异:

为了解决以上两点，我们提出了一种分层变换器，通过滑动窗口提取特征，将自我关注度的计算减少到与图像大小线性相关。

我们观察到，将语言领域迁移到视觉领域的主要问题可以归纳为两种类型:

在源代码实现中，两个模块合二为一，称为PatchEmbedding。输入图片大小为RGB的图片，把4x4x3看成一个面片，用线性嵌入层把面片变换成任意维度的特征。在源代码中，使用了4x4跨距=4的conv实现。-& gt；

这是本文的核心模块。

窗口划分分为常规窗口划分和移位窗口划分，分别对应W-MSA和SW-MSA。通过窗口划分将输入特征映射转换为num _ windows * b，window _ size，window _ size，c，其中num _ windows = h * w/window _ size/window _ size。然后调整大小为num _ windows * b，window _ size * window _ size，c .源代码如下:

它由规则窗口划分模块和多头自关注模块组成。

与直接使用MSA相比，W-MSA主要是减少计算量。传统的变压器基于全局计算关注度，计算复杂度很高。但是swin transformer通过关注每个窗口来减少计算量。主要计算过程注意如下:

假设每个窗口的块大小为，输入大小为，则原始和的计算复杂度如下:

虽然减少了计算量，但是由于注意力局限在窗口上，不重叠的窗口缺乏联系，限制了模型的性能。因此，提出了一个模块。在MSA之前添加一个循环移位窗口分区。

在swin transformer中，池不用于缩减像素采样，但在yolov5中，焦点图层用于缩减像素采样要素地图。-& gt；，使用全连接层->；在一个阶段中，特征图的高度和宽度减半，通道数加倍。

基准模型的结构命名为Swin-B，模型规模和计算复杂度与VIT-B/DEIT-B相似，同时我们还提出了Swin-T、Swin-S和Swin-L，分别对应0.25×、0.5×和2×的模型规模和计算复杂度。Swin-T和Swin-S的计算复杂度分别与ResNet-50和ResNet-101相似。默认设置是7。表示第一层中隐藏的层数。