ResNet:在视觉跟踪中的应用

SiamFC跟踪方法取得了巨大的成功,也推动了深度学习在跟踪领域的发展。我们知道SiamFC采用的骨干网络是AlexNet,用于提取图像特征。AlexNet首次在图像识别任务中提出,首次证明了卷积网络在CV领域的有效性,并在2012年ImageNet竞赛中获得第一名。此后,许多深度卷积网络被提出,如VVG,谷歌网和雷斯网。可以看到,从AlexNet到ResNet,网络的层数越来越多,也就是网络的深度越来越深,这也使得网络的性能越来越强大,成绩越来越好。由此我们自然可以想到,使用更强大的主干是否也能提高暹罗跟踪法的性能。本文主要讨论SiamRPN++中的主干网络ResNet。

可以看出,残差块包含了两种映射,一种是恒等映射,指的是上图中的曲线,另一种是残差映射,指的是曲线以外的部分,所以最终输出是y = f (x)+X,顾名思义,恒等映射指的是自身,也就是公式中的X,而残差映射指的是“差”,也就是Y?x,所以残差指的是F(x)部分。所以网络需要学习的F(x)是输入和目标的差值,所以叫残差网络。

最初的ResNet主要用于图像分类和识别任务,对空间信息不敏感。在跟踪任务中,空间信息对于目标的精确定位非常重要,因此需要对其进行改进才能用于跟踪任务。

上图是SiamRPN++的网络结构图,其主干是经过改造的ResNet-50。原来的ResNet-50步幅32,不适合跟踪。作者修改了最后两个块的步距,将总步距减少到8,并通过孔卷积增加感受野。从上图可以看出,采用了ResNet不同深度卷积层的特征,在每个块输出上增加了1×1的额外卷积层,将特征通道减少到256个。该物品保留所有衬垫层。