小目标检测方法综述

首先,图片输入水平

基于以上结论,在采用多尺度训练的过程中,应考虑在保证目标足够多样性的同时,避免最小和最大(多尺度后)的不良影响。因此,在多尺度训练过程中,忽略每个输入尺度下不符合要求的提议和主播。本文使用了三个尺度,如图所示,比一般多尺度训练的尺度跨度要大。

第二部分:颈部(带金字塔结构改进方案)

一般的FPN网络结构是最右边的结构,而本文采用的结构是

首先,这种方法无疑增加了计算量。好处是最终输出的每一层的特征都不是线性变换(应该说不是直接从一层的特征到另一层的特征),而是使用* * *共享的多层特征。最终会比RetinaNet提高一个点左右,效果一般。VisDrone2020检验的冠军团队采用了这种结构。

本文使用多个TUM模块构建了一个特征金字塔网络结构。前翻提供浅特征,中翻提供中特征,后翻提供深特征。这样可以多次融合深浅特征,参数更多。对比RetinaNet可以看到,512输入没有使用多尺度推理,地图从33提高到37.6,小目标的精度也提高了一点;用参数量和计算量来提高叠加的精度不是一个好方法。

本文认为不同层的重要性应该与目标的绝对尺度分布有关,所以在自上而下融合FPN时,加入一个尺度因子来平衡金字塔中不同层的重要性。个人感觉意义不大,实际改善不明显。

三、头部的改进方案

VisDrones上的champion方案和其他几个方案都采用了这种“双头”方案。软-NMS似乎提高了几分。

四、小目标检测目前不好,主要原因不是小,而是小且接近背景,对比度不高。所以我们可以借鉴伪装物体检测的思想;