目标检测算法经典论文综述(1)
提交日期:2014。
地址:blogs.com/zjutzz/p/8232740.html.
论文题目:注意力网络:聚集弱方向进行精确的物体检测。
提交日期:2015 ICCV
论文地址:/content/pdf/10.1007/978-3-319-10578-9 _ 23.pdf。
针对该问题:
比如RCNN会将输入的目标图像块处理成相同的大小,然后输入到CNN网络中,在处理的过程中会造成图像块信息的丢失。在实际场景中,很难统一输入网络的目标大小,网络最终的全连通层要求输入特征信息是统一维数的向量。作者试图统一从不同大小的CNN网络中提取的特征维数。
创新:
在作者提出的SPPnet中,通过使用特征金字塔池,可以将最终的卷积层输出统一到全连通层所需的大小。训练时,池化操作仍通过滑动窗口完成,池化核的宽度、高度和步长由当前层特征图的宽度和高度计算。原文中特征金字塔池的操作示意图如下。
参考博客:/content _ iccv _ 2065 438+05/papers/gidaris _ object _ detection _ via _ iccv _ 2065 438+05 _ paper.pdf。
针对该问题:
自从第三篇论文multibox algorithm提出CNN可以用于定位输入图像中的待检测目标后,本文作者尝试加入一些训练方法和技巧,以提高CNN网络的最终定位精度。
创新:
通过对网络的输入区域进行处理(通过数据增强,网络可以利用目标周围的上下文信息得到更准确的目标框架),可以提高网络对目标回归框架的准确性。具体的处理方法包括:扩展输入目标的标签包围盒,在输入目标的标签中取一部分包围盒等。,并分别返回到不同的区域,使网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性,从而提高了回归盒的准确性。
参考博客:/content _ iccv _ 2065 438+05/papers/gir sick _ fast _ r-CNN _ iccv _ 2065 438+05 _ paper.pdf。
针对该问题:
RCNN中的CNN每输入一个图像块都要进行正向计算,显然非常耗时,那么如何优化这部分呢?
创新:
参考SPPNet(第六篇论文),作者在网络中实现了ROIpooling,使得输入图像块不需要裁剪成统一的大小,从而避免了输入信息的丢失。其次,将整个图输入到网络中得到特征图,然后将原图上选择性搜索算法得到的目标帧映射到特征图中,避免重复特征提取。
参考博客:/content _ iccv _ 2015/papers/harmony _ deep proposal _ hunting _ objects _ iccv _ 2015 _ paper.pdf。
主要问题是:
本文作者观察到CNN可以提取优秀的论文来表征输入图像,并试图通过实验来讨论和分析CNN网络不同层产生的特征的作用和情况。
创新:
作者通过滑动窗口在不同的激活层上生成假设,结果表明最终的卷积层能够以较高的召回率找到感兴趣的对象,但由于特征图的粗糙性,定位性较差。相反,网络的第一层可以更好地定位感兴趣的对象,但召回率降低。
论文题目:更快的r-CNN:用区域提议网络实现实时目标检测。
提交日期:2015 NIPS
文件地址:/p/31426458