这篇文章将带你进入视觉关系检测之旅。
视觉关系识别是图像理解的基础,可以应用于
挑战:
本文将对视觉关系相关的论文进行梳理,并做简要介绍。论文列表:
第一篇论文是经典论文,提出了数据集VRD和结合语言apriori的关系预测模型。
视觉短语只有13个类型,场景图有20000多个关系,但平均每个对象只有2个左右的谓词关系。除了这三个数据集,还有著名的视觉基因组大数据集,包含99658张图片和19237个关系,有对象类型、位置、属性和对象之间的关系(场景图),还有字幕和qa。虽然数据量很大,但还是有一些未标注的数据集,毕竟组合很多。
思考:本文利用了语言学上的先验词嵌入,对预测有很大的帮助,但是先验知识可能会使关系预测倾向于频繁关系而忽略了视觉信息。一种解决方案是首先预先训练视觉模型。但是,我认为真正合理的整合先验的方式并不是简单的乘法(先验可能有误导性),而是一个思考点。
* *运动:* *本文的灵感来源于知识图谱,知识图谱使用平移向量来表示实体之间的关系(参见Trans系列的知识表示)。在视觉关系中,把物体的视觉特征映射到一个低维的关系空间,然后用物体之间的传递向量来表示物体之间的关系,比如person+ride=bike。如下图所示:
所以为了使它接近,也就是相似,损失函数为
在实验中,基于VRD数据集的谓词与鲁(44
除了这三个任务的实验对比,还有图像检索、零镜头关系检测(不如鲁)和特征重要性分析的实验。实验也表明,关系检测任务提高了目标检测任务的准确率,但实际上很少。
更多信息请参考原论文。
思考:本文使用TransE来表达关系空间中对象与预测之间的关系,如何映射到关系空间来更好地表达对象之间的关系甚至预测之间的关系,是一个值得研究的点。(比如要结合语言学先验,因为我觉得它的效果应该不如结合语言学先验。)
这篇论文和上一篇相似,都是关于
论文的整体框架如下:
思考:这也是一篇关于投射物体,与另一个空间相关的论文,但任务略有不同,效果也比上一篇好。如上,嵌入也是一个可以研究的方向。
本文使用场景图对图片中的对象及其关系进行建模。任务是生成场景图:
本文的亮点是利用上下文信息和消息传递进行迭代更新,以更好地预测关系。这是一种在场景层级别预测关系的新方法,其消息传输方式可以改进,甚至可以与嵌入相结合。
本文的主要贡献是得到一个因子分解方案,它产生信息先验,即关系的先验分布,即两个对象之间的谓词分布。
这种分布是通过张量分解获得的,具体来说:
(1)张量构造Tensorize:关系张量,I,j是对象,K是关系,表示为关系K的矩阵的堆叠,每个值对象I,j在数据集中有关系K的次数。张量表示可以反映对象之间的内在关系和关系分布。
最后BP训练SG网络,θ设为0.2。
在实验中,比较了鲁的基于语言优先级的视觉关系检测和徐的基于迭代消息传递的场景图生成,两者都有较好的改进。
思考:本文通过张量分解获得关系的先验分布,类似于《有语言先验的视觉关系检测》一文中使用的语言先验。它利用谓词的先验分布来调整网络预测的关系,提高零命中率的能力。不过我觉得这种直接相乘的调整方法比较粗糙,需要一种更好的方式将先验分布和直观预测的分布融合在一起。
这是一篇利用场景上下文信息和实体之间的关系来改进目标检测的论文,并给出了一个错误检测的例子来说明上下文的作用:
本文的任务不是预测关系,而是利用关系对关系中的同类对象进行消歧,实际上就是根据关系元组来定位对象的位置。比如下图,需要确定图中是谁在踢球,在哪里。
本文先把注意力用到宾语/主语上,再用谓语的卷积核转移注意力,宾语和主语需要结合。
这是李菲菲团队所做的(他们团队做了很多与关系相关的工作,比如关于语言apriori的文章,关于迭代消息传递的文章等等。).他们所做的是从句子中生成图像,用场景图来表达句子中物体之间的关系/联系。这是一个非常有趣的研究,应该是第一次尝试使用场景图生成图像。
情感一般包含多个对象以及对象之间关系的描述,比较复杂。从上图可以看出,直接从句子到图像的效果很差。但是当我们把句子解析成场景图,然后生成图像,就可以更好地生成一个图像来表示物体之间的关系。
具体方法大致是根据场景图进行布局预测来预测物体的位置,最后结合噪声用生成网络生成图像。这里就不赘述了。让我们列出最后的结果。
可以看到物体的位置基本处于正确的位置,但是生成的图像质量不是很高,还有很大的提升空间。
这篇论文是今年7月的一篇Arxiv论文,利用图像中物体与物体属性之间的关系来做QA任务。关系挖掘根据图像和问题获得一系列相关的事实——关系和对象属性,然后关注所需的事实,最后结合视觉特征获得最终答案。
思维:这种抽取事实的方法为QA提供了高层语义信息,也符合人的思维方式。与我之前考察过的方法(一篇论文带你了解VQA)相比,我们可以认为这是对知识的补充。在以前的方法中,只有类、属性信息或文本形式的额外知识。在本文中,该方法具有更多的关系检测,并使用网络来提取高层语义以用于问答,这比直接做数据增强更具解释力。但是论文中没有用到自下而上的注意,这是我认为可以改进的地方。
至此,我们应该对视觉关系的相关问题和方法有一个大致的了解和收获。有什么问题和想法,请大家一起交流学习。