这篇Paper加拿大滑铁卢大学最新推出的一篇目标检测新文。目前该论文仅放出了抢先版,完整论文还请各位稍安勿躁。
本文提出了一种称作Matrix Net(或xNet)的网络架构,这种架构现了目标检测网络对物体宽高比的感知。与以往的特征金字塔架构的“多次下采样”不同,xNet在分别针对水平方向、针对竖直方向以及针对两者同时进行下采样,从而在每次下采样时产生了三个特征图分支。水平和竖直方向采样后的特征图分别用于不同长宽比的物体检测,而整体下采样后的特征图像特征金字塔中一样,用于重复以上的过程。
基于关键点的多尺度xNet在MS COCO上达到了47.8的mAP,超越了所有的单阶段目标检测器,在参数量上仅仅是排行第二的多尺度CenterNet的一半,并且训练速度是它的三倍。
特点
这是一个“矩阵网络”,参数少,效果好,训练快,内存使用率低。将这样的模式加载到目标检测中,超过SOTA检测器并不是梦想。
概述
在本文中,研究人员提出了Matrix Net(xNet),一种用于目标检测的深层架构。研究人员使用xNet来增强基于关键点的目标检测,并在MS COCO数据集上实现了47.8 mAP,这比任何其他单次检测器都要好,并且参数数量减半。重要的是,xNets比第二个最佳架构快3倍。
如下图所示,很明显xNet的参数比其他模型更有效。其中FSAF是最好的锚定探测器,超过了经典的RetinaNet。在基于关键点的目标探测器中,18年来提出的CornerNet是一个“开山”,今年它已经提出了CenterNet。这些非常强大的单发探测器看起来不如xNet。
图1:MSCOCO测试集上的一步检测体系结构的模型大小(参数数量)与准确度(平均准确度)。在MatrixNet主干的帮助下,本文作者提出的模型优于所有其他具有相似参数的单镜头架构。
在本文中,xNet用于基于关键点的目标检测以形成KP-xNet,这将在后面继续描述,但在此重点关注其性能。事实上,基于关键点的目标检测最近也是一个热门话题。通过几个关键点确定边界框非常简单和优雅。
数据对比
过去最好的表现是CenterNet,它在COCO数据集上获得了47.0 mAP,但KP-xNet只需要参数大小的一半,迭代的1/3和GPU内存的1/2,以获得额外的5.7。%mAP的效果得到改善。
表1:建议的体系结构与MSCOCO数据集上的其他体系结构的实验比较。如图所示,ResNext-101-X的最终模型是具有最高值的KP-xNet(MultiScale)mAP,比原始的CornerNet(MultiScale)架构高5.7%。
目标检测分类
目标检测体系结构可以分为两类:一步检测体系结构和两步检测体系结构。两步检测使用候选区域网络来找到固定数量的候选目标,然后使用第二网络来预测每个候选目标的分数并修改边界框。
一步检测体系结构也可以分为两类:基于锚的检测体系结构和基于关键点的检测体系结构。
- 基于锚的检测架构包含许多锚箱,用于预测每个模板的偏移和类别,其中最着名的是RetinaNet。
- 基于键的检测架构可预测左上角和右下角的热图,并将它们与特征嵌入相结合。CornerNet基于非常经典的关键点检测架构。
检测不同尺度的目标是目标检测任务的主要挑战。特征金字塔网络(FPN)是多尺度架构领域的最大进步之一。虽然FPN提供了一种处理不同大小目标的优雅方法,但它不能为不同的宽高比目标提供任何解决方案。
为了解决这个问题。研究人员引入了一种新的CNN架构Matrix网络,它解决了目标规模和纵横比问题。如下面的图2所示,xNet有几个矩阵层,每个矩阵层负责处理特定大小和宽高比的目标。xNet为每个层分配不同大小和宽高比的目标,以确保目标大小在其分配的层之间几乎是一致的。这允许方形输出卷积内核从各种宽高比和大小的目标收集信息。与FPN类似,xNet可以应用于不同的主干。
图2:(a)是原始FPN架构,为每个比例分配不同的输出层。(b)是MatrixNet架构,它将五个FPN层视为矩阵中的对角层,通过对这些层进行下采样来填充矩阵的其余部分。
什么是Matrix Nets?
如图2所示,矩阵网(xNets)使用分层矩阵对具有不同大小和宽高比的目标进行建模,其中矩阵中的每个条目i,j表示层l_i,j,矩阵的左上层,l_1 ,1中宽下采样2 ^(i-1),高度下采样2 ^(j-1)。对角线层是不同大小的方形层,相当于FPN,而非对角线层是矩形层(这对于xNets是唯一的)。
层l_1,1是最大的层,每个步骤向右,层宽度减半,每个步骤减半。例如,层l_3,4是层l_3,3的宽度的一半。对角线层对目标进行建模,其纵横比接近正方形,而非对角线层对目标进行建模,其纵横比不接近正方形。靠近矩阵的右上角或左下角的层模拟非常高或非常低的纵横比目标。这些目标非常罕见,因此可以修剪它们以提高效率。
1.图层生成
生成矩阵层是影响模型参数数量的关键步骤。参数越多,模型表达的能力越强,但优化越困难,因此研究人员尽可能少地使用新参数。
2.图层范围
矩阵中的每一层都模拟一定宽度和高度的目标,因此研究人员需要为矩阵中的每一层定义宽度和高度范围,并且该范围需要反映矩阵特征向量的感受域。层。
3.矩阵网的优点
Matrix Nets的主要优点是它允许方形卷积内核准确地收集不同宽高比的信息。因此,基于此功能,MatrixNets可用作任何目标检测的主要架构,包括基于锚点或关键点的一步或两步检测器。
Matrix Nets如何用于基于关键点的检测
CornerNet建议更换基于锚的探测器,它使用一对角度 - 左上角和右下角 - 来预测边界框。对于每个角落,CornerNet预测热图,偏移和嵌入。
下面的图3显示了研究人员KP-xNet提出的基于关键点的目标检测架构,该架构由4个步骤组成。(ab)步骤使用xNet主干; (c)步骤使用共享输出子网,并且对于每个矩阵层,它们预测左上角和右下角的热图和偏移,并且它们位于目标层中。执行中心点预测; (d)该步骤使用中心点预测来匹配同一层中的角度,然后将所有层的输出与软非最大值抑制相结合以获得最终输出。
图3:KP-xNet架构
相关论文源码关注微信公众号:“图像算法”或者微信搜索账号imalg_cn关注公众号
责任编辑: