原文链接:/pdf/.10323.pdf
1 引言
许多工作使用基于锚框的方法进行目标检测。锚框能提供有用的位置和姿态先验,但导致算法存在许多超参数和潜在的训练不稳定性。此外,正锚框的数量往往很少,分类时存在严重的类别不平衡性。
本文方法使用柱体预测网络,即对BEV上的每个柱体,直接预测最可能边界框的位置和姿态。该方法能提高性能。
此外,本文使用圆柱体视图来为BEV视图提供补充;使用双线性插值解决柱体到点投影的空间混叠(量化误差)问题。
3 方法
总体结构:如下图所示。点云分别投影到BEV和圆柱视图上,使用两个网络分别处理;然后使用与MVF相同的方法聚合不同视图的特征(使用插值将视图网格特征投影回点特征+拼接),最后特征重新投影到BEV,通过CNN处理,再使用分类头和回归头为每个BEV柱体预测结果。
圆柱视图:将点用柱坐标表示不会产生方向的扭曲。有相同和的点被分为一组。
基于柱体的预测:分类头预测某个柱体匹配上真实物体的概率,回归头预测物体的位置偏差、对数尺寸和朝向。
对比:基于锚框的预测和基于柱体的预测。下图为BEV网格,左图的实线框为真实边界框,虚线框为锚框(其中红框为正锚框/与真实边界框IoU大于正阈值,黑框为负锚框/与真实边界框IoU小于负阈值,绿框为无效锚框/与真实边界框IoU在正负阈值之间)。基于锚框的预测在每个锚框上预测,而通常每个网格均会放置若干不同大小、朝向和长宽比的锚框。而基于柱体的预测仅在每个柱体上进行预测。
双线性插值:如下图所示,MVF使用最近邻插值,会导致落在同一柱体内的点有相同的特征;本文使用双线性插值解决这一问题。
损失函数:损失函数与SECOND相同,包含回归损失和分类损失。回归损失如下:
其中为3.4节中的回归值,为柱体中心,为真实边界框参数,且
分类损失为focal损失:,其中为3.4节中分类头得到的概率。
4 实验
推断时,使用非最大抑制移除重复检测,并使用前个预测边界框用于计算指标。
基于锚框、点和柱体的预测方法比较:实验表明基于锚框的方法效果最差,基于点的方法次之,而基于柱体的方法比前两者高很多。
基于点的方法将真实边界框内的点视为前景点;否则为背景点。网络首先预测前景点,然后在前景点上预测边界框参数。
不同视图组合的比较:实验表明单独使用圆柱视图的性能比BEV、XZ视图、和球面视图的效果都好很多,特别是在远距离物体的检测上。对于组合视图,BEV+圆柱视图的方法性能最好。
不同插值方法的比较:双线性插值比最近邻插值效果好很多。