本文来源:佐思汽车研究
2017年10月还未改名的德尔福以4.5亿美元收购了自动驾驶初创公司nuTonomy,nuTonomy公司由KarlIagnemma博士和EmilioFrazzoli博士于2013年创立,2016年在新加坡正式开展无人出租车运营。德尔福后来改名安波福,安波福不同于自动驾驶初创公司,安波福是Tier1,需要考虑实际应用。
(资料图片仅供参考)
nuScenes与其他数据集的对比
上图中,nuScenes是唯一有毫米波雷达的数据集。论文名称《nuScenes: A multimodal dataset for autonomous driving》,这是除Waymo外最具影响力的数据集,完成于2019年3月,2020年7月推出nuScenes-lidarseg,nuTonomy提出的激光雷达点柱算法也是目前最常用的激光雷达算法。nuScenes-lidarseg则是激光雷达最完备的测试数据集,包含850个训练场景,150个测试场景,惊人的14亿标注点,4万点云帧,32级分类。nuScenes目前由安波福与现代汽车的合资公司Motional维护。
2022年Motional推出业内第一个自动驾驶规划训练测试数据集nuPlan,论文为:《nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles》。
nuScenes采集车的传感器布局
在上面nuScenes采集车的传感器布局中,激光雷达是一个老式的32线激光雷达HDL-32。nuScenes采集车是雷诺的Zoe电动车,也就是nuTonomy在新加坡的无人出租车。采集地区55%在波士顿,新加坡OneNorth占21.5%,新加坡皇后城占13.5%,新加坡荷兰村占10%。下雨天占19.4%,夜间占11.6%。
nuScenes的传感器参数
除后摄像头外,HFOV都是70°,VFOV是55°,后摄像头HFOV是110°,摄像头的帧率是少见的12Hz,可能是为了配合毫米波雷达的13Hz,激光雷达的频率是20Hz,比其他数据集都要高一倍。早期论文中提到的摄像头像素为1600*900,即144万像素,最近似乎升级了,为1600*1200。
摄像头FOV分布
安波福特别强调了定位,并且有很少提及的AHRS ,Attitude and heading reference system。AHRS是指航姿参考系统包括多个轴向传感器,能够为飞行器提供航向、横滚和侧翻信息,这类系统用来为飞行器提供准确可靠的姿态与航行信息。航姿参考系统包括基于MEMS的三轴陀螺仪,加速度计和磁强计。
航姿参考系统与惯性测量单元IMU的区别在于,航姿参考系统(AHRS)包含了嵌入式的姿态数据解算单元与航向信息,而惯性测量单元(IMU)仅仅提供传感器数据,并不具有提供准确可靠的姿态数据的功能。常用的航姿参考系统(AHRS)内部采用的多传感器数据融合进行的航姿解算单元为卡尔曼滤波器。AHRS的真正参考来自于地球的重力场和地球的磁场,它的静态精度取决于对磁场的测量精度及对重力的测量精度。
nuScenes使用激光雷达绘制的高精度地图,使用RTK和蒙特卡罗定位算法,保证定位精度为10厘米。
nuScenes语义分割地图是原始栅格化地图,包含11层人工标注的语义,每米10个像素,只包含道路和人行道。
nuScenes数据集示例,最下面那段文字也是属于数据集的,是人工标注的,Ped是行人的缩写。
标注方面与Waymo一样,7个要素,中心点的长宽高,目标的长宽高和航向角,不过取样频率很低,只有2Hz。
nuScenes最强之处是其标注分类非常细,多达23个分类。
nuScenes的23级分类,车的分类包括轿车、救护车、卡车、拖车、建筑工程车、公交车、警车、摩托车,公交车再分为三类,一类是标准公交车,一类是固定轨道的公交车,另一类是铰接公交车。自行车也分骑行的和静止的,行人分成人、警官、工人、闲逛者、儿童。连护栏、角锥、动物都做了标注。
每种类型出现的次数
每种类型的姿态分布
每种类型的姿态分布,包括移动、静止、泊车、有人骑、没人骑、站立、坐着、行走。可谓齐全到极致。
鸟瞰标注图的密度分布图,轿车的标准半径是超过200米的,行人和自行车是150米,大部分数据集的行人和自行车标注半径是100米甚至50米。
nuScenes统计了激光雷达点数量,直径3米内有12k个,直径80米内有100个,衰减得很快,毫米波雷达10米半径内有40个回波点,50米半径内有10个,衰减得慢。
和Waymo一样,nuScenes数据集包含了轨迹预测,不仅如此,还增加了轨迹追踪Tracking,测试类型最齐全。nuScenes的测评基准也独树一帜,虽然依旧使用目标检测中常用的AP,不过AP的阈值匹配不使用IoU来计算,而使用在地平面上的2D中心距离d来计算。这样解耦了物体的尺寸和方向对AP计算的影响。d设置为{0.5,1,2,4}米。在计算AP时,去除了低于0.1的recall和precision并用0来代替这些区域。不同类以及不同难度D用来计算mAP。
3D检测中,使用ATE,Average Translation Error,平均平移误差(ATE) 是二维欧几里德中心距离(单位为米)。Average Scale Error,平均尺度误差(ASE) 是1 - IoU, 其中IoU是角度对齐后的三维交并比。Average Orientation Error,平均角度误差(AOE) 是预测值和真实值之间最小的偏航角差。(所有的类别角度偏差都在360°内, 除了障碍物这个类别的角度偏差在180°内)。Average Velocity Error.平均速度误差(AVE) 是二维速度差的L2范数(m/s)。Average Attribute Error,平均属性错误(AAE) 被定义为1−acc, 其中acc为类别分类准确度,这是测试基准最广泛的数据集。
nuScenes独创了NDS指标。
NDS一半基于检测性能(mAP),而另一半基于检测性能根据位置、大小、方向、属性和速度度量的检测质量,TP即truth positive。
追踪方面则有Multi Object Tracking Accuracy (AMOTA),Multi Object Tracking Precision (AMOTP), Track initialization duration (TID) ,longest gap duration (LGD)。
nuScenes对比了几种3D检测算法,PP就是PointPillars,OFT是剑桥大学的《Orthographic Feature Transform for Monocular 3D Object Detection》,用单目做3D检测,MDIS是意大利特伦托大学的《Disentangling Monocular 3D Object Detection》,也是用单目做3D检测,效果自然是很差,PP是基于激光雷达的,效果好很多。Megvii是国内旷视联合中科院和清华大学的《Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection》,效果惊艳,比安波福的PP高很多。
传统我们做kitti数据集只关注三个类别(车、人、骑行者),大部分数据集类别都不超过七类,而在NuScenes中,类别上升到十类,且是以长尾形式存在(大量的车,小量的骑行者),这种数据形态更符合真实驾驶场景,也因此产生出类别不均衡的问题。这样就出现样本不平衡的问题,有些样本数量很多,有些很少。
旷视提出了新的解决办法,DS Sampling,基本思想是把占比较小的类别进行复制,制作出较大数据集,然后针对每个类别用固定比例random sample这个大的数据集,组合出最终数据集,最终数据集的类别密度(类别数量/样本总数)是相近的,此方法可以减缓样本不平均问题。SECOND提出GT-AUG,把某一样本中的物体点云数据,放到另一个样本中,过程中需要计算摆放位置是否合理。
旷视的网络架构,旷视称之为Multi-group Head Network,group内部的类别size和shape相似,可以互相促进,学到有用的信息。group内部的类别较为均匀,排除大类别对小类别的压制作用。而且,经过group,car这个大类别对应的分类不再是truck这种小类别,而是(Truck, Construction Vehicle)的集合,从而进一步减轻大类别对小类别的压制作用。
不过这些都是2019年的排名,目前全景检测排名第一的是驭势科技,论文为:《Panoptic-PHNet: Towards Real-Time and High-Precision LiDAR Panoptic Segmentation via Clustering Pseudo Heatmap 》。
Panoptic-PHNet网络架构
- End -