环球快资讯丨贴近实战的自动驾驶测试数据集nuScenes

本文来源：佐思汽车研究

2017年10月还未改名的德尔福以4.5亿美元收购了自动驾驶初创公司nuTonomy，nuTonomy公司由KarlIagnemma博士和EmilioFrazzoli博士于2013年创立，2016年在新加坡正式开展无人出租车运营。德尔福后来改名安波福，安波福不同于自动驾驶初创公司，安波福是Tier1，需要考虑实际应用。

(资料图片仅供参考)

nuScenes与其他数据集的对比

上图中，nuScenes是唯一有毫米波雷达的数据集。论文名称《nuScenes: A multimodal dataset for autonomous driving》，这是除Waymo外最具影响力的数据集，完成于2019年3月，2020年7月推出nuScenes-lidarseg，nuTonomy提出的激光雷达点柱算法也是目前最常用的激光雷达算法。nuScenes-lidarseg则是激光雷达最完备的测试数据集，包含850个训练场景，150个测试场景，惊人的14亿标注点，4万点云帧，32级分类。nuScenes目前由安波福与现代汽车的合资公司Motional维护。

2022年Motional推出业内第一个自动驾驶规划训练测试数据集nuPlan，论文为：《nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles》。

nuScenes采集车的传感器布局

在上面nuScenes采集车的传感器布局中，激光雷达是一个老式的32线激光雷达HDL-32。nuScenes采集车是雷诺的Zoe电动车，也就是nuTonomy在新加坡的无人出租车。采集地区55%在波士顿，新加坡OneNorth占21.5%，新加坡皇后城占13.5%，新加坡荷兰村占10%。下雨天占19.4%，夜间占11.6%。

nuScenes的传感器参数

除后摄像头外，HFOV都是70°，VFOV是55°，后摄像头HFOV是110°，摄像头的帧率是少见的12Hz，可能是为了配合毫米波雷达的13Hz，激光雷达的频率是20Hz，比其他数据集都要高一倍。早期论文中提到的摄像头像素为1600*900，即144万像素，最近似乎升级了，为1600*1200。

摄像头FOV分布

安波福特别强调了定位，并且有很少提及的AHRS ，Attitude and heading reference system。AHRS是指航姿参考系统包括多个轴向传感器，能够为飞行器提供航向、横滚和侧翻信息，这类系统用来为飞行器提供准确可靠的姿态与航行信息。航姿参考系统包括基于MEMS的三轴陀螺仪，加速度计和磁强计。

航姿参考系统与惯性测量单元IMU的区别在于，航姿参考系统（AHRS）包含了嵌入式的姿态数据解算单元与航向信息，而惯性测量单元（IMU）仅仅提供传感器数据，并不具有提供准确可靠的姿态数据的功能。常用的航姿参考系统（AHRS）内部采用的多传感器数据融合进行的航姿解算单元为卡尔曼滤波器。AHRS的真正参考来自于地球的重力场和地球的磁场，它的静态精度取决于对磁场的测量精度及对重力的测量精度。

nuScenes使用激光雷达绘制的高精度地图，使用RTK和蒙特卡罗定位算法，保证定位精度为10厘米。

nuScenes语义分割地图是原始栅格化地图，包含11层人工标注的语义，每米10个像素，只包含道路和人行道。

nuScenes数据集示例，最下面那段文字也是属于数据集的，是人工标注的，Ped是行人的缩写。

标注方面与Waymo一样，7个要素，中心点的长宽高，目标的长宽高和航向角，不过取样频率很低，只有2Hz。

nuScenes最强之处是其标注分类非常细，多达23个分类。

nuScenes的23级分类，车的分类包括轿车、救护车、卡车、拖车、建筑工程车、公交车、警车、摩托车，公交车再分为三类，一类是标准公交车，一类是固定轨道的公交车，另一类是铰接公交车。自行车也分骑行的和静止的，行人分成人、警官、工人、闲逛者、儿童。连护栏、角锥、动物都做了标注。

每种类型出现的次数

每种类型的姿态分布

每种类型的姿态分布，包括移动、静止、泊车、有人骑、没人骑、站立、坐着、行走。可谓齐全到极致。

鸟瞰标注图的密度分布图，轿车的标准半径是超过200米的，行人和自行车是150米，大部分数据集的行人和自行车标注半径是100米甚至50米。

nuScenes统计了激光雷达点数量，直径3米内有12k个，直径80米内有100个，衰减得很快，毫米波雷达10米半径内有40个回波点，50米半径内有10个，衰减得慢。

和Waymo一样，nuScenes数据集包含了轨迹预测，不仅如此，还增加了轨迹追踪Tracking，测试类型最齐全。nuScenes的测评基准也独树一帜，虽然依旧使用目标检测中常用的AP，不过AP的阈值匹配不使用IoU来计算，而使用在地平面上的2D中心距离d来计算。这样解耦了物体的尺寸和方向对AP计算的影响。d设置为{0.5,1,2,4}米。在计算AP时，去除了低于0.1的recall和precision并用0来代替这些区域。不同类以及不同难度D用来计算mAP。

3D检测中，使用ATE，Average Translation Error，平均平移误差(ATE) 是二维欧几里德中心距离(单位为米)。Average Scale Error，平均尺度误差(ASE) 是1 - IoU, 其中IoU是角度对齐后的三维交并比。Average Orientation Error，平均角度误差(AOE) 是预测值和真实值之间最小的偏航角差。(所有的类别角度偏差都在360°内, 除了障碍物这个类别的角度偏差在180°内)。Average Velocity Error.平均速度误差(AVE) 是二维速度差的L2范数(m/s)。Average Attribute Error，平均属性错误(AAE) 被定义为1−acc, 其中acc为类别分类准确度，这是测试基准最广泛的数据集。

nuScenes独创了NDS指标。

NDS一半基于检测性能（mAP），而另一半基于检测性能根据位置、大小、方向、属性和速度度量的检测质量，TP即truth positive。

追踪方面则有Multi Object Tracking Accuracy (AMOTA)，Multi Object Tracking Precision (AMOTP)， Track initialization duration (TID) ，longest gap duration (LGD)。

nuScenes对比了几种3D检测算法，PP就是PointPillars，OFT是剑桥大学的《Orthographic Feature Transform for Monocular 3D Object Detection》，用单目做3D检测，MDIS是意大利特伦托大学的《Disentangling Monocular 3D Object Detection》，也是用单目做3D检测，效果自然是很差，PP是基于激光雷达的，效果好很多。Megvii是国内旷视联合中科院和清华大学的《Class-balanced Grouping and Sampling for Point Cloud 3D Object Detection》，效果惊艳，比安波福的PP高很多。

传统我们做kitti数据集只关注三个类别（车、人、骑行者），大部分数据集类别都不超过七类，而在NuScenes中，类别上升到十类，且是以长尾形式存在（大量的车，小量的骑行者），这种数据形态更符合真实驾驶场景，也因此产生出类别不均衡的问题。这样就出现样本不平衡的问题，有些样本数量很多，有些很少。

旷视提出了新的解决办法，DS Sampling，基本思想是把占比较小的类别进行复制，制作出较大数据集，然后针对每个类别用固定比例random sample这个大的数据集，组合出最终数据集，最终数据集的类别密度（类别数量／样本总数）是相近的，此方法可以减缓样本不平均问题。SECOND提出GT-AUG，把某一样本中的物体点云数据，放到另一个样本中，过程中需要计算摆放位置是否合理。

旷视的网络架构，旷视称之为Multi-group Head Network，group内部的类别size和shape相似，可以互相促进，学到有用的信息。group内部的类别较为均匀，排除大类别对小类别的压制作用。而且，经过group，car这个大类别对应的分类不再是truck这种小类别，而是(Truck, Construction Vehicle)的集合，从而进一步减轻大类别对小类别的压制作用。

不过这些都是2019年的排名，目前全景检测排名第一的是驭势科技，论文为：《Panoptic-PHNet: Towards Real-Time and High-Precision LiDAR Panoptic Segmentation via Clustering Pseudo Heatmap 》。

Panoptic-PHNet网络架构

- End -

关键词：激光雷达测试数据