适用于自动驾驶的激光雷达数据扩增模拟器外文翻译资料

 2022-08-03 20:07:28

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


适用于自动驾驶的激光雷达数据扩增模拟器

摘要

在自动驾驶领域(Autonomous Driving,AD)中,如何探测与追踪道路的障碍物是一项关键技术。对此,使用带标注的激光雷达数据的基于深度学习的方法如今被广泛采用。然而,给3D点云打标注是一个相当困难、耗时费钱的工作。本文中,我们提出了一种新颖的激光雷达模拟器,其可以通过添加合成障碍物(如汽车、行人与其他可移动物体)的方式以对真实点云数据进行扩增。不同于之前完全依赖于CG模型与游戏引擎的模拟器,我们的扩增模拟器绕过了创建高仿真背景的CAD模型的需求。取而代之的是,我们可以简单地部署带有激光雷达扫描仪的车辆来扫描街道信息以获得背景点云信息,基于这种背景点云信息,可以自动生成带有标注的点云。这种独特的“扫描-模拟”功能使得我们的方法兼具可扩展性与实用性,可以用于大规模的工业化应用。本文中,我们详细的阐述了我们的模拟器,尤其是障碍物的放置部分(其对提高系统能力至关重要)。我们证明,仅使用我们模拟的激光雷达点云数据训练的扫描仪与使用真实数据进行训练的扫描仪所表现出的性能基本相当(差距在两个百分点内)。混合真实数据与模拟数据后,扫描仪可以达到95%以上的精度。

  1. 简介

激光雷达设备被广泛地应用于机器人技术领域,尤其是自动驾驶领域中。激光雷达设备提供了对周围环境可靠而准确的深度测量,这也使得它们成为了环境感知方面的首选。通常,来自激光雷达的原始点云数据会被发送到计算机视觉系统中,以检测障碍物与其他驾驶相关的信息。当前,高性能的视觉系统通常基于深度学习技术,深度神经网络(Deep neural networks,DNN)已被证明是处理许多视觉工作的强大工具[4][30][26]。

图1 用不同方法模拟点云。(a)由CARLA生成,(b)来自我们提出的方法,(c)是Velodyne HDL-64E收集的真实点云。第二行是从鸟瞰图的角度显示点云。请注意我们方法中已有的丰富背景。

DNN的成功很大程度上依赖带有标签的训练数据的质量与数量。相较于图像数据,来自于激光雷达的3D点云数据更难手动打标签,对于实时的激光雷达扫描器(如Velodyne公司的扫描器)而言尤其如此。这些主要应用于自动驾驶汽车(Autonomous vehicles,AV)的这些设备会生成难以理解与解释的系数点云。为保证自动驾驶的安全性,需要快速给大量需要的点云数据打标签,而这是相当昂贵的。

目前已有许多利用计算机图形技术来生成融合标签数据的工作(如[21],[18],[15],[24],[25])。尽管这些模拟数据对提高DNN的能力非常有用,但是仍存在着一些未解决的问题。首先,CG环境大多是手工搭建的,且模型规模与复杂度皆有限。正如我们将在实验中展示的那样,背景的保真度对于环境感知的准确性中起着重要的作用。若是创建逼真的场景,其每公里的价格不仅超过一万美元,而且不具扩展性。其次,障碍物的放置和移动主要基于启发式方法,而启发式方法并不能反映我们真实世界的多样性。第三,在激光雷达的仿真范围内[29][25],现有的方法仅渲染场景深度,而不考虑激光雷达的物理特性,这导致了明显的伪像。因此,仅使用合成数据训练的扫描仪在真实数据上的效果很差(如准确度在30%左右)[29]。

本文我们提出了一种新颖的混合点云生成框架,该框架可以自动生成高保真的带标注的3D点云数据,它们被用于即时的DNN模型训练。为了强化仿真的真实性并且降低成本,我们做出了如下的设计选择。首先,我们使用了通常用于土地测量中使用的移动激光雷达扫描仪,直接使用他们进行道路场景的3D扫描,结果作为我们的虚拟环境。这种虚拟环境自然保留了现实世界几何层面的复杂与多样性,因此,采用这种方法完全避免了对环境模型的搭建需求。其次,我们开发了多个新颖的数据驱动的方法以确定障碍物的姿态(位置和方向)与形状(CAD模型)。具体而言,我们从实际交通场景中提取障碍物模型及其姿态的分布。所学习的障碍物分布用于确定放置于合成背景的障碍物的位置与类型。请注意,学习的分布不必与捕获的背景排列一致。障碍物分布与背景的不同组合可以提供更加丰富的数据集,且不需要任何额外的数据获取或是标注费用。第三我们开发了一种全新的激光雷达渲染器,该渲染器同时考虑了物理模型和来源于相应硬件的实际统计信息。将这些结合在一起,我们开发了一个真实、高效且可扩展的仿真系统。

本文的主要贡献包括以下内容。

  • 我们提出了一个激光雷达点云仿真框架,其可以生成标注好的数据以供自动驾驶的感知,所得数据与真实点云数据所表现出的性能相当。我们的模拟器兼具源于真实数据的真实风格与之前只能在基于VR模拟中获得的灵活性(如交通模式的重新生成、传感器参数的修改)。
  • 我们将通过激光雷达扫描仪获取的真实背景模型与从真实交通场景中学习得到的真实障碍物的放置结合起来。我们的方法既不需要昂贵的背景建模过程,也不需要基于规则的启发式方法。它兼具高效与可扩展性。
  • 我们证明了,相较于语义分割与3D障碍物检测,仅使用合成点数据训练出的模型也可以获得相当的性能。混合真实数据与模拟数据所训练得到的模型可以轻松超越仅使用真实数据进行训练的模型。
  1. 有关工作

随着深度学习的普及,人们投入了越来越多的精力,以缓解训练DNN时缺乏带有标注的数据的问题。本节中,我们主要回顾自动驾驶数据模拟与融合的相关工作。

为了从有限的训练数据中释放DNN的能力,[19]介绍了SYNTHIA,其是一个拥有大量合成图像与具有关联标注的城市场景的数据集。[7]在虚拟场景中模仿KITTI的轨迹视频数据以创建合成副本,之后通过模拟不同的光照与天气条件以增强副本。[7]和[18]生成了一个具有像素级标签和实例级标注的综合数据集,其旨在提供一个兼具低级与高级视觉任务的基准。[5]在现有的街景图像中加入了CG人物,用以进行行人检测。然而,图像中已有的行人却未被讨论。[9]融合了标注图像以进行车辆检测,得到了相当令人振奋的结果:当合成的数据量足够大时,使用纯合成的数据所训练出的最先进的DNN模型有可能比使用真实数据所训练出来的还要好。相似的,我们的目标是凭借纯模拟的点数据的多样性来获得(可以与真实点数据)相比的感知能力。为了处理虚拟场景缺乏真实性的问题,[1]提出了扩增真实世界图像数据集的一种手段,其通过将渲染的车辆插入到图片中,从而集成背景的真实性与前景的各种变化的多样性。[22]提出了一种基于过程的世界建模与更复杂的图像渲染技术的数据合成方法。而我们的工作也得益于真实世界背景的数据与基于现实的传感器仿真模拟。

虽然先前的工作都致力于图像融合,但是仅有少数几个工作致力于生成这个过程和激光雷达点云融合的方法,尽管它们已经在自动驾驶中起着更为重要的作用。近期,[29]使用游戏引擎提供的API收集了校准好的图像与点云数据,并将这些数据用于它们之后的车辆检测工作中[24]。Carla[6]和AutonoVi-Sim[2]还提供了从虚拟世界中模拟激光雷达点云数据的功能。然而,他们的主要目标是为学习算法的测试与自动驾驶车辆的控制提供平台。

总而言之,在数据扩增领域,我们首创了关注激光雷达点的方法。此外,我们可以根据位置和线的数目更改激光雷达的参数。在目前的图像扩增方法中,还尚未有这种修改相机参数的方法。

  1. 方法

通常,我们模拟实际交通环境中安装在自动驾驶汽车上的激光雷达传感器的数据采集过程。整个过程由如下几个模块组成:静态背景构建,可移动前景障碍物的生成与放置,激光雷达点云的模拟以及最终验证阶段。我们提出的框架总体概述如图2所示,每个模块的更多详细信息将在下文详述。

图2 提出的激光雷达点云模拟框架。(a)使用专业3D扫描仪获得语义信息描述准确、密集的背景。(b)显示合成的可移动障碍物,如车辆、骑自行车的人和其他物体。(c)展示基于概率图在静态背景中放置前景障碍物(黄色框)的示例。(d)使用我们精心设计的模拟策略,具有正确标注的3D边界框(绿色)和模拟激光雷达点云的示例

    1. 静态背景生成

与其他从人工虚拟世界生成前景和背景点云的仿真框架[6][29]不同,我们借助专业3D扫描仪Riegl VMX-1HA来生成静态背景。

RIEGL是一种高速,高性能的双扫描仪移动制图系统,可以在高速公路上提供密集、准确且特征丰富的数据。来自Riegl扫描仪的点云的分辨率在100米的范围内约为3厘米。在将其实际应用到我们的实验中,特定的交通场景将被重复扫描几轮(如5轮)。多次扫描后,点云的分辨率可以提高大约1厘米。扫描点云的示例如图3所示。通过使用该扫描仪,我们可以较好的获得结构细节。从理论上讲,我们可以模拟点距大于1厘米的任何类型的激光雷达点云。例如,常用的Velodyne HDL64E S3的分辨率在10米范围内的分辨率约为1.5厘米。

图3 左侧图像说明由RIEGL扫描仪获得的具有超过2亿个3D点的点云示例。该地方的实际大小为600m x 270m。右侧图像显示点云的详细结构。

为了获得干净的背景,应该清除动态和静态的可移动的障碍物。为提高效率,我们采用了最新的语义分割的方法来粗略地获得初始标记的结果,然后标注者手动纠正这些错误的部分。在这里,我们使用PointNet [16]进行语义分割,平均精度可以达到94%。根据语义信息,将周围的点填充为空洞。

    1. 可移动障碍物的生成

在获取静态背景后,我们需要考虑如何在环境中添加可移动的障碍物。特别是,我们发现障碍物的位置对最终的检测和分割的结果有很大的影响。但是,其他的模拟方法都很少提及该点。我们并未采用随机放置障碍物的方法,而是提出了一种基于数据驱动的方法,根据障碍物在真实数据集中的分布来归纳障碍物的姿态。

      1. 障碍物放置的概率图

首先,将基于来自不同场景的标注好的数据集中的障碍物分布来构建概率图[5]。在概率图中,具有较高值的位置表示其具有较的高概率来放置障碍物。概率图由一些标注好的数据集来构建而成。我们不仅中增加了标注数据集中出现障碍物的位置处的概率值,还基于高斯核,增加了相邻的位置。同样的,障碍物的方向也可由概率图生成。构建概率图的细节可以参见附录1。特别地,我们为不同类型的障碍物建立了不同的概率图。在给定背景语义的情况下,我们可以轻松地以纹理合成的方式将概率图生成至其他区域。

      1. 模型选择

与障碍物位置类似,我们采用了数据驱动的策略来确定不同障碍物类别出现的频率。基于标注好的数据集,可以容易地获得不同类型的先验出现概率信息。在模拟过程中,将使用此先验知识来选择每个3D模型。此外,每个种类的模型都分为两类:一类是用于覆盖最常见情况的高频模型,另一类是用于满足多样性要求的低频模型。

      1. 障碍物类别和CAD模型

为了给真实的自动驾驶来应用,我们考虑了两种类型:常见的类型(如车辆,SUV,卡车,自行车,摩托车,电动车与行人)和不常见的类型(如交通锥,童车和三轮车)。CAD模型的一些示例如图4所示。每种类型的模型数量已在表1在给出。有趣的是,数量较少的3D模型就可以实现对刚性障碍物的高检测率,而对于非刚性的障碍物,则需要更多数量的模型。为了保证逼真度,所有的3D模型均以实际的大小与外观制作。此外,我们还尝试尽可能最大化每种类型的多样性。具体来说,对于车辆模型,车窗玻璃被设置为透明的,并且司机和乘客被添加到车辆模型中,就像在真实的交通场景下。

图4 人造CAD模型。对于实际的自动驾驶应用,我们还考虑了一些不常见的类别,如交通锥,婴儿车和三轮车等。

类型

车辆,SUV

卡车,公交

自行车,摩托车

行人

其他

数量

45

60

350

500

200

表1 不同类型的3D模型数量。一些不常见的类型包括在其他类型中,例如交通锥,婴儿车和三轮车。

    1. 传感器仿真

激光雷达传感器通过估算从激光雷达发射至激光到达目标表面反射的激光脉冲的飞行时间来捕获周围的场景[11]。如果返回的脉冲能量高于某个阈值,则会在结果中生成一个对应点。

      1. 模型设计

这里我们使用了一个简单但却足够的物理模型来模拟这个过程,模型的公式为:

其中,表示返回的激光脉冲的能量,表示原始激光脉冲的能量,表示表面材料的反射率,表示激光入射角的反射率,表示空气衰减率(因为激光

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[264603],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。