英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
VSLAM综述
同步定位与地图构建(Simultaneous Localization and Mapping,简称SLAM)起源于机器人研究领域,主要解决两个问题,一是对未知的环境进行三维结构重建,二是对机器人自身的三维位置进行估计。视觉 SLAM 技术即是通过视觉传感器进行同步定位与地图构建的技术。在计算机视觉领域中,与SLAM技术相类似的研究最早来自Languet Higgins和Harris,称为运动推断结构(Structure From Motion, FM)。近年来,随着科技的发展与传感器技术的进步,出现了基于不同视觉传感器的视觉SLAM技术,如RGB-D SLAM、双目视觉SLAM与单目视觉 SLAM等。其中基于深度相机的RGB-D SLAM和基于单目相机的单目视觉SLAM 是近些年来的研究热点。且同步定位与地图构建在无人驾驶、AR、无人机以及各类移动机器人领域占据着重要的地位,并被认为是实现机器人真正自主的关键。
SLAM最早出现于1986年,由Smith、Self和Cheeseman提出,这是SLAM问题被引入机器人和AI(Artificial Intelligence)领域的开始,也是很多研究者开始研究求解定位和建图问题的理论方法。由于相机相对于激光具有价格便宜、体型小巧和低功耗的特点,以及能够获取环境的外观、颜色、纹理等信息的优势,使得在近十年来将相机作为解决SLAM问题的主要传感器的趋势越来越明显。
VSLAM系统的架构与经典SLAM框架相同,主要由前端(视觉里程计)、后端(滤波、图优化)、回环检测和建图4个模块构成。前端和后端是基本部分,前端将相机数据抽象为便于估计的模型,它也被称为视觉里程计,后端对前端得到的模型进行优化,得到全局一致的轨迹和地图。回环检测主要解决视觉里程计随着时间产生的累积误差问题,它主要使用的方式是词袋模型。而建图则是根据估计的轨迹来构建地图的过程,构建的地图大体上可分成度量地图和拓扑地图,其中,度量地图又可分成稀疏地图和稠密图。
视觉SLAM主要标志性成果
视觉SLAM的标志性成果有Andrew Davison提出的Mono-SLAM,是第1个基于EKF方法的单目SLAM,能够达到实时但是不能确定漂移多少,能够在概率框架下在线创建稀疏地图。DTAM是2011年提出的基于直接法的单目SLAM算法,该方法通过帧率的整幅图像对准来获得相对于稠密地图的相机的6个自由度位姿,能够在GPU上达到实时的效果。PTAM是由Georg Klein提出的第1个用多线程处理SLAM的算法,将跟踪和建图分为两个单独的任务并在两个平行的线程进行处理。Kinect-extrusion是第1个基于Kinect的能在GPU 上实时构建稠密三维地图的算法,该方法仅使用Kinect相机获取的深度信息去计算传感器的位姿以及构建精确的环境3-D地图模型。2014年提出的LSDSLAM是直接的单目SLAM 方法,即直接对图像的像素点进行处理,相比于之前的基于直接法的单目视觉里程计,不仅能计算出自身的位姿,还能构建出全局的半稠密且精确的环境地图。其中的追踪方法,直接在SIM3上进行操作,从而能够准确地检测尺度漂移,可在CPU上实时运行。ORB-SLAM是2015年出的比较完整的基于关键帧的单目SLAM算法,将整个系统分为追踪、地图创建、闭环控制3个线程进行处理,且特征的提取与匹配、稀疏地图的创建、位置识别都是基于ORB特征,其定位精确度很高,且可以实时运行。
SLAM的主要研究实验室
SLAM的主要研究实验室有:
(1)苏黎世联邦理工学院的Autonomous System Lab,该实验室在tango项目上与谷歌合作,负责视觉—惯导的里程计,基于视觉的定位和深度重建算法。
(2)明尼苏达大学的Multiple Autonomous Robot Systems Laboratory,主要研究四轴飞行器导航,合作建图,基于地图的定位,半稠密地图创建等。
(3)慕尼黑理工大学的The Computer Vision Group,主要研究基于图像的3-D重建,机器人视觉,视觉SLAM等。
视觉SLAM 系统模型经典框架
基于视觉传感器的经典SLAM 框架包含以下五个过程:
(1)获取传感器信息。常用的传感器有相机、轮式里程计、惯性传感器等。
该步骤通常获取传感器原始数据,并进行预处理及时间同步。
(2)视觉前端处理,该过程又称为视觉里程计。其主要任务为通过图像的特
征匹配,估算相邻图像帧之间相机的相对运动。
(3)后端处理(常采用非线性优化)。该过程将多个时刻的中前端处理所得的相机位姿以及回环检测的信息进行统一优化,进一步得到相机的准确位姿
和全局一致的地图。
(4)回环检测。该过程通过判断当前图像是否是之前看过的图像,进而确定
回环,将回环信息送入后端处理,以优化累计误差。
(5)构建地图。根据相机的位姿及其观测到的信息,生成全局地图。
相机标定
在视觉SLAM中,需要用到摄像机对周围环境的图片进行采集,但相机透镜不同程度的存在着畸变,畸变的原因是由于透镜形状会影响对光线的传播,而且在安装透镜时,如果透镜与成像平面的平行度出现偏差的话也会存在图片成像时的误差。为了防止这些原因影响系统的精确性,需要在使用相机前,对相机进行标定。为了使计算机能够更加精确的处理从摄像机得到的图像,需要在运行系统前对相机进行标定。相机标定是从二维图像获取三维信息的前提和基础,可以解决三维空间坐标和二维图像坐标的对应关系。这种对应关系由摄像机的成像的几何模型决定。
针孔相机模型
相机的成像过程通常涉及四个坐标系之间的转换:世界坐标系、相机坐标系、图像坐标系、像素坐标系。相机坐标系以相机的光心为坐标原点,其Z轴为相机的光轴,X轴与Y轴分别平行于图像坐标系的X轴与Y轴,将该坐标系下的坐标值记为。
相机模型中最简单的一种就是针孔模型,在针孔模型下,相机坐标系下空间中一点被映射到图像平面上一点,该点是连接点与投影中心的直线与图像平面的交点。根据相似三角形的原理,可以得到映射这是从三维欧氏空间到二维欧氏空间的一个映射。
投影中心即为相机中心,也称为光心。相机中心到图像平面的垂线成为相机的主轴,而主轴与图像平面的交点称为主点,经过相机中心平行于图像平面的平面称为主平面。
相机畸变模型与校正
为了获取更好的视野范围、更佳的图像质量,相机传感器通常与相机镜头搭配使用。由于相机镜头的光学原理及相机镜头的机械装配存在误差,光线在穿过相机镜头到达成像平面时,其路径会发生改变,进而传感器获得的图像会产生失真。通常,相机镜头产生的畸变可以分为两大类:径向畸变与切向畸变。
径向畸变指成像点产生径向位置的偏差,主要由于镜头固有特性(凸透镜汇聚光线、凹透镜发散光线等)而产生,通常又可分为枕形畸变与桶形畸变。枕形畸变是因为视野中图像的放大倍率随着与相机光轴之间的距离增加而增加,常出现在远射镜头中;桶形畸变则相反,常出现于鱼眼镜头等广角镜头中。
李群与李代数
在SLAM过程中,需要对相机的位姿进行估计与优化。而旋转矩阵自身是带有约束的(行列式为1,且正交),若将他们作为优化变量,会引入一些额外的约束,增加了优化求解的难度。因此,可以通过李群与李代数之间的转换关系,把位姿估计转化为一个无约束的优化问题,进而简化求解过程。
视觉里程计
视觉里程计(即SLAM的前端处理)主要用来估计相邻两帧图像之间相机的相对运动,进而给后端优化过程提供一个相对较好的初始值。
视觉里程计的任务是估计出相机在两帧图像之间的位姿变化,估计出相机一段时间内的姿态和运动轨迹。传统意义上的里程计指的是安装在汽车或机器人等身上通过一定的手段测量行程的装置。本部分之所以成为视觉里程计,是因为测量的原理和传统概念上的里程计相同,只考虑相邻两帧图像之间的运动,不管之前的运动情况如何。目前,主流的视觉里程计按照是否需要提取特征,分成直接法和非直接法(特征点法)两种。
直接法
直接利用图像像素灰度的差异,可以完全不考虑特征点的提取和匹配,通过最小化光度误差的算法来估计相机的位姿和运动。其优点是省去了计算特征的时间,在特征不明显时如白墙等仍可以正常工作,可以直接构建稠密甚至半稠密地图等。但其缺点在某些情况下却是致命的,首先,直接法有一个很强的假设,即灰度不变假设,指的是同一个空间点在所有观测图像中的灰度值是不变的,就这导致在光照变化明显或者相机曝光时,直接法不能正常使用。其次,直接法要考虑所有像素的灰度误差优化,而图像一般情况下是很显著地非凸函数,计算时经常收敛于误差的局部极小值,导致估计值与实际值之间存在严重的偏差。
非直接法(特征点法)
首先获取图像特征并匹配两帧图像的特征,利用匹配点对空间几何关系来估计相机位姿和运动。其优点是运行稳定,对于光线亮度变化和运动物体不敏感。另外,对于使用直接法视觉里程计的SLAM系统来说,回环检测部分仍然摆脱不掉特征的提取过程,而非直接法可将视觉里程计和回环检测的特征统一起来,实现系统的一致性。非直接法的缺点就是在没有纹理信息特征稀缺的环境下难以运行,这种情况下可以用编码器等其他定位方法辅助配合。基于特征点法的视觉里程计是目前的主流方法,相比于直接法,它对于光照强度、动态物体不那么敏感,运行相对稳定,是目前相对成熟的一种解决方案。
特征点提取
特征点指图像中一些具有显著特征的地方,SLAM过程中希望特征点在相机位姿发生变换之后获取的图像中仍然能保持其特征,进而才可以计算处两幅图像之间相机的相对运动。即在含有相似场景或目标的图像中,具有不变形式的地方。图像中的角点、边缘等都可以认为是图像中具有显著特征的地方,然而,大多数的应用中,单纯的角点并没有那么稳定,不能满足特征匹配的需求。经过多年研究,计算机视觉领域的学者们设计出一些更加稳定的图像特征点,如SIFT、SURF、ORB等。
特征点通常由关键点和描述子组成,特征提取包括提取关键点并计算其描述子。其中,关键点主要指该特征点在图像中的位置,有时还包含大小、方向等信息。描述子则指某种认为设计的方式,描述了该关键点周围像素信息的一个向量,外观相似的特征应当具有相似的描述子。所以,如果两个特征点的描述子在其向量空间上距离相近,就认为他们的特征也相近(属于同一个点)。
特征点匹配
在分别提取出两幅图片的特征点之后,需要对特征点进行匹配,即判断两张图片中特征点的对应关系。在SLAM过程中,该过程表示为将当前观测的路标点与之前观测的目前,点特征的使用最多,最常用的点特征有SIFT(scale invariant feature transform)特征,SURF(speeded up robust features)特征和ORB(oriented fast and rotated BRIEF)特征。SIFT特征已发展10多年,且获得了巨大的成功。SIFT特征具有可辨别性,由于其描述符用高维向量(128维)表示,且具有旋转不变性、尺度不变性、放射变换不变性,对噪声和光照变化也有鲁棒性。在视觉SLAM里使用了SIFT特征,但是由于SIFT特征的向量维数太高,导致时间复杂度高。SURF特征具有尺度不变性、旋转不变性,且相对于SIFT特征的算法速度提高了3到7倍。
路标点匹配
路标点匹配,又称为特征点路标的数据关联问题。SURF被作为视觉SLAM的特征提取方法,与SIFT特征相比,时间复杂度有所降低。对两幅图像的SIFT 和SURF特征进行匹配时通常是计算两个特征向量之间的欧氏距离,并以此作为特征点的相似性判断度量。ORB特征是FAST特征检测算子与BRIEF描述符的结合,并在其基础上做了一些改进。ORB特征最大的优点是计算速度快,是SIFT特征的100倍,SURF 特征的10倍,其原因是FAST特征检测速度就很快,再加上BRIEF描述符是二进制串,大大缩减了匹配速度,而且具有旋转不变性,但不具备尺度不变性。SLAM算法中采用了ORB特征,大大加快了算法速度。ORB特征匹配是以BRIEF二进制描述符的汉明距离为相似性度量的。
后端优化
视觉里程计已经完成了相机位姿的估计,但是由于数据噪声、误匹配、计算误差等因素影响,会造成位姿估计的误差,长时间运行时误差逐渐累积,会严重影响系统性能。后端优化就是要对视觉里程计的估计进行全局一致的优化,消除噪声干扰,使位姿估计更加准确。另外,当系统检测到回环后,将信息传递给后端,消除累计误差。
后端优化可选用方案较多,扩展卡尔曼滤波(Extended Kalman Filter,EKF)方法是过去常用的方法,其具有形式简洁的优势,但其只能考虑邻近时刻的特征点之间的联系,并不能考虑全局状态的联系,而且EKF具有非线性误差,不适用于大场景下的视觉SLAM系统。
回环检测
回环检测也称为闭环检测,主要解决相机位姿估计误差逐渐积累的问题。在SLAM过程中,视觉里程计主要计算相邻两帧之间的相对位姿变换,故后一帧的相机位姿通过前一帧的相机位姿进行传递,而前端计算的相对位姿
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[405430],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。