英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料
未知环境中移动机器人的自动导航
摘要:在线导航与已知的目标和未知的障碍在移动机器人中是一个有趣的问题。本文提出了一种基于神经网络和强化学习的utili-zation技术,可以使移动机器人学习构造环境。在没有初始设置规则的专家时机器人也会自动生成高效的导航规则。相比基于人工势领域概念得传统的模糊模型,这被认为是这项工作的主要贡献。规则的泛化能力也已被检查。最初的结果qualita-tively证实了模型的效率。更多exper-iments显示至少32%的改善路径规划从第一到第三路径规划试验样品的环境。分析结果,未来的工作会包含限制和建议。
关键词 局部导航 强化学习 联想记忆
1 引言
在移动机器人周围的局部导航时,有很多种不同的技术可以实现人工势的概念域(apf)。如【1】中描述,模糊逻辑确实是最基本的技术之一。
然而,本文的重点不是在模糊模型被包含基于专家经验规则的定义需要减少机器人的智能水平以应对uncertain-ties。在局部路径规划中自动导航规则的建设一直是一个具有挑战性的话题。结果表明,神经网络(NN)或像模糊认知图(FCM)[2]这样的混合模型等更适合结构件和最初被忽略的基于专家经验的设计规则的修改。在局部导航中作为基本元素的学习不能简单地包含在纯粹的模糊模型中。使用互补的技术已经修改了几次模糊模型,如基于内存的模糊模型[3 - 5],具有里程碑意义的学习[6],虚拟障碍[7],[8]虚拟目标,和其他搜索策略(9、10)。然而相比NN-based模型,他们除了缺乏学习能力还主要在算法构建块之间缺乏一致性。更重要的是,这样的模型,十分依赖于专家的初始设置,例如在处理不确定性和意想不到的场景时,条件和规则或算法。一个机器人navigat-ing需要在通过一个陌生的环境时至少有两个行为被称为(1)和避障和(2)目标追求。没有专家或预定义的naviga-tion算法如APF[11],机器人应该自己学习如何到达目标,同时避免碰撞与障碍。自动构建navi-gation规则在移动机器人中仍是一个具有挑战性的问题。
2基本导航行为
与整个配置空间的知识中的全球导航对比,包括所有障碍的位置和方向,目标,和死胡同在内的都可用于机器人在当地导航、机器人已经在本地探测空间依赖于自己的传感器,如相机、声纳测距仪,触摸传感器等。在线路径规划在寻求目标同时避免障碍物的碰撞时,涉及到探索整个环境的挑战。在线路径规划确实是完全基于对当地的了解。因此,为了找到目标,机器人通常必须基于复杂的搜索技术(12、13)探索整个空间。然而,为了使问题规模更小,在大多数地方导航模型中,对于目标的信息,也就是说,只是目标而不是障碍物的坐标位置被传递给机器人。因此机器人知道目标所在,可以沿着路径跟踪这些信息通过使用轮子的计数器和其他内部测量机制,例如指南针。让我们想象一下把目标放在(x,y)坐标中。启用(target-seeking)搜索目标行为,也就是说,让目标一直吸引机器人,为使differ-ence[1]的角度或“旋转的不同”(RD)必须趋于0 L,机器人必须不断做顺时针或逆时针旋转来维持自己的取向角(h)平行于方向(x,y)向量,机器人的中心形状如图1所示。机器人的定位角和(x,y)向量的方向之间最短的路(h)很受关注。因此,所获得的值总是在(-180 l、180 l)范围内,这就决定了机器人为保持面向目标点应该旋转的角度。因此,在任何时候,RD为正值意味着目标是位于左侧(TL),而一个负值表明目标是在机器人的右边(TR)。而在APF的内容中,目标是吸引子,即可以产生target-seeking行为,目标被分配反射极潜力给机器人进行避障行为展示。一个机器人在未知环境中安全可靠的当地导航时需要这两个非常的基本的行为。机器人的测距仪传感器返回值指示了机器人与障碍位置传感器的辐射范围的距离。这项研究检查过的机器人已经在右面,前面,左面距离60 l间隔和距离60 l辐射覆盖面的地方被配备了三个测距仪,如图2所示,通过设置障碍检测的范围,例如,传感器间隔1米,障碍在任意方向可能会或可能不会被发现,有以下情况:左边的障碍(OL),前面的障碍(OF)障碍在右边(OR),或没有障碍(NO)。
图1计算旋转的区别:正值表示逆时针旋转[14] 图2配备了三个测距仪传感器来检测障碍的机器人
3基于专家经验的导航
如上所述,目标(如果只有一个目标)有两个可能状态:目标左右(TL)和目标(TR),而障碍会得到四种可能的状态。因此,如表1中给出的下面的规则可以确定为满足到达目标的有效的路径规划所需的行为。输出是显示为(LWV)和(RWV)的左右车轮的速度为应用到机器人的特异的轮子。规则的生成是基于一些简单的原则如下:
bull;避障比目标寻求的优先级更高。
bull;在前面有障碍时,两个轮子的速度应该降低。
bull;当有一个障碍在左面时,左车轮速度增加。
bull;当有一个障碍在右面时,右车轮速度增加。
bull;当目标是在左面时,右车轮加速,当目标在左面时,右车轮加速。
表1满足避障和目标追求两个行为的简单的规则
IF |
OBSTACLE |
TARGET |
THEN |
LEFT WV |
RIGHT WV |
IF |
OL |
TL |
THEN |
HIGH |
– |
IF |
OF |
TL |
THEN |
LOW |
LOW |
IF |
OR |
TL |
THEN |
– |
HIGH |
IF |
NO |
TL |
THEN |
– |
HIGH |
IF |
OL |
TR |
THEN |
HIGH |
– |
IF |
OF |
TR |
THEN |
LOW |
LOW |
IF |
OR |
TR |
THEN |
– |
HIGH |
IF |
NO |
TR |
THEN |
HIGH |
– |
图3中取自MobotSim机器人模拟器[14]的从a到d的框架显示了机器人在一个没有死角的样品环境下的开发规则下的的性能。
凹障碍和死角排除的原因是机器人不知道极限环。此外,规则不为机器人提供最低回避行为。因此如方法[1]这样的额外的技术需要合并这样一个行为。基于现有的行为,也就是说,避障和目标寻求,机器人可以绕开障碍物和面向目标。问题是,设计师的设置规则对导航系统影响很大。例如,另一个设计师可以开发基于其他原则的规则,例如,给定目标的优先级高于障碍。因此,除了depen-dency专家,另一个缺点是,可能有各种设置的规则,然而,没有人能保证最佳的性能和结果。
图3 表3中给出规则下机器人导航
4提出策略
通过利用神经网络,expert-independent导航可能成为机器人基于reinforce-ment学习原则学习导航行为。无论专家初始设置的规则和机器人自己的过去的经验,学习都是一个持续的过程,以确保提高机器人性能沿着路径随着时间的推移。然而,随着训练不是一个关切的奖励和处罚原则导致dis-tinct行为目标寻找和避障。当机器人变得更加成熟,它还允许为处理不确定性。为建立机器人的工作空间模型,首先应该分配一组神经元给每个可能发生的sit-uations。就如APF模型中描述,根据传感器的数量和方向,障碍可以被检测到在机器人不同的方向。目标也可以被检测到位于不同的方向。
对如图2所示的被检查的机器人,目标和障碍的定位可能的情况列出如下:障碍在左边(OL),障碍在前面(的)障碍在右边(或),没有障碍(no),目标离开(TL)和目标右侧(TR)。因此,在任何瞬间,根据通过机器人的感官渠道所观察到的情况,机器人决定采取行动是否增加或减少车轮的速度。因此,机器人可能会由于包括左车轮速度高(LWH)、左车轮速度低(低潮位)、右轮速度高(RWH)和右轮速度低(RWL)这样的发生情况而采取行动,神经模型就需要把这种情况与各自的行动结合起来,图4的联想记忆(AM)(15、16)的提出完美地实现了这个目的。而左派和右派神经元之间的连接叫做coun-terparts导航规则,他们的重量最初是未知的,没有初始设置的必要性。换句话说,初始随机重量的分配允许从专家设计的inde-pendency。
为了实现学习策略,图5的算法被改进了。首先,包括机器人的配置的软件设置应完成,例如,使用三个传感器每隔60 l的传感器和60 l 辐射覆盖面实验和建设的一个随机矩阵的权重(W)。相对于机器人,障碍和目标的方向有八个可能的情况,即X1hellip;X8,而Xi是一个代表(OL,,或者,不,TL,TR)的矢量。事实上当考虑只有两种可能的方向的ori-entations目标和只有四种可能方向的障碍时是最小数量的情况。而这八种情况是已知的和随时可能被检测到的,一开始各自的行为是未知的,因此,任意数量可能会被分配。因此,8个随机集值被分配到输出变量,即Y1 hellip; Y8,而Yi代表(LWH, LWL, RWH, RWL)。重量的构建是基于等式1给出的学习原理。常见的激活函数是符号函数。它还拥有减少输出神经元的数量从4到只剩下两个的优势,这两个神经元代表左车轮速度(LWV)和右车轮速度(RWV)的正值或负值,从而来驱动微分舵。
图4相关的输入和输出的发达的联想记忆(AM)
(1)
然后机器人用随机分散凸障碍和一个已知的目标构造的样本环境来积累经验。实验开始,机器人检测x的现状,然后根据在等式2中给出的激活规则从AM检索各自的行动。
(2)
在采取行动时,也就是说,在MobotSim 步进命令,机器人由于接近目标将被奖励不论distance-wise 型或direction-wise型或将受到惩罚由于太接近一个障碍,会远离目标,或两者兼而有之。奖励或惩罚的程度是根据实现或未实现的目标寻找和避障的程度然后用来决定采取另一种行动来决定。关键问题在于奖励可以鼓励机器人推进现有的行为序列,而惩罚使机器人撤退,考虑替代行为。
在惩罚事件中,当机器人撤退到前面的位置,另一个行动必须取代现有的一个。因此矩阵的权重(W)应该基于当前形势下重建,改变的行动,和其他七对situation-actions记住现状的决定选择行动。整个过程从一开始,整个实验过程中直到达到目标学习周期永远不会结束,。然后机器人储存上一次获得的权重,即记忆实验装置,利用它在未来获得更好的性能。撤退的原因是,机器人应该逃避可能会导致冲突情况的风险。另一个原因是,无论机器人的实际大小,尽管有差动转向功能,仍然需要左或右转一些距离(即为保证安全改变行动)。换句话说,因为在许多场合轮子的速度不是反向相等,机器人不能立即转向,因此需要与障碍有一些距离才能成功绕过它。
图5通过强化学习原理实现的学习策略
5仿真结果和分析
为通过使用开发的学习策略而进行导航实验,已经采取了以下步骤。首先,在机器人导航的应用测试了一个,然后两个基本行为。然后,泛化规则中的模型能力,也就是说,执行超出定义的问题大小,已被评估。最后,第三步,通过大量的随机实验分析了算法的学习能力。完成步骤1和2,MobotSim导航机器人的基本代码已被开发。两种类型的基于专家经验的设计,也就是说,排除学习阶段,仅仅是检查测试在机
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[148039],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。