基于混合高斯模型的非线性动态系统外文翻译资料

 2022-07-26 14:28:42

英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


基于混合高斯模型的非线性动态系统

引言:本论文提出演示学习的理论,该理论能够使机器人从演示中进行自我学习。

在演示学习中,我们将机器人的运动路径视为一个非线性的动力学系统,并定义其约束条件来保证机器人能够稳定地到达目标。此外我们提出一个学习理论----”SEDS”,使用该理论可以使机器人通过自我学习,得到运动系统的参数,从而使机器人的所有的动作跟随演示轨迹,最终能够到达目标。

时间不变性和整体渐进的稳定性的作用:能够确保该系统快速响应,并且在运动过程抵抗外部扰动。

此外,基于演示学习理论,使用了人类手部运动的数据进行了一系列的机器人实验。

关键词:动力学系统,稳态分析,模仿学习,点对点运动,混合高斯模型。

1 介绍

本文认为对点对点运动,就是一个能够停在给定目标点的运动。建立的点对点运动模型,提供了机器人控制的基本元素。因此,复杂的任务可以被分解成为多组的点对点运动。例如:对于一个标准的“取放”任务来说,其步骤大致如下:首先到达目标物品,抓取物体后移动到目标位置,放下物体后返回起点。

演示编程(PbD)的优势在于能够通过示范轨迹来引导机器人学习。本论文中姿态的演示例子是由实验人员提供。为了避免解决人与机器的对应问题,实验中的姿态(动作)是从机器人的视角,通过人来引导机器人的手臂被动完成任务。在试验中,机器人的手臂引导可以通过后部推动和使用运动传感器遥控。故此,本文可以专注于“模仿什么”的问题,并提取机械臂运动的动力学特征。

在这篇论文中,假定被模仿的运动轨迹是最常见的运动。因此,对机器臂的演示应该包含所需要完成任务的主要功能,并允许机器人在附近区域进行探索。

假定点对点运动等价于动力系统:

该系统的状态变量,该变量可以定义一个机器人系统的运动。(例如 可以是一个机器人的关节角度,手臂末端执行器在笛卡尔坐标系的位置等)。假定N个状态变量表示的运动模型服从一阶常微分方程:

(1)

函数f是一个非线性连续的微分方程,其平衡点为,是函数f的参数集,表示一个零均值加性高斯噪声。该噪声项包含由于传感器测量中的不准确性和不完全演示导致的误差。

函数可以通过一组参数来描述,其中可以使用不同的统计方法,对一组示范进行处理,获得的最佳值。从而得到的f的无噪声估计。因此,f的无噪声估计的运动模型为:

(2)

给定任意起点的运动,可以对等式(2)进行积分得到。

根据等式1和等式2,我们可以得知接下来所面对的问题有:

a) 通过公式2只能产生不相交的轨迹,即使原始示范确实相交。

B) 系统的运动由其状态唯一地确定。

因此,状态变量的选择是至关重要的。例如,如果希望表示在状态空间中相交的轨迹,则应该在中对速度和加速度两者进行描述,即。

使用动态系统的优势在于机器人能够在面临扰动时立即适应变化,并且能够稳定。对于扰动来说,由动态系统驱动的控制器是鲁棒的。因为它将所有可能的能达到目标的解决方案嵌入到单个函数f中。该函数通过计算机器人的当前位置和目标,并生产能够到达目标点的全局映射图。

在本文中,我们考虑两种类型的扰动:

1)由机器人的臂或目标的突然位移产生的空间扰动。

2)由任务的执行中的延迟引起的时间扰动。

在本文中,我们使用的是运动坐标系中的运动(即笛卡尔坐标或机器人的关节空间),并假设存在将运动变量转换为运动命令(例如力或扭矩)的低级控制器。图2展示出了控制的流程示意图。

整个系统的结构可以分为两个部分。

内部循环包括一个控制器(该控制器可以产生跟随指定运动的命令)和一个用于对机器人的动力学建模的系统模块。这里的 是机器人的关节角度及其一阶和二阶时间导数。电机命令由u表示。

外部循环需要给定机器人的下一个运动位置和速度。也可以在外环中加入逆运动学模块,将期望的轨迹从笛卡尔坐标系传递到关节空间(如果运动已经在关节空间中指定,则该模块不是必需的)。

在这种控制结构中,内环和外环都是稳定的。

内环的稳定性要求系统是输入到输出都是稳定的(ISS),即内环的输出应该在有界输入时保持有界。

自学习系统能确保外环的稳定性。自学习模块是指在外环控制的动态系统中,其稳定估计的过程。

在本文中,我们假设存在一个允许有误差的低级控制器,能使内环的输入到输出稳定。这样,我们只设计一个学习模块,来确保外部回路控制器的稳定性。

模仿学习是需要数据的,我们可以使用一组验证过的轨迹来确定DS的参数theta;。模仿学习的收益作为约束优化问题,在目标点处满足DS的渐近稳定性。接下来给出对稳定性的定义。

定义1:若, 函数f在目标处全局渐近稳定的,所产生的运动渐近收敛于,即

(3)

因为非线性动力系统是倾向于不稳定。 因此需要保证f能够生成渐近稳定的轨迹,即根据定义1,渐进地收敛到吸引子的轨迹,因此f的是本次设计的关键。在本文中,我们将f及其参数theta;作为约束优化问题,保证最大化的精度,同时确保其在目标处的全局渐近稳定性

本文的其余部分的结构如下:

第二部分回顾了关于子学习离散运动的相关工作和现有方法的缺点。第三部分使用混合高斯模型对运动进行描述。在第四节,我们验证了非线性动态系统的稳定性的条件。在第五节中,我们提出了一种能够满足上述条件的学习方法。在第六部分中,我们比较了了SEDS用于动态运动估计中的性能:

a)相比于人类手写运动库,SEDS的轨迹

b)两个不同的机器人平台(类人机器人iCub和工业机器人Katana-T)的运动轨迹。

在第七节,我们进一步展示自学习的模型如何适应瞬时的时空扰动。最后我们在第八节的总结了结果。

2 相关工作

使用统计学来对机器人运动进行建模,其优势在于能够处理任何机械系统固有的噪声,因此该方法越来越受欢迎。当基础模型不能被很好地描述实际的运动时,统计学建模被证明是古典控制和规划方法的替代方案

传统的机器人轨迹编码是基于训练轨迹的平均样本。虽然这种方法很有用,在给定的一组轨迹上能够快速有效的分解和应用,但是它十分依赖于用于轨迹的分割和设定的方法,因此该方法对非线性轨迹的描述并不好。

下面介绍一些基于高斯分布的运动的非线性估计的回归方法,用来替代样条分解技术。这些回归方法可以描述多维非线性轨迹。但是和样条编码一样,这些回归方法特别依赖时间的准确性。该特性导致这些技术对时间和空间的扰动特别敏感。

为了补偿这种缺陷,需要一种启发式方法,能及时地自动重新搜索新轨迹,同时优化新轨迹来跟随期望的路径。找到一个好的启发法是十分重要的,但是在高维状态空间并不直观。

参考文献[13]提出了一种EM算法,其使用(扩展的)卡尔曼平滑器来是机器人能够跟随演示轨迹。他们使用动态规划来推断所需的目标轨迹,并且能够和所有演示的时间同步。 他们的算法在期望的轨迹上,学习了机器人的动力学的局部模型。虽然该算法被证明是一种用于学习复杂运动的有效方法,但是它需要大量时间进行运算。

动力系统(DS)作为机器人运动建模的替代。对等式2中的进行统计学估计,现有的方法有,使用高斯过程回归(GPR)[15],局部加权投影回归(LWPR)[16]或高斯混合回归(GMR)[14],其中高斯混合的参数通过期望最大化(EM)优化的[17]。

GMR和GPR通过最大化相似度(其模型契合数据的程度),找到f的局部最优模型,而LWPR通过最小化lsquo;估计和数据之间的均方误差”(有关这些方法的详细讨论参见[18])。

上述的所有方法在使系统在吸引子处稳定的约束下,不进行优化处理,因而它们不能保证运动的稳定估计后的结果是否满足全局稳定性。在实践中,它们不能确保全局稳定性,并且它们也无法保证f的局部稳定性(见定义1)。因此,即使当估计平面中的运动时,该运动的估计也会收敛到伪吸引子,错过目标(发散/不稳定),参见图3。

基于上述缺点,可以说没有通用的理论能够保证任意非线性动态系统的稳定。图3展示了使用上述方法在学习二维运动时,非线性DS的不稳定的示例。

图3(a)表示用GMR学习的动力学的稳定性分析。这里在示范周围的狭窄区域中,轨迹会聚到刚好在目标旁边的伪吸引子。在空间的其他部分,它们会聚到远离目标的其它伪吸引子,或者完全从它们发散。

图3(b)展示出了从LWPR获得的结果。黑色边界内的所有轨迹收敛到伪吸引子。在这些边界之外,速度总是为零(伪吸引子的区域),因此一旦运动越过这些边界就停止运动,或者当它初始化时不运动。

关于3(c),虽然对于GPR轨迹在接近演示的狭窄区域中会聚到目标,但是它们被吸引到该区域外的伪吸引子。

在所有这些例子中,伪吸引子的区域通常和演示有关。因此应该避免演示的失误。但是,关键的问题是,没有一个通用的理论解决方案来预先判定轨迹是否会产生伪吸引子,或在无穷远,或在所需的吸引子旁边。

因此,需要对该运动进行数值稳定性分析,来定位可能不存在的或非常窄的期望目标的吸引区域。

动态运动基元(DMP)[20]提供了一种方法,通过该方法可以估计非线性DS,同时确保吸引点处的全局稳定性。通过使用线性动态系统来确保全局稳定性。从非线性系统到线性动态系统的切换,根据(像隐式时钟工作的)相位变量来进行变换。

这种隐式时间依赖性需要启发法,以在面临时间扰动的情况下重置相位变量。当从单个演示学习时,DMP提供了一种鲁棒和精确的描述复杂动态系统的方法。

在这里,我们采取不同的方法,其中我们的目标是从多个演示学习广义动力学模型。我们还需要确保时间独立性,并因此确保时间扰动的鲁棒性。

模仿学习也从多个维度提取相关性。虽然DMP单独地为每个维度学习模型,但我们在这里模拟单个多维模型。因此,我们提出的方法是对DMP的补充。使用DMP或SEDS来建模运动的选择取决于应用。例如,当运动本质上是时间相关的并且只有单个演示可用时,可以使用DMP来对运动建模。相反,当运动是时间无关的并且当从多个演示学习时,可以选择使用SEDS。对于这些问题的更详细的讨论和使用DS的运动的时间依赖和时间无关编码的定量比较,读者可以参考[5],[21]。

在我们以前的工作[14],我们得知一个混合控制器组成的两个DS,同时工作在末端执行器和关节角度空间,导致一个控制器没有奇异点。虽然这种方法能够实时的适应目标的突然位移或者在运动期间机械臂的意外运动,但是模型需要保持时间相关性,因为与DMP类似,它依赖具有固定内部时钟的稳定线性动态系统。

然后,我们研究了基于隐马尔科夫模型(HMM)和GMR [22]的替代方法。在此提出的方法是时间无关的,因此对时间扰动是鲁棒的。然而,不能确保系统的渐近稳定性。该方法通过估计每个线性DS的特征值并确保它们都具有负实部,进行了简单的推到来避免全局的不稳定性。如[22]中所述,如我们将在第四节中所示,要求所有的特征值都是负的,不是确保整个系统的稳定性的充分条件。如图5.

在[21],[23]中,我们提出了一个启发式来建立非线性DS的局部稳定估计。这种启发式需要一个增加高斯数并重复使用期望最大化重新训练混合,直到可以确保稳定性。稳定性是通过数学方法测试。这种方法的缺点是,它不能确保找到一个(甚至局部)稳定的估计,并且它没有对高斯形式提供任何明确的约束以确保稳定性。该模型由于其局部稳定性而具有有限的适用范围,并且其计算量较大,使得该方法难以应用在高维情况。

在[18]中,我们提出了一种迭代法,称为二进制合并(BM)来构造高斯混合模型,从而确保目标点的局部渐近稳定性,因此该模型只能应用于接近演示的区域(见图3(d))。虽然这种方法提供了足够的条件使DS局部稳定,类似于[23],它仍然依赖于确定的稳定性区域,因而适用范围有限。

在本文中,我们提出了稳定性估计,并对混合模型的参数制定精确地约束,以确保DS的全局渐近稳定性。这种方法为估计非启发式驱动的非线性动力系统提供了良好的基础,例如二阶动力学的估计和在这里展示的多自由度机器人的控制。图3(e)展示了在本论文的成果。由于全局渐近稳定,所有轨迹收敛到目标。这确保了可以从操作空间中的任何位置开始,并成功完成任务,而不需要重新索引或重新缩放。

注意,我们在这里提出的稳定性分析在[5]中以初步公布。本文主要通过以下方式扩展这项工作:

a)对稳定性进行更深入的讨论;

b)提出两个目标函数来学习DS的参数,并比较其优点和缺点;

c)通过对所提出的方法:BM和用于估计运动动力学(即GMR,LWPR和GPR)的三种最佳回归方法的性能进行比较;

d)通过进行更多的机器人实验。

3 多元回归

我们使用混合高斯模型构造了该运动的概率学模型和运动学模型f。混合高斯模型在进行密度近似时是非常流行的,这种模型允许在模型复杂性和可用训练数据的变化之间的折衷来定义适当的模型。

混合模型是一种使用固定数量(通常小于10)的混合分量构建数据密度的方法。使用贝叶斯信息准则(BIC)[25],Akaike信息准则(AIC)[26],偏离信息准则(DIC)[27]等各种方法可以找到最佳数量的分量,当其模型的相似性很小时,可以增加分量的数量。

虽然如高斯过程

全文共7073字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[144901],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。