基于连续记忆状态的部分观察机器人控制策略学习外文翻译资料

 2023-02-27 15:20:02

基于连续记忆状态的部分观察机器人控制策略学习

对于部分观察到的控制任务,策略学习要求策略能够从过去的观察中存储信息。本文提出了一种具有记忆的高维连续系统学习策略的方法。我们的方法不假设一个已知的状态表示,也不试图在未观察到的状态之上明确地建立信念模型。相反,我们直接学习可以从内部连续值内存中读写的策略。这种策略可以解释为一种循环神经网络(RNN)。然而,我们的方法避免了许多困扰RNN的常见问题,例如消失和爆发梯度问题,而是将内存表示为状态变量。然后,该策略通过使用一个引导策略搜索算法进行优化,该算法通过状态空间(包括物理和记忆状态)交替优化轨迹,并使用监督学习训练策略来匹配这些轨迹。我们在涉及操作和导航设置的连续控制任务中评估了我们的方法,并表明我们的方法可以学习复杂的策略,成功地完成一系列需要记忆的任务。

1 介绍

强化学习(RL)和最优控制方法有可能让机器人自主发现复杂行为。然而,机器人控制问题通常是连续的、高维的和部分观察到的。特别是部分可观测性提出了一个重大挑战。通过使用各种基于模型的近似,已经解决了pomdp环境中的部分可观性问题。然而,尽管最近的进展,学习状态表示、动力学和观测模型仍然具有挑战性。

无模型策略搜索算法通过系统交互直接优化策略,成功地避开了学习动态和观察模型的需要。然而,这些成功主要是在完全可观察的领域,在这些领域中,反应性策略就足够了。相比之下,部分可观测性通常需要有内部内存的策略,比如有限状态机或RNN——然而,这些类型的具有内部内存的一般函数逼近器是非常难以优化的。有限状态控制器以前已被应用于较小的RL任务,其中值函数近似是实用的,策略梯度方法已被扩展到RNN,但仍然缺乏训练复杂、高维、具有内部记忆的通用策略的有效方法。

本文的贡献是一种有效训练RNN策略来解决未知动态下连续部分观测控制问题的算法。为了应对高维策略参数化的挑战,我们将引导策略搜索算法应用于具有内部记忆的训练策略任务。在引导策略搜索中,我们利用监督学习优化了策略。这种监督是通过解决每个具有单一初始状态的问题的单个实例来提供的,这允许有效的以轨迹为中心的强化学习方法可以独立地应用于每个实例。由于最终的策略是在来自多个轨迹中心控制器的数据上训练的,它可以推广到新的初始状态,并为任务提供一个全局策略。引导策略搜索以前被应用于学习复杂的反应性神经网络,但以前没有扩展到处理有内存的策略。将引导策略搜索扩展为处理内存的一种自然方法是简单地将一般参数化策略(通常已经表示为前馈神经网络)替换为RNN,如第4.1节所述。然而,这种方式训练RNN并不像训练纯前馈网络那样直接,因为在由此产生的优化问题中存在挑战,包括消失和爆炸梯度、对学习率更大的敏感性和更长的训练时间。相反,我们可以利用引导策略搜索过程导致的轨迹中心控制器和神经网络之间的分离,将递归网络作为一个规则的前馈网络进行优化,将递归状态简单地添加到动态系统的状态中。在这种情况下,用于生成策略优化监督的以轨迹为中心的强化学习算法负责通过一组“存储”动作设置隐藏状态,而神经网络只是在每个时间步中尝试匹配这些动作。总的来看,最终的神经网络策略和动态系统的隐藏状态维度仍然构成一个循环网络。

我们的实验结果表明,我们的方法可以用于学习各种任务涉及连续控制的操作和导航设置。在直接比较中,我们发现我们的方法优于一种方法,其中引导策略搜索的神经网络是nauml;ıvely通过时间反向传播的循环网络代替,以及一个纯前馈策略没有记忆。

2 相关工作

虽然对部分观察到的问题的强化学习方法的完整调查超出了本文的范围,但我们在本节中强调了几个相关的研究领域。离散的部分观察任务已经被各种强化学习和动态规划方法所解决。虽然这些方法已经被扩展到小的连续空间,但它们很难扩展到大多数机器人控制任务中发现的大状态空间。在这些领域中,基于直接策略搜索的方法通常是首选,因为它们能够优雅地扩展任务维度。虽然大多数策略搜索方法都与反应性策略有关,但已经提出了一些方法,使用内部状态来增加策略,包括基于有限状态控制器的方法和显式内存状态,策略可以使用内存存储动作来更改。然而,这些方法仅在小的或离散的设置中进行了评估。而我们的方法也提供了与内存状态和明确的策略行动,可以用来改变这种状态,我们的记忆和存储操作是连续的,和我们的实验表明,我们的方法可以扩展到高维问题代表现实世界的机器人控制的任务。

结合它们的内部记忆状态,我们的策略可以视为一种递归神经网络(RNN)。之前的工作已经提出了利用似然比方法通过时间进行反向传播来训练RNN策略。然而,这种方法面临两个挑战:首先,无模型似然比方法难以适用于参数超过几百个的策略,这使得该方法难以应用于需要灵活、高维策略表示的复杂任务。第二,通过时间反向传播优化RNN容易出现消失和爆发梯度问题。虽然特定的RNN表示(如LSTM或GRU)可以缓解这些问题,但我们的实验表明,与LSTM的时间倒传相比,我们的带有记忆状态的引导策略搜索算法可以产生更有效的策略。

本工作中使用的引导策略搜索算法与Levine等人提出的方法最为相似。该方法是在机器人控制的背景下提出的,并已证明在复杂的,高维前馈神经网络策略下取得了良好的效果。搜索背后的核心理念指导策略是策略的搜索问题分解成交替轨迹优化和监督学习阶段,在轨迹优化是用来控制问题找到一个解决方案和生产训练数据,然后使用在训练一个非线性的学习阶段,高维的策略。通过从多个轨迹中训练单个策略,指导性策略搜索可以产生复杂的策略,这些策略可以有效地推广到一系列初始状态。由于该算法假定策略是马尔可夫式的,因此先前的工作仅将引导策略搜索应用于训练反应性前馈策略。我们修改了基于BADMM的引导策略搜索方法来处理连续的内存状态。内存状态被添加到系统状态中,策略的任务是选择动作和修改内存状态。虽然得到的策略可以看作RNN,但我们不需要通过时间进行反向传播来训练策略内部的循环连接。相反,记忆状态是由轨迹优化算法优化的,它直观地试图将记忆状态设置为允许策略在每个时间步中采取适当行动的值,然后策略尝试在监督学习阶段模仿这种行为。

3 预备概念

我们的方法的目的是控制一个部分观察系统,以最小化成本函数的期望在整个策略执行pi;theta;(ut|o1,... , ot),由Epi; [Sigma;T A(xt, ut)]在有限视界情景设置中给出。这里,xt 表示系统的真实状态,ut 表示动作,ot 表示观察,而A(xt, ut)是指定任务的代价函数。例如,在机器人控制中, ut可能对应于机器人的电机的力矩, xt可能的配置机器人及其环境,包括任务相关对象的位置,而不可能从机器人的传感器读数,如联合编码器提供关节的角度,甚至是相机上的图像。该策略pi;theta;(ut o1, hellip; , ot)指定了基于当前和以前的观察的行动的分布。该策略由theta;参数化。我们特别关注的任务是,当前的观察ot本身不足以选择一项好的行动ut,而策略必须整合过去的信息才能成功。这样的任务需要带有内部状态的策略,可以使用内部状态来记住过去的观察结果并相应地采取行动。为了利用内部内存优化策略,我们在Levine等人提出的引导策略搜索算法的基础上进行了构建,我们将在本节对其进行简要总结。该算法优化的反应策略的形式pi;theta;(ut ot),我们在第4节讨论了如何适应训练策略的记忆。

3.1指导策略搜索

指导策略搜索是一种策略优化算法,将策略搜索任务转化为监督学习问题,其中监督由一组简单的轨迹中心控制器提供,记为pi(ut xt),每个控制器在任务的单独实例上独立优化,通常对应不同的初始状态。这种方法有两个主要的好处:第一个是,通过要求每个以轨迹为中心的控制器从一个特定的初始状态解决任务,相对简单的控制器可以使用非常有效的强化学习方法。第二个好处是,由于最终的策略是用监督学习方法优化的,它可以承认一个复杂的、高度表达的表示,而无需考虑与优化高维策略相关的常见挑战。从直观上看,以轨迹为中心的控制器的目的是从特定的状态确定如何解决任务,而最终策略的目的是推广这些控制器并从各种初始状态成功。我们所构建的部分观察的引导策略搜索的变体,通过提供与策略相比的不同的轨迹中心控制器的输入,进一步推进了这一想法。在该方法中,轨迹中心控制器是在完全状态观测下训练的,而策略则是仅利用观测而不是输入来模仿这些控制器。这迫使策略处理部分观测,同时保持任务容易为轨迹中心控制器。这种类型的仪器设置对于许多机器人任务来说是很自然的,训练是在一个已知的实验室环境中完成的,而最终的策略必须在各种不受控制的条件下成功。然而,这个方法本身并不提供处理内部内存的方法。

算法1总结了部分观察引导策略搜索方法。在算法的每次迭代中,使用每个轨迹中心控制器pi(ut xt)。1生成样本这些控制器的各种表示是可能的,形式为p(ut xt) = (Ktxt k, Ct)的线性高斯控制器承认了一种特别有效的优化程序,基于局部线性动力学[7]的迭代重构。一旦这些动态被拟合,算法将进行L内迭代(在我们的实现中为4)。这些迭代交替在优化每个轨迹中心控制器p(ut xt)和优化策略pi;theta;(ut ot)之间进行,以匹配沿采样轨迹遇到的每个观测oi轨迹中心控制器所采取的行动。通过KL-divergence的度量,控制器的优化目标是最小化其期望成本Ep[A(tau; )],以及最小化其与策略的偏差。该策略被优化到最小化kl与控制器之间的发散。这种交替优化确保了以轨迹为中心的控制器和策略在相同的动作上达成一致。一般来说,监督学习不能保证产生良好的长期策略,因为在每个时间步骤拟合行动时的错误会随着时间积累。实际上,这个政策的问题在于,它的国家访问频率与培训对象不同。交替优化通过逐渐迫使控制器和策略达成一致来解决这个问题。为了保证一致性,引导策略搜索在策略和控制器上使用拉格朗日乘子,并在每次迭代中更新控制器。该方法的全部细节,包括控制器和策略优化的目标,在以前的工作[7]中导出。

3.2递归神经网络

为了避免策略类的特定任务手工工程,引导策略搜索经常与通用函数近似器一起使用,如大型神经网络。为了将记忆整合到这些策略中,它们必须被转换成循环神经网络(RNNs)。与前馈网络不同的是,RNNs能够通过其隐藏状态的激活来整合过去的历史,这些隐藏状态根据隐藏状态动力学在时间上向前传播。

图1展示了一个一般的循环神经网络,以及一个长短时记忆单元(LSTM)体系结构。这些网络通常是通过将其视为一个大型神经网络来训练的,并通过时间反向传播来计算参数的梯度与一些损失。能够在多个时间步长上集成信息,允许RNN处理序列处理任务,如语音识别和文本生成。然而,对于RNN来说,学习长期的时间动态仍然是非常困难的,因为通过许多时间步长的反向传播可能导致消失和爆炸梯度。针对这些问题已经提出了许多解决方案。一个流行的解决方案是改变网络的体系结构,使优化更容易,其中LSTM体系结构尤其流行。因此,我们在第5节的实验中评估了这样的架构作为基线。

LSTM节点的图如图1所示,使用的LSTM内部体系结构的详细信息可以在[5]中找到。隐藏状态有两个大小相同的分量,ct和ht。s型非线性(粉色梯形)之后的元素级乘法充当一个软内存访问门,其值介于0和1之间。这组交互作用的设计使得隐藏状态ct可以通过使用ft门选择性遗忘来保持长期记忆,并可以使用it门选择性地增加一个小的增量或减少gt,否则保持其值。输出被ot门控,因此每个隐藏状态ht被选择性激活。对于一个LSTM单元,当ft门接近1且接近0时,我们得到ct asymp; ctminus;1。当ft接近0并且it接近1时,我们有ct asymp; tanh(gt)当它们都接近1时,我们有ct asymp; ctminus;1 tanh(gt)。正是这个特性使得LSTM能够缓解梯度消失的问题,因为梯度在每一步都乘以1或0。

图1:左:一般RNN图。右:LSTM节点的结构。紫色方块执行其输入的仿射变换。红色三角形执行元素加法或乘法,粉色平行四边形和橙色梯形是tanh和s型非线性。

正如我们在下一节中讨论的,我们可以使用引导策略搜索算法直接优化RNN策略,包括lstm,使用时间反向传播。然而,我们也提出了一种更微妙的方法,避免通过时间反向传播,而是将网络的循环状态添加到系统的状态,允许它由轨迹中心控制器控制。在我们的实验中,该方法取得了显著的效果。

4 指导策略搜索训练RNNs

在这一节中,我们描述了两种方法,通过这两种方法,RNN策略可以使用上一节中提出的引导策略搜索算法进行训练。

4.1基线法

将引导策略搜索扩展到递归神经网络的一个自然方法是简单地将一般参数化策略(通常已经表示为前馈神经网络)替换为RNN或LSTM网络,同时保持第3。1节中详细介绍的所有内容相同。然而,用这种方法训练RNN或LSTM网络的效率不如纯粹的前馈网络,训练容易受到诸如消失和爆炸梯度等问题的影响,而且学习速率通常很难设置。在实践中,我们发现这种方法比我们的方法更难训练,导致政策执行得相当糟糕。这一问题将在第五节的实验结果中进一步探讨。

4.2我们的方法

在我们的方法中,我们将递归神经网络视为一个标准的前馈网络,并且不通过时间反向传播递归激活。相反,我们把网络的隐藏状态,记作ht,添加到动力系统的状态中。这迫使以轨迹为中心的线性高斯控制器处理隐藏状态的优化。类似地,我们用内存存储动作at来增加动作集,在每个时间步中添加到隐藏状态,如ht 1 = ht at。前馈神经网络策略试图模仿以轨迹为中心的控制器,并采取相同的记忆存储动作,以同样的方式试图匹配常规的动作。隐状态、隐状态动态和前馈网络共同构成一个循环网络,使策略保持记忆。

由于隐藏的内存状态被简单地视为额外的状态变量,利用引导策略搜索的能力来处理高维的状态空间和策略参数化为我们

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[405751],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。