AFOSR MURI的“人机对抗网络” 对抗环境中交互代理的多层次、多分辨率网络外文翻译资料

 2022-08-10 19:58:15

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


第三年进度报告

涵盖期间2012年9月1日– 2013年8月31日

AFOSR MURI的“人机对抗网络”

对抗环境中交互代理的多层次、多分辨率网络

https://wiki.engr.illinois.edu/display/MuriHMAN

2013年9月26日

PI: Tamer Başar, CSL, University of Illinois, Urbana, IL, 61801; basar1@illinois.edu Co-PIs: G. Dullerud, N. Kiyavash, C. Langbort, R. Srikant (Univ. Illinois)

J. Shamma (Georgia Tech); S. Lall, Y. Shoham (Stanford);

  1. Kariv, J. Walrand (UC Berkeley); J. Baras (Univ. Maryland)

项目概况

这个MURI项目的目标是解决网络化异构代理中出现的基本问题,其中包括复杂的交互、不确定性、对抗行为、信任、学习、回路中的人、信息和通信,以及在不同的均衡解决方案概念下,设计架构,以促进可操作信息的生成和传输,从而提高性能

总体目标是用相关的理论、计算算法和实验测试平台开发一个全面的多层、多分辨率(multi-layer multi-resolution MLMR)框架,用于由人类和自动化决策者组成的空间分布团队在多个尺度上进行的动态博弈,他们通过网络进行交流和互动,并受到对抗行动的影响。在我们采用的框架中,代理在三层架构中进行交互,即:第一层,代理在该层进行操作并做出决策;第二层,即信息层,数据、模型和可操作信息可在该层驻留和交换;第三层,由用于第一层和第二层的物理通信网络组成,并且包含软件和硬件实体,以及传感器和执行器,团队通过它们与动态物理环境进行交互。MLMR框架非常适合研究两个或多个通过结果、操作空间和成本交互的博弈情况。这些交互的特征是:(i)低级别博弈的结果可能会限制较高级别玩家的可用操作;(ii)较高级别玩家的收益由较低级别玩家共享。交互的另一个层次是通过多分辨率结构的概念捕获的。在多分辨率结构中,我们在博弈中包含博弈,通过放大缩小操作提供具有不同粒度级别的博弈结构,所有这些都通过此过程相互关联。

该项目正在研究MLMR博弈的多个方面,包括对常规博弈树以外的结构的考虑,以及对常规动态多级博弈的适当解决方案概念的介绍。

我们的研究分为四个主要方面:具有计算和认知局限性的代理;大型博弈和分解;容错网络架构;以及信息结构和拓扑设计。这十一个高级研究人员中的每一个都至少参与了其中两个方面,并且通过两个实验测试台进行了补充了研究内容:加州大学伯克利分校的实验经济学实验室(经济学风洞)和伊利诺伊大学的HoTDeC测试平台。这份进度报告的结构与研究结构本身平行,在总体进度摘要之后,分别讨论了每一个重点的科学进展,并描述了拨款第三年的试验床活动。该报告还包括团队成员在过去三年中获得的荣誉,奖励和认可的清单,人员指标以及由MURI项目支持的出版物的清单(自拨款以来)。

第三年进展摘要

在拨款的第三年,我们在上述所有四个重点领域开展了工作并作出了贡献,并继续在经济和工程两个领域的试验台开发方面取得重大进展。我们的研究结果由高级研究人员以及参与该项目的博士后和学生提交并在选择性会议上进行了展示。我们研究了代理或参与者具有非传统的计算和认知能力的决策问题和博弈,它其中一个局限——认知局限是由于建模不准确造成的。特别对于委托-代理问题来说,我们研究了在机构设计设置中模型差异的后果。另一个局限是计算性质,我们研究了在不同的背景下(如分布式平均、信息扩散和优化问题的解)以及在非合作(甚至是敌对)以及顽固的代理存在的情况下,代理网络中的局部交互中出现的全局行为,并研究了收敛及其加速问题。为了理解学习、控制和决策之间的权衡,我们继续研究多臂赌博机问题(multi-armed bandit problem),但现在仅研究了与拉每只手臂相关的成本和预算限制。我们还继续研究了经验证据均衡(empirical evidence equilibrium EEE),建立了与相关均衡的联系。我们已经取得进展的另一个领域是在网络中近似计算因果影响代理结构的问题。在这第三年中,我们已经开发了算法来确定有界程度的连通结构的最优近似。我们还开发了方法来识别有对参数估计误差有鲁棒性的有向树近似。

我们继续开发了一个多层多分辨率(MLMR)博弈论框架,以调查和了解大种群系统中的群内和群间行为,今年我们在其中引入了与安全相关的元素,包括多样性和随机化的主动机制,以及通过操纵网络的攻击面来实现的移动目标防御的创建。如去年的报告所述,均值场(MF)博弈理论提供了一套用于MLMR博弈的通用工具(概念层面的,分析层面的和计算层面的),今年我们关注的焦点之一是社交网络的框架,在这种框架中,当存在对抗性干扰时,观点会按照随机平均过程演变;在这种背景下,我们发展了一种具有鲁棒性的MF均衡。今年,我们还继续进行了具有博弈内博弈结构的港口袭击博弈的研究,并解决了一些计算难题,这将在后面的III.2中进一步讨论。

作为研究的另一个方向,我们研究了分布式多代理推理和决策问题在建模和表示上的基本问题,并针对这类系统开发了一个新的通用模型,该模型涉及约束的联合博弈以及多个相互作用的动态多重图,并用权重标注节点和链接(包括向量值和逻辑值)。该框架强调可观测和部分信息,而不强调状态模型。正如去年报告中提到的,这种方法在基本原则上是合理的。随后我们开发了一个详细的模型,其中包括代理之间的协作和通信多图模型。今年,我们为这些问题开发了新的基于优化的分析方法和新的随机模型,以便仔细分析通信拓扑对协作代理性能的影响。我们研究凸性的出现。我们还研究了包含多个部分序半环的代数结构的扩展,它允许结合基于逻辑的策略。我们进一步扩展了该框架,使它可以合并包括合作对手在内的对手。我们已经在这些表示多代理系统、分布式代理计算的新逻辑类型和新计算概念之间建立了更深层次的联系。此外,我们研究并建立了这些表示多代理系统与相关信息模式之间更深入和基本的联系,这也指导我们为这些多代理系统开发了新的概率模型,该模型可自动合并不相容的测量值,例如,来自不同无法协调的代理的测量值。我们使用新的概率模型得到了分布式推理问题和对网络进行分布式信息检索的初步分析结果。

我们继续在解决信息结构、平衡的表征和计算、减轻对抗行动和网络设计等领域的重要问题和基本问题。在去年的报告中,我们已经宣布引入一种强大的“提升”技术,用于具有不对称信息的零和随机博弈转换为具有对称信息的“等价”博弈,由于在更高维空间中工作的必要性,这一过程会以增加一些额外的复杂性为代价。尽管会有这种额外的复杂性,但具有对称信息的新的游戏使其平衡的计算可行。今年,我们将这一技术推广到非零和非对称信息随机动态博弈中,得到了一类特殊的马尔可夫均衡。我们对零和随机微分/动态博弈进行了全面的研究,其中参与者可用的状态信息通过有损信道传输,并开发了描述和计算平衡点的间接方法,这些方法通常不是确定性等价类型。在有损信息传输方面,我们还提出和解决了(几个有趣的特征)H无限估计的扩展和具有不可靠通信信道的控制问题。我们还讨论了一个基本的分散最优控制问题,即两个子系统在嵌套信息模式下相互连接的两参与者问题,该问题中必须为每个子系统设计控制策略,且两个参与者都不能访问系统的完整状态。

我们研究了干扰问题,得到了在高斯和非高斯背景下,同时作为团队成员(不共享全部信息)和敌对双方的发送者和接收者的零和随机博弈的鞍点或Stackelberg均衡解。我们还制定并解决了网络流量中的信息隐藏问题。在过去的一年中,我们开发了一种不可见的、具有鲁棒性的流水印方案,它可以在流的包内到达次数上嵌入不可见的水印图案,并在流在真实网络传输后通过具有抖动、丢包和分裂精确解码嵌入的信息。我们在去年开始的博弈战略信息传输方面取得了实质性的进展(在加强限制方面),发送者必须调整广播传输方式,使其只帮助指定的玩家子集,同时将对意外玩家造成的损害降到最低。

为了更深入地了解如何在我们的三层框架中建模和分析具有对手的多代理系统,我们研究了具有对手的网络系统中的分布式推理和学习问题。我们分析了对抗性攻击对解的影响,并将解的鲁棒性和弹性描述为网络拓扑和对手分布的函数。我们研究的一类问题是,在某些约束条件下,对手有能力战略性地断开网络的连接(边),从而通过分布式进程破坏节点之间的共识形成。在另一个方向上,我们证明了“可信节点”(可信核)的小型子网络的存在大大提升了解决方案的鲁棒性和弹性。我们将这些改进描述为置信度、连接性和可信节点位置的函数。我们使用这些概念为几个实际的无线通信问题提供弹性解。一个重要的新兴概念是需要在这些系统中的硬件和软件组件之间共享安全功能,而不仅仅是软件。我们在一些重要的实际应用中证明了这一原理,包括通信网络中的可信路由。

信任在由社会认知、信息和通信网络构成的综合系统的分析、综合和运行中起着至关重要的作用。多代理系统和相关联的联合操作涉及两个或多个组织,它们进一步增强了网络交互的多样性和复杂性。信任及其衍生概念对网络联盟的运作有着巨大的影响。研究所面临的挑战的很大一部分在于用于表示和分析信任的多种含义、解释、符号和数学模型。在我们去年的研究中,我们引入了带加权节点的值有向图作为我们的组合信任模型。我们扩展了带加权节点的组合信任模型的值有向图,使之不仅包含数值权重,还包含(逻辑)约束。研究表明,基于半环的约束满足问题(SCSPs)框架可以作为研究信任关系建立及其对多代理系统性能影响的统一模型。今年,我们在分析这些挑战性问题方面取得进展的核心在于,对于新框架中出现的许多新型部分有序的半环来说,动态编程类型算法都是可行的。多重半环框架还允许通过博弈论方法,在出现对手(甚至是Byzantine)的情况下,对分布式决策和推理问题进行描述和求解。

今年开始的两个网络拓扑结构的研究工作包括:(i)结合“设计和防御”场景,该场景中由个体玩家决定是否将新节点添加到现有网络的第三层(或者提供新的服务或复制和鲁棒控制现有的节点),然后选择如何将有限预算分配给所有节点,这是众所周知的“Blotto博弈”的多层扩展;(ii)开发分布式算法以形成所需的网络拓扑,并进行度正则化。

在实验经济学中,我们继续在Xlab中生成和分析数据,以便使用具有多种主题库的现场实验来理解对风险和时间的态度。今年研究特别关注的是对时间距离的影响,特别是对在个人决策中时间一致性(或不一致性)的影响;更多细节见第4.1节。

在此期间,我们在开发多车游戏测试台(HoTGames)方面也继续取得重大进展,并在测试台硬件上使用我们新开发的软件套件(包括人在回路中)实现了在程序中开发的两种博弈理论算法。其中一个涉及到空间追踪博弈(港口攻击,在III.2中讨论),第二个是基于通信的博弈(在恶意干扰的情况下控制移动车辆,在去年的报告中讨论)。这两个游戏都有实时物理性能标准,这些标准经过优化,以提供满足预先指定的约束的系统行为。

我们在资助的第四年的研究工作将继续以上总结的路线,并在下一节中按照原提案中给出的时间表更详细地介绍。

四个重点领域的科学进步和成就

在本节中,我们将介绍MURI项目第三年的科学进展,它由原始提案中确定的四个重点领域组成。更多详情见第五节所列文件,特别是2013年和2014年出版日期的文件。

      1. 研究重点 1: 具有计算和认知局限性的代理

我们在这个方向的目标是了解大型决策场景中代理的认知和计算限制的影响。为此,我们考虑了一些模型,其中代理的决策空间被限制在具有有限内存和/或“头脑简单”的行为更新或学习规则的策略中,并试图获得在各种情况下学习算法的收敛结果。

正如我们在先前的报告中所讲述的那样,在一个这样的模式中,我们考虑了拥有大量相关臂的多臂赌博机问题。我们假设这些臂具有伯努利分布的奖励,独立于时间,有奖励的概率由每个臂的已知属性向量、未知偏好向量以及每个维度n参数化。对于这个模型,我们在项目的第一年中寻找了一种有完全遗憾的算法,该算法在时间上是次线性的,与臂数无关。在探索与开发之间权衡探索,我们得到了一种不依赖于臂的数量的三相算法(three-phase algorithm),该算法中总遗憾为O(n log(T))。我们在项目的第二年继续调查这个问题,并将结果推广到连续体臂赌博问题(continuum-arm bandit problem),即当决策的数量是无限的时候。在这种情况下,总遗憾由O(radic;(n3T))表示。我们研究了零和矩阵博弈的探索模型,特别是那些假设矩阵元素是有预期回报的模型。两个玩家的一对动作的实际奖励是一个随机变量,其期望值由矩阵中相应的进入(entry)给出。假设矩阵的元素是未知的,目标是为玩家设计探索策略以达到鞍点。我们在一些特殊的情况下的结果表明,在T瞬间之后O(radic;(T))遗憾是可能的,此时遗憾是根据游戏的价

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237909],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。