英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
AIS数据中运动模式的统计分析:
运动异常检测和预测
摘要:本文利用AIS收集的船舶数据对港口和航道中船舶的运动模式进行了统计分析。依据真实的历史AIS数据提取出船舶的运动模式,构造出相应的运动异常检测器。然后在自适应核密度估计的框架下,将真实的AIS数据导入异常检测器,进行运动模式的异常检测。在零假设(无异常)下,我们基于历史运动模式数据,利用高斯和跟踪滤波器可以对船舶的运动进行预测。
关键词:海上监控,自动识别系统,运动模式,新式检测,运动预测,核密度估计。
一、引言
对澳大利亚等岛屿国家而言,对港口和海岸线的海上监控是至关重要的。在历史上,岛屿国家存在的风险包括未经批准的海上抵达、禁止的进/出口、海洋污染、海盗行为和最近发生的海上恐怖主义。考虑到澳大利亚的进出口有超过99%都是通过海上运输的,港口或航道中潜在的恐怖主义袭击可能造成严重的破坏,造成重大的经济损失。
用于港口和航道的海上监控的典型传感器包括雷达、红外和摄像机,安装在固定地面位置或安装在边境巡逻船、飞机和卫星上。然而,最近引入的一些自我报告的海事系统,主要是为了保证船舶的航行安全和船舶避碰。因此,这些自我报告系统传送的信息已成为海上监控的一个丰富而廉价的信息来源。然而,由于其自身的性质,这种数据的来源也是不可靠和不完整的:一方面,自我报告广播很容易造假,另一方面,在非法操作期间,自我报告很可能会被关闭(虽然长期以来失去自我报告数据,随后又重新出现,很容易发现和提出警报)。尽管自我报告存在缺陷,但其有望成为对现有海上监控传感器的有益补充。数据融合研究的任务是利用这些大量广播信息提高海洋领域的态势感知的最佳方法。
最重要的自我报告海事系统是自动识别系统(AIS)。最近,《国际海上人命安全公约》(SOLAS)对大多数商业船舶(货轮、客轮、油轮、拖轮等)都规定了自动识别系统。自动广播AIS信息的报告频率与船只的速度成正比。有各种类型的AIS信息含有多种类型的信息,大致归类为船舶静态信息(名称、类型、大小等)和船舶动态信息(在大地坐标、航速、航向、船首向、目的地、预计到达时间等)。但并非强制性列出所有的信息。
今年以来,人们对海上监控越来越感兴趣。在文献[1]中介绍了基于AIS、海岸雷达、SAR图像的NURC海上监控研究活动的调查。在Rhodes的一系列的论文[2][3]中,Bomberger等人描述了一种利用AIS数据训练的人工神经网络学习船舶的正常行为,检测异常并预测船舶运动。在文献[4]中,Tun等人开发了一种基于密度映射的算法,该算法将AIS接收器采集的船舶运动轨迹分解为单独的区域,船舶的轨迹被用作HMM的输入来学习其运动模式。然而,运动行为分析的主题并不是海上监控所独有的——它最初是在计算机视觉中对交通监测[5][6]、人类活动监测[7]和异常事件检测[8]进行了研究。
本文旨在对AIS数据进行统计分析,以检测船舶运动中的异常行为,并在正常行为假设下预测船舶的运动。所提出的运动异常检测和运动预测算法假设在数据处理的数据挖掘阶段已经从历史(训练)数据中提取了相关的运动模式,在自适应核密度估计(KDE)框架下进行异常检测,并依次应用于新传入的AIS数据。 其异常检测阈值与误报率有关。本文在零假设(正常运动行为)下,利用历史运动模式AIS数据,提出了一种简单的在指定时间窗口内进行船舶运动(位置、速度)预测的算法。
本文内容如下:第二节描述运动模式的统计分析问题。第三节提出了基于自适应核密度估计的异常检测算法。
二、问题描述
历史(训练)的AIS数据集的规模和复杂性都在一直在不断增加。通常,分析大型数据集的第一步是执行数据挖掘,以提取运动模式。为了说明这一步骤的重要性,图1.a显示了在三个月内进出Adelaide (Gulf St. Vincent)港的所有船只的轨迹集合。图中的数据相当混乱,在我们可以应用任何算法(将在本文中提出)之前,我们将假设AIS数据已经进行了处理并提取了运动模式。图1.b显示了一个简单模式的例子,它代表了从Adelaide港码头开始的所有路径(北纬138°30rsquo;23”,东经-34°49rsquo;48”),最初向北移动,然后向西南转向(目的地Edithburgh,SA)。
接下来,我们尝试定义一个运动模式。这是不明显的,而且如果使用多个连接路径处理始发地/目的地网络,可能是相当复杂的。示例如图2,该图以图形方式显示了港内的船只路网,其中节点1可能是海港的入口或出口点,而节点2、3和4则是海港内的停靠站。为了简化问题,我们将通过运动学和属性信息来定义运动模式,其中只有一个强制属性——船舶的起点。如果有其他可用的属性,那可以是船只类型、一年中的季节等。运动学信息将包括船舶位置(二维)和速度(二维)。运动模式的起点由位置-速度矢量及其相关的不确定性的椭球来定义。在第四节我们将论证一种模式也是非常有用的,因为该船舶中是该模式的起点,所有以时间间隔的形式包含经过的时间信息是非常有用的。通过对运动模式采用所描述的框架,我们将不需要担心路径网络的拓扑结构(见图2)。
再思考一下图2,对于这样一个船只路径网络,可以定义一组运动模式起点,在本例中={1,2,3,4}。将属于原点的运动模式的轨迹表示为:
(1)
其中,1,2,...,是轨迹的指数(是来自训练轨迹总数);是船舶器中的轨迹在时间的运动状态;运动状态由位置信息和速度信息,即是一个四维向量。我们将假设运动态在和上是独立的(注意,如果是跟踪滤波器的输出,那么它们在时间上是相关的。因此,我们将使用原始AIS数据)。
图1.b中显示的运动模式将被称为simple,因为来自纬度138°30rsquo;23rsquo;rsquo;、经度-34°49rsquo;48”停靠站的所有船只都具有同样的目的地。
本文利用运动模式中有可用轨迹(作为正常或通常行为的训练数据集)进行处理:
在运动异常检测的问题中,我们需要依次(在线)确定测试轨迹的状态向量是否符合正常行为(正常状态是零假设);
在运动预测的问题中,在确定试验船在时间,的状态符合正常状态时,我们需要预测该船在时间的状态,假设它将继续遵循正常的运动模式。
三、检测运动异常
为了检测船舶运动中的异常,我们将使用模式的训练数据来确定一个检测阈值,将状态空间划分为两个区域:一个区域对应于假设(正常行为),另一个区域对应于 (异常行为)。该阈值将及时地应用于传入的测试数据。在分类文献中,类似的问题被称为一级分类或新颖性检测[9,Ch. 8]、[10],并利用支持向量机(SVM)求解。 在下面,我们将使用自适应核密度估计器(也称为Parzen窗口法)。
为了简化表示法,我们将在(1)中引入索引k来枚举对。 然后运动模式所对应的未标记训练数据集如下:
(2)
其中是在正常假设下,底层多变量模式pdf的iid随机样本。对于运动异常检测,我们首先需要近似,这些将使用自适应KDE近似运算[11]。
- 核密度估计
通过在每个观测数据上放置一个核函数,利用KDE近似构造密度。核函数被其宽度h参数化,它可以是固定的(对所有观测数据都是相同的),也可以是自适应的。为了简单起见,我们将在提醒部分中从符号中删除索引j。 假设,(在我们的例子d=4)给出了固定的KDE近似:
(3)
内核必须满足和。用零均值和协方差矩阵高斯核:
(4)
我们得出:
(5)
高斯核的最优固定带宽(在下垫pdf为高斯的假设下)计算为[11]:
(6)
(7)
方差需要从数据中估计为样本协方差。
固定的KDE无法令人满意地处理分布的尾部:由于尾部观察到的数据是罕见的,尾部的窗口宽度需要更宽。一个明显的问题是决定一个观测是否处于低密度区域。自适应KDE方法[11,p.101]通过两阶段的过程来处理这一问题,其中第一阶段通常是固定的KDE。 第二阶段最初计算自适应窗口宽度,,在(6)和
(8)
l序列的几何平均值,即
(9)
gamma;是灵敏度参数,0le;gamma;le;1,通常设置为0.5。
最后,自适应KDE近似与公式(3)相似,不同之处在于,对于每个数据Xk,我们应用宽度hk的核:
(10)
- 异常检测
在状态空间中计算决策边界是非常昂贵的,因此我们建议使用密度的值来执行检测。设Y是来自与训练数据相同节点的测试轨迹的测试基准(节点j,下标正压)。 然后异常(即假设)是显然的如果
, (11)
(12)
是与错误检测的概率有关的检测器参数。请注意,如果我们需要所有训练数据落入异常检测边界内,然后。
我们选择所以
(13)
其中是指定的误报概率(错误检测异常)。 等式 (13)可以写成:
(14)
XA(z)索引函数定义为
(15)
对于给定,我们可以数值计算。 首先,我们生成一个随机iid样本。将近似值代入(14)得到:
(16)
我们希望这将取决于训练数据点K的数量。
- 数值结果
首先,我们使用模拟数据对异常检测器进行了测试。为此,我们生成100条来自节点j=1的船只轨迹(在空间)中,如图3所示。运动模式是复杂的,因为有多个(三个)目的地(在本例中它们的可能性相同)。训练数据点总数是K=3726。核协方差矩阵被设置为,=1400m和=2.3m/s。得到的异常检测边界显示在(棕色线)的图3.a中的平面中。 然而,对于异常检测,根据(11),我们不需要计算状态空间中的边界(这是一个计算非常密集的操作),我们只计算r的值,其中由(12)定义。 图3.a中的决策边界只是为了解释说明。
异常检测的测试轨迹以绿色和红色点图3.a显示。遵循这一轨迹的船只进入节点1的监视区域,并最初按照运动模式向东移动(向节点3或4)约1小时20分钟。 异常检测器正确地将运动分类为在这段时间内(见图3.b);测试轨迹的段与图3.a中的绿色点表示。第一次宣布异常时,船舶位置实际上在位置信息的决策边界内,但其航向(速度矢量)与训练数据不相容(现阶段船舶正向西北方向)。 从那时起,这艘船正在转向,加入从节点2到1的路径,并继续向西行驶。异常检测器总是在这一段中决定H1,无论是由于速度还是位置与训练数据不兼容。 当H1被声明时,测试轨迹是用图3.a中的红点表示的。这个例子说明了速度在运动模式定义中的重要性。 我们再次强调,没有必要将时间信息保持在运动模式中。
接下来,我们计算(在被描述的模拟数据.framework的上下文中)假警报的概率作为阈值参数的函数和训练点的数量K。图4给出了K=4440(红线)和K=9560(蓝线)训练点的结果。从(16)中随机样本Ym的大小设置为M=80000。协方差是上面指定的。我们观察到,对于较大的训练集(较大的训练集),我们对其进行了更好的近似,因此可以使用更高的阈值Q来解释其固定值。对于较大的K值很可能较小;为了获得固定值 (对应于g(y)下的面积)。g(y)lt;alpha;g(xr),当g(xr)较小时,alpha;需要更大。
本节的最后两个数值例子涉及真实的AIS数据。 第一组数据是在特(阿德莱德港)收集的。图5显示了参数设置为0.6的异常检测器的结果,应用于先前在图l.b中显示的运动模式数据。和以前一样,在图5中,我们只显示二维位置数据(决策边界、训练数据和测试轨迹),尽管实际状态空间是四维的。图5.a演示了一个船舶的轨迹,它来自与训练数据相同的运动模式群。船舶在图5.b中的运动在几个场合引起异常警报,即使在其轨道从码头到港口狭窄水道出口的部分。 这些偶然的异常检测是由于不相容的测试速度矢量(即这艘船移动得太快了)。 一旦进入公海,这艘船的运动就不断地被称为H1。
图6显示了进入Jackson港(悉尼港)的船只的二维运动模式,上面描述了异常探测器的相应轮廓。 这些数据是在2006年10天内收集的,模式包括9412个点。显然,利用海岸线数据可以改进船舶位置的异常决策边界。
四、工作安排
A. 使用训练数据Xj
假设我们只有模式Pj中的未标记训练数据Xj,
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[241436],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 船舶在浅水航道中航行时的岸壁效应数值研究外文翻译资料
- 基于三维面元法限制水域船体下蹲的数值研究外文翻译资料
- 关于甲板大开口船体梁极限抗扭强度的实验研究外文翻译资料
- 基于斯托克斯方程计算和系统识别 方法预估实船操纵模型参数外文翻译资料
- 水面舰艇5415在PMM演习中的基准CFD验 证数据-第二部分:平均相位的立体PIV流 场测量外文翻译资料
- 初步设计阶段船舶功率推进预测第二部分初步设计中有用的服务速度船舶功率推进数学模型外文翻译资料
- 对某高速船模湍流自由表面的数值与试验研究外文翻译资料
- 第三章水下搜救与恢复操作外文翻译资料
- 液化天然气供求关系的现状与展望:一个全球性展望外文翻译资料
- 基于CFD的高层钢结构建筑风效应数值评估外文翻译资料