英语原文共 25 页,剩余内容已隐藏,支付完成后下载完整资料
一种基于函数型数据的交通流数据缺失值估计和离群值检测方法
Jeng-Min Chioua*, Yi-Chen Zhanga, Wan-Hui Chenb and Chiung-Wen Changc
a台湾台北中央研究院统计科学研究所;b台湾新台北市坦康大学交通管理系;c台湾台北交通运输部交通研究所
流量监控数据中经常会出现缺失值和异常值。我们通过用随机函数采集日交通流量轨迹,并利用函数数据分析的数据特征来解决这些问题。我们将把条件期望方法应用到函数型主成分分析( FPCA )上,以此进行缺失值插补。我们的仿真研究表明,FPCA方法的性能优于文献中常用的两种方法,即概率主成分分析(PCA)和贝叶斯主成分分析(PCA),这两种方法的性能优于许多传统方法。基于FPCA方法,函数性主成分得分可以应用于函数袋状图和函数最高密度区域盒图,这使得不完整功能数据的离群点检测成为可能。我们的数值结果表明,这两种离群点检测方法与所提出的缺失值插补方法相结合,可以取得相当好的效果。受到交通流量数据应用的启发,我们所提出的缺失值插补和异常值检测的函数型数据方法可以用于许多纵向记录函数型数据。
关键词:函数型数据;函数型主成分分析;智能交通系统;交通流量;车辆检测器
- 引言
交通监控数据为公路规划和交通监控提供了有价值的信息。例如,交通量信息对估算设计小时交通量和年平均日交通量很有用。此外,实时交通监控数据为智能交通系统( ITS )中的交通监控提供了重要信息。交通监控的应用需要完整可靠的数据。这些数据可以由安装在规划的道路下的各类车辆回路检测器定期自动记录。由于回路检测器的工作环境粗糙导致检测器故障或传输过程中的封装丢失,数据丢失问题是不可避免的。因此,临时的检测器故障导致数据丢失的非常常见。由于缺失数据的问题发生在检测器上,位于下游或上游的邻近检测器上的数据也经常缺失。处理缺失值的一种方法是从原始数据集中删除缺失值的样本记录,这一方法下,减少的数据集可能会导致有偏见的分析结果。另一种方法是基于记录的数据集重建缺失的数据;然而,不同的插补方法有各自的优缺点,根据数据的适用场景,插补的效果不同。每种方法都可能导致不同的输入结果,就像标准的数据收集或分析程序一样,为公路规划和交通监控设计交通数据存档或分析系统,缺失数据应该是一个重要的考虑因素,尤其是在ITS应用。此外,离群点检测是调查交通数据的另一个重要问题。这些包括检测时间上的幅度异常值(即幅度异常值)和识别异常轨迹模式(即形状异常值),这为交通管理的进一步应用提供了有用的信息。
Allison (2001年)和Schafer和Graham (2002年)对缺失数据问题进行了全面概述。在过去的几十年里,各种插补技术得到了发展(Rubin 1987年;Schafer 1999年;Collins, Schafer, Kam 2001年;King等人2001年;Graham, Cumsille, Elek - Fisk 2003nian )。有大量文献讨论了将缺失值输入多元数据( Beale, Little 1975年;Schafer 1997年)和纵向数据( Laird 1988年;Little 1995年;Little, Rubin 2002;Fitzmaurice, Laird, Ware 2004年)。针对交通流量数据专门的讨论方法已经引起了极大的关注,这些方法包括卡尔曼滤波法( Dailey 1993年)、时间序列建模法(Nihan 1997年)、历史(邻近)插补法(Chen, Shao 2000年)、车道分布法(Conklin, Smith 2002年)、样条回归插补法(Chen等人2003年)和基因设计的模型(Zhong, Sharma, Lingras 2004年)。Qu等人(2009年)提出了基于概率主成分分析( PPCA )和贝叶斯主成分分析( BPCA )的插补算法,并与文献中的传统方法进行了性能比较。虽然历史(或邻近)插补和样条(或局部回归)填补是缺失值插补的常用方法,但它们都有一些缺陷。如Qu等人(2009年)所讨论的,他们忽略了交通流量可能会每天大幅波动,并在同一天内包含随机变化的事实。基础历史插补使用历史数据中与之密切相关或相邻的全局信息,而样条插补使用交通日流量数据中的局部信息。由于基于PPCA的方法考虑了历史和日常信息的自适应融合,因此它优于历史插补方法。尽管已经发展了许多多变量分析方法来处理缺失值,但据我们所知,利用函数型数据特征的函数型数据方法尚未讨论及应用于关于输入纵向或函数型数据的缺失值。
至于离群点检测方法,像许多统计分析程序一样,获得一致分析的一个重要步骤是检测离群点。虽然多元数据的离群点检测已经发展了几十年,但是函数型数据的离群点检测只是在最近几年才被讨论过。识别出与同类群体中的其他观测值有显著差异或存在异常轨迹模式,可以提高观测值的质量,并能够用于进一步的研究。异常数据可能会导致模型错误、参数估计有偏差和结果不正确。文献中函数型数据的离群点检测方法包括使用稳健的主成分分析( Hyndman, Ullah 2007年)、连续似然比测试和平滑自举(Febrero、Galeano, Gonzalez – Manteiga 2007年)、奇异值分解图( Zhang等人2007年),函数型数据的彩虹图、袋状图和箱线图( Hyndman, Shang 2010年)和函数型箱线图( Sun, Genton 2011年)。
这项研究考虑了一种函数型数据分析( FDA )方法来填补缺失值,其中日常交通流轨迹被视为从随机函数中采样的函数型数据。FDA是在20年前引入的,FDA的各种统计方法已经被发展。FDA方法论基础的概述可以在amsay和Silverman ( 2005年);Ferraty和andVieu ( 2006年)以及综述( Rice 2004年;Muuml;ller 2005年)找到。FDA涵盖了广泛的应用,如基因表达数据分析(Muuml;ller, Chiou, Leng 2008年)、人口统计研究( Chiou, Muuml;ller 2009年)和交通流量预测( Chiou 2012年)。FDA最常用的研究方法之一是函数型主成分分析( FPCA ),它建立在随机过程的Karhunen – Love展开基础上。针对交通流数据的不完备性,我们提出将条件期望方法应用于FPCA。我们还提出了基于函数主成分( FPC )得分、修改后的函数袋状图和修改后的函数最高密度区域(HDR)箱型图的离群点检测方法,这三种方法都是旨在识别函数数据离群点的离群曲线的工具。
这篇文章的内容分布如下。第2节描述了交通流轨迹中缺失数据和外围曲线的典型模式。第3节介绍了FPCA的理论背景和输入缺失值的方法,接着介绍了改进的离群点检测方法。第4节介绍了用提出的方法应用到实际问题当中。第5节通过仿真研究对插补和离群点检测的好坏进行了比较。结论性意见和讨论见第6节。
- 交通流轨迹中缺失数据和异常值
数据质量是交通流数据分析中的一个重要问题。虽然这些数据通常由双环检测器自动记录,但由于短期的软件或硬件故障、维护操作和检测器的构造可能会导致记录数据损坏。这可能会导致数据记录中的不连续性或缺口以及异常值,并可能会在实际建模和识别潜在随机机制方面造成严重障碍。因而在进行统计分析之前,我们必须填补数据中缺失的空白,并去除识别出的异常值。
2.1 缺失值
丢失的数据本质上可能是随机的,是由不提供测量值的检测器或测量工具中的故障造成的。有三种典型的缺失模式(例如,参见Rubin 1976年;Little, Rubin 2002年用于多元数据;Nakai, Ke 2011年用于纵向数据),包括完全随机缺失( MCAR )、随机缺失( MAR )和非随机缺失( NMAR )。当MCAR和MAR都不作为丢失机制时,它被称为NMAR。NMAR可能是由于各种原因导致环路检测器故障造成的,并且很难找到适合这种丢失机制的模型。实际上,真实交通流数据的缺失模式可能会结合MCAR和MAR。由于我们无法根据数据将MAR和MCAR与NMAR区分开来,因此我们简单地将缺失模式分为点缺失(PM)和间隔缺失(IM),还将混合PM/IM用于交通流数据。这里,PM和IM分别对应于MCAR和MAR。
- PM:缺失点完全独立于观察值和未观察值。缺失的点被隔离、分组或随机分散。MCR和MR都可能是PM的特殊情况(图1(a ) )。
- IM:这种类型与MR密切相关,但有不同的焦点。在函数型数据中,缺失的间隔意味着一个未观察到的间隔,而不是小组中的一些未观察到的点。缺失的间隔经常随机出现(图1(b ) )。
- 混合PM/IM:这种缺失模式是PM或IM的组合(图1(c ) )。
图1. 交通流数据的典型缺失模式
(a) 点缺失(PM):圆圈代表缺失值 (b)间隔缺失:虚线表示缺失缺失间隔 (c)混合PM/IM
2.2 外围曲线
离群点检测是许多数据可应用的先决条件。离群点检测方法可以分为单变量和多变量检测,以及参数和非参数方法。尽管有许多针对多元数据的离群点检测方法,但很少是针对函数型数据设计的。检测异常曲线是一项具有挑战性的任务,因为在曲线样本中定义异常值或者曲线本身就存在异常就是一个棘手的问题。
图2 交通流量异常值的典型模式。
(a) 幅度异常值; (b) 形状异常值。
函数型数据中的异常值可以分为幅度和形状异常值(Hyndman, Shang 2010 )。幅度异常值远离平均值,形状异常值具有不同于其他曲线的模式(例如,参见图2(a)和2(b))。实际上,离群曲线可能表现出这些特征的组合。离群值可能会极大地影响统计结果,例如扭曲汇总统计数据、扭曲统计模型和偏向结果。
这里,我们的重点是识别与潜在随机结构有不同模式的离群曲线或轨迹。虽然问题数据可以通过第4.1节中描述的逻辑规则进行检查,但由于特殊交通事故导致交通量激增或极端交通状况,它们与异常值有所区别,故流速轨迹超出了典型交通变化的范围。由交通事故而引发的交通流量异常值可能需要不同的事故检测技术,这些技术应该能够检测交通流中的突然变化,因此,这超出了本文研究范围。
- 函数型主成分分析
由于数据的特征,大多数函数型数据研究方法是非参数化的,这些数据特征对数据施加了最小的假设,克服了参数建模的局限性。我们利用FPCA方法对函数型数据进行缺失值估计和异常值检测。
3.1 FPC模型
可以认为每天的交通流轨迹都是由随机函数实现的。设表示每日交通流轨迹的随机函数。我们假设具有未知的平滑均值函数和协方差函数,勒贝格可积。于是在中有一个正交展开式,,其中是非升序特征值集,是对应的特征函数集,这些特征函数形成了中具有单位范数的正交基集合。随机交通流轨迹具有以下Karhunen - Love表示,
其中是一个随机系数,在第个特征函数的方向上投影为,平均值为零,方差为。
实际上,随机函数经常被测量误差影响。第个观察数据,,在处观察到所有在T和时,可以表示为
其中随机测量误差被假定为彼此不相关并且独立于,其中且。为了得到(1)中相应的函数估计,我们必须估计模型分量函数和。我们将局部加权最小二乘平滑方法应用于所有轨迹的集合数据,用于估计均值函数,其中平滑参数可以通过各种方法选择,例如交叉验证(Rice, Silverman 1991 )和广义交叉验证(Fan, Gijbels 1996 )。为了获得的估计,我们平滑了经验协方差。然后,通过将特征值分解过程应用于协方差函数估计,我们获得了特征值的估计通过将特征分解过程应用于协方差函数估计来估计特征值和。
这个随机系数的估计不容易通过对。首先,当有许多缺失的数据或者只有几个重复的观察值可用时,这种积分近似方法会遇到困难。第二,不能被直接观察,只能通过被测量误差影响的观察,用代替估计出来的可能会导致FPC得分的偏差。为了克服这些困难,我们采用了Yao, Muuml;ller, and Wang (2005)。让,,是第个特征函数的向量,并且是的协方差矩阵。假设FPC得分和误差项联合高斯(都服从高斯分布),那么条件FPC得分是
等式(3)中的估计条件FPC得分随后通过替换相应的估计来获得,
其中是的估计值,是的估计值,是的估计值。这里和,是,和的估计值是Kronecker符号。
3.2 FPC模型的缺失值估算
考虑到等式(4),这种FPC得分的估计适用于含缺失值的情况,因此,这启发我们得出一种缺失值插补方法。我们使用方差解释分数( FVE ),在等式(1)中将无限级数截断L,使得第一个L分量解释了总方差的至少,即
其中是且是预定阈值的最大数量的分量,。在我们的模拟研究中,设定等于0.9或更高。基于估计的模型分量,和(对于所有的),第个数据对象的预测函数由下式给出
由于模型(6)适用于域中的所有,模型拟合可用于缺失值估计。也就是说,如果一些的位置上缺少观测值,则可以通过预测值估算缺少的条目。注意到预测轨迹包括平滑均值函数的分量和特征函数的线性组合,它们从噪声测量中恢复出各个轨迹。插补误差取决于模型中组件的数量,而组件的数量由FVE确定。这里,等
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[19459],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 质量管理体系:确保全面质量管理的一个急需的工具外文翻译资料
- 识别MOBA游戏中具有预测性的胜利团战模式外文翻译资料
- 曲线拟合和最小二乘法来推断埃塞俄比亚COVID-19病例状态外文翻译资料
- 欧洲区域政策与欧洲区域社会经济多样性:多元分析外文翻译资料
- 公共企业资源规划公司估值的关键指标和关键驱动因素外文翻译资料
- 结构方程建模中模型评估的统一方法外文翻译资料
- Fisher线性判别函数的“朴素贝叶斯”,以及变量多于观测 值情况下的一些替代方法外文翻译资料
- 变量对于分类的贡献外文翻译资料
- 多时间尺度自相关和交互相关多元分位数投影变换偏差订正降尺度模型外文翻译资料
- 与可交换性结合时随机缺失和相关定义的注释外文翻译资料