基于关联规则的城市道路交通事故管理数据挖掘中的应用外文翻译资料

 2023-01-16 11:10:20

基于关联规则的城市道路交通事故管理数据挖掘中的应用

摘要

由于交通事故分析与动态的,复杂的,冗余的,实时的数据有关,目的是挖掘其隐藏价值,然而传统的统计模型不能满足要求,并且急需要一种新的方法。基于关联规则数据挖掘方法已被证明是一种强大的工具,特别是用于处理该预测和分类的课题.这个研究探讨并且改善了关联规则挖掘算法,并在给定的中国城市选择交通事故数据。应用这种数据挖掘算法与选定的数据,通过几种有效的模式成功地挖掘和评估超出了交通管理部门的经验和期望,并能在交通事故治理实践作出很多贡献。模拟结果表明,与传统的统计方法相比,关联规则挖掘是很好的替代方法在分析城市交通事故中。

关键词:数据挖掘,交通事故,关联规则

1.简介

交通事故是城市已知前10位的死亡和受伤的原因之一,在许多国家,交通事故占了60%。与此同时,交通交通事故往往导致巨大的社会成本,包括过度的道路行人和公共财产损失。因此,每年的交通主管部门花费相当大的努力去减少其发生和交通事故处理。然而,每年的交通事故增加一年比一年快。所以更好地了解事故的影响帮助我们设计出更好的事故管理策略。

目前,在处理交通事故的交通安全分析过程中,最流行的技术是从交通事故数据库中的海量数据搜索和询问并且进一步施加回归分析,以识别之间的关系和其目标事故特点和危险因素。然而,分析深度和效力不能达到实际需求,由于隐藏的模式和交通事故的规则不能通过传统的回归分析得到。此外,大多数回归模型有他们的模型假设和预先定义变量和自变量之间自由基关系。如果这些假设不满意,该模型会导致事故的原因不好估计。最近,一些学者就此模拟,评估事故检测算法和事故管理策略。然而,在这些新的形式下,交通事故处理数据的成功主要依赖于发现的隐藏的价值,不可能使用除了数据挖掘其他的工具去调查,比如模拟。

显然,它似乎仍有范围,通过研究他们的影响和原因去更好的调查交通事故。作为一个强大的工具,数据挖掘擅长从寻找模型和挖掘隐藏规则,已在许多领域得到应用,并取得了良好经济效果。但是,只有少数学者研究和应用了有效性数据挖掘交通事故治理。迄今为止,很少有人知道运用数据挖掘用在交通相关的研究。

2.文献综述

随着计算机技术的发展,我们收集存储的数据以惊人的速度增加,如何找到数据背后隐藏的信息,并进一步引导行为是我们面临的一个重要问题。涉及到交通事故数据,尤其如此。在交通事故分析数据挖掘的应用的一个新的研究趋势,正受到越来越多注意,在交通事故管理中的应用数据挖掘,甚至正在成为一种趋势。在城市交通问题,运用数据挖掘技术的目标是在民用交通管理数据库中通过创建一个决策树或诱导某些规则发现任何合适的信息,一些信息被存储在数据库中的一个明显的位置,因此可以通过以下步骤获得传统的数据库查询操作,诸如交通事故风格,道路状况。其它城市交通管理有用的知识是隐藏在数据库的更偏远地方,因此只能是通过智能化技术获得,如数据挖掘。一个矿山动态的主要困难在于连续通信的数据流是应付变化的数据的概念。它是一个事实,即现实世界业务数据流可能在年,月,甚至几秒钟发生改变,因而在分类或聚类任务,这一变化,也被称为概念漂移。

利奥尔等人(2008)描述了凭经验所示的一系列增量算法产生的分类模型比一个概念的存在下批次的算法更精确。基于工作上,他们提出了所谓的“信息模糊网络”先进的决策树学习方法(IFN),并且在耶路撒冷、以色列TAHON和乌拉圭街道三路交界处还通过在信号从下道路传感器施加交通流量数据测试干扰素。结果表明,在交通问题上干扰素真的能诱导清晰和精确的分类模型。

年平均日交通量(AADT)的估计数据是另一个重要的流挖掘中的应用。流量监控和AADT估计在程序流量监测指南(TMG)可以分为四个步骤,分别为(1)自动分组行车记录仪网站标识; (2)确定准确的流量的平均值调节因子卷; (3)从一个组中选择分配的路段;和(4)通过运用正确的调整因素产生用于所述AADT估计考虑路段。在AADT第一步主要来源之一是误差,许多不同的方法来估计源已应用于证明这一点的问题,主要包括遗传算法,回归分析和人工神经网络。对于其他三个步骤,许多方法,如凝聚层次分组,薛费的多组间比较的S-方法,以及其他类型的聚类方法使用过。然而,在许多情况下,结果是远远不能被满足的。

为了解决上述问题,格雷戈里奥等(2011)提出针对道路分组的各种数据挖掘方法的比较分析,其目的是针对AADT的预测。调查是通过将数据从在威尼斯五十四个自动执行交通记录点,在分组处理为乘客和卡车车辆使用分离的调整系数。结果表明在AADT估计的错误暗示基于模型的聚类方法相对于其他测试方法提供略微更好的结果,其中确定了显著自动行车记录仪分类。

由于路面管理系统(PMS)是一个有价值的工具也是交通基础设施的关键要素之一,在目前的文献里应用数据挖掘PMS已经上升为在另一个研究热点。金(2000年)重点建设数据准备过程是通过知识发现知识的产生以及建筑知识的产生和传播。费雷拉等人 (2002)探讨了概率段联申请路面管理优化模型,在此基础上解决更多文献调查决策的路面养护和修复的问题。一些文献进一步提出了研究工作,进行探讨与GIS结合数据挖掘的效果技术路面管理,以更好地设计维护策略,设置康复优先级,并做出投资决策。

根据上述审查,数据挖掘技术已经在各种交通应用问题比较普遍,这已经证明了在这个领域其良好的适用性。然而,只有很少一些研究都集中在市区交通事故管理问题。至今,传统的统计方法是在城市交通事故调查中的采用最为广泛。由于在于数据集统计可能被描述为小而简洁的,通过单一数据集,这是静态的,往往透彻的分析,允许肯定的答案这是静态的,经常收集回答被寻址的特定问题,这是完全数字的。有趣的是,从像环探测器源收集的交通事故数据,比如有关人员、交通警察的交通管理的目的不能达到标准。因此,在处理事故的数据,传统的统计技术不能满足特殊要求,同时它似乎更有资格通过使用数据挖掘技术来搜索任何隐藏的知识分析。

审查了数据挖掘的相关工作,并认识到两者的适用性和数据挖掘技术在交通事故分析良好的应用短缺,在交通事故分析中为了改善交通安全管理,本文将选择并描述了专门的数据挖掘技术,可以在该研究中使用,并进一步提出了算法过程的细节。

3.方法:通过分割算法的关联规则

面对挖掘数据,首先,应该考虑到应选择哪些数据挖掘技术。大家都知道,分析交通事故数据的目的是寻找交通事故的真正原因,包括交通环境因素,天气条件和人等相关因素,并进一步找到原因之间的内在规律。根据该规则,控制对策的进行,这将移除条件和流量问题的原因。有趣的是,关联规则,作为一个重要的数据挖掘技术,旨在找到这通常表示为规则的海量数据中的关联。与统计数据相比较方法,所述关联规则是更合适用于分析交通事故,因为不仅它可以简化事故记录的数据,但可以诱发一些有用的规则表达式,从而可以显示的关键因素对交通事故的产生的影响程度。因此,该关联规则完全满足数据挖掘技术在交通事故分析的要求。

目前大多数文献都专注于开发关联规则的高效算法。其中,分区算法在许多寻找关联规则的优势明显,特别是在发生交通事故的问题。在分析交通问题上,提出分区算法是最合适的数据挖掘技术,它应该是有价值的研究方向,但这样的研究并没有得到广泛执行。主要特点分割算法是它把数据集的每个对象仅放在一个组中。幸运的是,一个经典K-方式类分区算法被创建,在类(或图形)的顶点的数目中所述复杂度是线性的。由于更精细的图具有更多的自由度,如精炼提高分区的质量。第k方式分区算法比多级递归平分更快且高达5倍。 K-方式分割算法的运行时间媲美的几何递归算法二分法的运行时间,同时产生了一般较好的20%分区。一般来说,这种划分过程可以分解成三个阶段,分别为粗化阶段,阶段划分和未粗化阶段。

粗化阶段:在粗化阶段,规模较小的类C I=(V I,E I)的序列,是V I| |gt;| V I 1|从原来的C级0 =(V0,E0)构造的。在这个过程中不超过两个顶点被折叠在一起,因为一个图的匹配是一组边。当顶点V,uisin;V是折叠以形成顶点瓦特isin;V i 1的和顶点W的重量被设定为等于权重的总和,顶点vi和u和边缘入射w被设定为等于边缘入射的上的v和u的联合减去边(V,U)。对于每一对边(X,V)和(x,u)的,一个单一的边(X,W)被创建,其重量被设定为等于这两个边缘的权重的总和。

分区阶段:一个多层次的K-路分区算法的第二阶段是计算一个K-的粗级C M路分区=(V M,E M),这样每个分区包含大约| V0|/ K顶点重量原图的。由于粗期间的的顶点权重和边

较粗图表被设定,以反映更精细图形的顶点和边的权重,C M包含足够的信息来智能地执行平衡的分区和最小边割要求。在这个分区算法,C M分区K-方式是通过将计算出多级递归算法二分法。许多实验已表明,它可以产生良好的初始分区中的时间相对较小量。

联合粗化阶段:在未粗化阶段的粗C级米分区是通过类C M-1将投射返回原来的类,C M-2,...,C 1〜。由于每个顶点uisin;Vi 1的包含I,从C I 1至C i上分区的突起被以U用C简单地分配顶点同一分区该顶点u属于构成Ⅴ的顶点的一个不同子集ugrave; 至C I 1。尽管C I 1的分区确实是在局部极小,C的投影划分可能不会。由于g i是更细,它有更大的自由度,可以用于改进分区,从而降低边割。因此,它仍然是可能的,以改善由良好的局部投影划分

细化启发。分区细化算法的基本目的是选择这样的顶点所得到的分区具有较小边缘切割,因此每个分区具有相同的权重。

经调查划分算法的理论背景,下一步是设计其基于计算机的程序中,以便使算法操作巨大的,动态的可操作性和不简洁的交通事故数据。由于纸张长度的限制,实现的过程省略划分算法,因为它是相当长的。详细的设置将可深受读者的要求。

4.应用:过程,结果和讨论

这部分将展示如何运用分割算法加以改进和设计在挖掘和分析交通事故的原因和规律上面,其结果可提供证据用于重建道路安全。同时,诱导规则可以预测交通事故中潜在的“热点”,同时提供道路安全设计和交通事故治理的支持。根据交通事故治理的要求,和数据挖掘的基本步骤相结合,交通事故的数据挖掘过程可设计成四个基本步骤,分别数据集成,数据预操作模式挖掘和图案的评价。

4.1数据集成

由智能交通管理系统或由收集的交通事故数据事故相关的分析过程始终包含大量的事故信息,这分别属于城市交通事故(PUTA)的许多特性。自会有太多挑剔的信息包括在每个PUTA,直接挖掘原始数据为有效的模式,没有数据集成搜索将花费太多的空间和时间,更重要的是,它可以减少找到有用的规则的可能性。因此,最好是选择由有关的信息用户从原始数据,并且进一步它在第一步骤集成到较少的关系的表。

这里PUTA主要包括司机的财产(PD),车辆(PV)的属性时,道路(PR)的财产,天气的财产(PW),时间(PT)的财产,财产事故本身(PA)。该属性的每个可以分解为许多子属性(表1)中,例如,PD由许多子属性,如性别,年龄,驾驶-年龄,教育背景,驾校,安全记录,职业等; PA包含的信息,如事故的严重程度,事故类型,事故现场,行驶方向,死亡人数,经济损失等。交通事故的每个属性,将存在与表1相似的至少六个属性表。由于纸张长度的限制,其他的属性表被省略。

从数据仓库理论的角度来看,适用于挖掘过程中的数据必须是面向主题的,而交通事故分析的目的是相当清楚的,它可以是描述为:要寻找可诱导交通事故的因素和规则,通过分析和区分质量事故性质,道路交通环境因素和人文之间的关系环境因素以提高交通事故治理效率和道路设计,。因此,从简易性和有效性的观点来看,它是由所需要的数据挖掘操作来选择由用户关注的关键特性形成PUTA再整合他们到简单的关系表。对于每一个不同的分析方法,它是在不同属性中选择。在本文中,我们将如下选择属性。

至于司机的财产,教育背景和驾校的选择,因为对我们来说它是有趣的,(1)是否与更好的教育背景和有更好的表现,(2)是否在所有的驾驶学校存在教学质量显著差异。至于车辆性能,对我们来说考虑选择车辆里程和车辆品牌都是有意义的,(1)不论车辆行驶里程影响交通事故的可能性,(2)是否存在与所有车辆中在安全性能显著差异种品牌。至于道路的性质,我们选择的道路的风格和光照条件,只是因为很多人关注的是这些,(1)不论是不是不同道路条件设计的表面,梯度曲线的程度可以诱导不同可能性交通事故,和(2)是否在驱动更好的照明条件下的性能比弱光条件下驾驶好。至于天气,温度和天气的属性被选中考虑是很有趣的,(1)是否不舒服的温度可降低交通事故的发生率,(2)不同的天气是否会导致不同的交通事故率;至于时间的财产,在一年内进行选择时间在一天的节日,因为它是一个很好的问题,(1)不论是否有在不同的时间在交通事故率差在一天,(2)是否会有不同的节日不同的交通事故率。作为流量的属性事故本身,事故严重程度和事故类型选择,因为它是我们感兴趣的,(1)哪些因素会导致更严格的事故,和(2)因素如何与每个事故类型相匹配。

4.2数据前置作业

如果我们调查每个交通事故属性数据的特性,可以发现,该数据类型是不同的,其中包括两个数字数据和非数字数据。为了提高动机和进一步有关规定数据识别效率,它是需要变换根据算法要求的综合数据。本文试图离散数字数据编纂非数值数据如下。

教育背景(EB):EB的数据根据不同水平的设置,即小学及以下:E1;初中,E2;高中时,E3;本科,E4;毕业,E5;博士以上,E6。驾驶学校(DS):DS的数据根据各驾校名称设置。例如,田平驾校被设置为S1,Ji-Li驾校简称S2和等等。“si”是指在数据库中的第i个驾校,多少驾驶学校被编码涉及在数据库中的学校的数量。

车辆行驶里程(VM):数字数据分别离散成六大类,M1(里程lt;1000公里),M2(里程lt;10000公里),M3(里程lt;20000公里),M4(里程lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[151955],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。