不平衡交通事故数据集的贝叶斯分类器外文翻译资料

 2022-07-26 15:45:41

英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


不平衡交通事故数据集的贝叶斯分类器

摘要:

交通事故数据集通常是不平衡的,其中分类为死亡或严重受伤阶级(少数)的实例数量远低于轻微受伤阶级(多数)的情况。然而,这是为分类算法提出了一个具有挑战性的问题,并且可能导致获得一个很好地覆盖轻微伤害实例的模型,而死亡或严重的伤害实例经常被错误分类。根据三年来(2009-2011年)约旦城市和郊区道路交通事故数据,使用了三种不同的数据平衡技术:采样不足以消除大多数类的一些实例,过采样创建了少数民族类的新实例,并结合了两者的混合技术。此外,对不同的不平衡和平衡数据集比较了不同的贝叶斯分类器:平均一维估计器,权重平均一维估计器和贝叶斯网络,以便识别影响事故严重性的因素。结果表明,使用平衡数据集,特别是使用过采样技术创建的数据集,贝叶斯网络根据其严重性改进了交通事故分类,并减少了死亡和严重伤害事件的错误分类。另一方面,发现以下变量有助于交通事故中死亡因果关系或严重伤害事故发生:涉及的车辆数量,事故模式,方向数,事故类型,照明,表面状况和速度限制。从作者的认知来说,这是第一个旨在通过分析历史数据来记录发生在约旦的交通事故和第一个应用平衡技术来分析交通事故受伤的严重程度的一项研究工作。

关键词:

贝叶斯网络;交通事故;市区;不平衡数据集;SMOTE

1.介绍

降低事故的严重程度是改善道路安全的有效途径(邱等,2014)。近期道路交通安全研究侧重于分析影响交通事故死亡率和伤害程度(严重程度)的危险因素。然而,许多风险因素正在等待被发现或分析(Kwon等,2015)。

交通事故被认为是世界各地社会,消耗许多人力和货币资源的最重要和最危险的问题之一。世界卫生组织(WHO)的统计数据显示,全球每年交通事故死亡人数估计为120万人,造成二千五百万人受伤。交通事故的成本估计为518亿美元,占全球国内生产总值的(1-3%)(世卫组织,2013年)。

约旦被认为是一个发展中国家,人口迅速增长和车辆增长,据统计局发布的2013年人口统计数字显示,约旦有653万居民,拥有1,263,754辆登记车辆(1辆/ 5人)(DOS,2013)。据警方交通部报导,2013年约旦发生交通事故107864起,死亡768人,重伤2258人,轻伤13696人。这些事故中94.74%的比例为碰撞,其中死亡人数为43%,重伤人员为50%(PTD,2013年)。此外,安曼首都发生交通事故69%,碰撞事故71%,被认为是约旦人口约39%的城市地区(2528人,500居民)。此外,约旦的交通事故成本估计为3.65亿美元( PTD,2013年),采用单位成本法估算交通事故在社会经济学角度的成本。值得注意的是,2013年约旦的国内生产总值估计为3341.4亿美元,其中交通事故的成本为1.2%(DOS,2013)。

城乡事故特征不同(Khorashadi,2005;Theofilatos,2012)。Khorashadi等(2005)确定了由于驾驶员,车辆,环境,道路几何和交通特征的不同,城乡事故的重大差异。此外,他们估计,与其他类型的伤害相比,城市地区的严重/致命伤害发生率几乎高出八倍,而农村地区发生的可能性也比其他类型的伤害(即没有受伤,疼痛或可见的伤害)高,Theofilatos等(2012)调查了道路交通事故严重程度,特别侧重于城乡内外比较。他们发现影响城市道路交通事故严重程度的因素包括驾驶员年龄,骑自行车,交叉路口和与固定物体的碰撞,而影响城市以外严重程度的因素是天气条件,正面和侧面碰撞。这表明了特定的道路使用者和交通情况,应针对两种不同类型网络(城市内外)的道路实施安全干预措施。

许多建模技术已被用于分析交通事故的伤害严重程度。最常用的模型是logit和probit(Al-Ghamdi,2002;Milton,2008;Savolainen,2011;Mujalli and DeOntilde;a,2012)。然而,他们大多数都有自己的模型假设和依赖与自变量之间的预定义的基础关系(Chang和Wang,2006)。最近很多研究人员使用了基于数据挖掘技术的方法,例如关联规则(Pande and Abdel-Aty,2009;Montella,2012)或决策树(洛佩兹等人,2012A。德ON等人,2013)已被用于识别事故图案。贝叶斯网络也用于研究交通事故的严重程度。DeOntilde;a等人(2011)采用国民银行模拟伤害严重程度与驾驶员,车辆,道路和环境特征相关变量之间的关系。他们得出结论,国阵可以根据伤势严重程度对交通事故进行分类。此外,Mujalli和DeOntilde;a(2011)提出了一种基于BNs和变量选择算法的简化方法来预测交通事故中的伤害严重程度。最近Kwon等用了两种分类方法:朴素贝叶斯分类器和决策树分类器来对风险因素进行排名。

交通事故数据通常对于致命和严重的伤害事故记录比轻微的伤害事故记录少(Montella,2012)。如果其中一个类(称为少数类)包含比剩余类(多数类)少得多的示例(Stefanowski和Wilk,2008),则数据集被认为是不平衡的。据李和孙(2012)的数据,如果少数类的比例低于数据集的35%,则数据集被认为是不平衡的。从不平衡数据学习时的数据挖掘算法倾向于在大多数类中产生高预测准确性,但对少数类的预测准确性较差(Thammasiri,2014)已经提出了许多解决方案,可以分为两大类(Loacute;pezet,2012):创建新算法或修改现有算法的内部方法,以及预处理数据以减少数据的外部方法班级失衡的影响。预处理方法(或重采样技术)似乎是更直接的方法,有更大的希望来克服类不平衡问题(Thammasiri,2014)。

重采样技术可以分为三组:第一组包括欠采样方法,其目的是通过从大多数类中移除数据样本来平衡类群体,直到类近似均等。欠采样方法随机排除大多数类的实例,直到达到所需类别之间的平衡。第二组包括过抽样方法,其目的是通过创建少数民族类别的新样本并将其添加到培训集中来平衡课堂人群。最后,第三组包括混合方法,将两种抽样方法结合起来,将选定的少数民族实例的过抽样与消除最有害的(即噪声,在这项工作中,分析了影响约旦城市和郊区交通事故伤害严重程度的因素。为此,在原始数据集和三个平衡数据集中使用贝叶斯分类器(平衡采用随机欠采样,采用过采样和混合方法)。最后,比较了开发的模型,并描述了最佳模型的结果。

本文的组织结构如下:第2节介绍了所使用的方法,所使用的数据,使用的贝叶斯分类器的简要描述以及用于评估模型的性能测量的描述。在第3节中,介绍了结果和讨论。最后,第4节给出了结论。

2.方法论

在本文中,首先获得不平衡数据集,并用于开发应用不同流行贝叶斯分类器的模型:针对平均一维估计器(AODEsr)的有效懒惰消除(Zheng和Webb,2006),重度平均一次依赖估计(WAODE )(Jiang and Zhang,2006)和贝叶斯网络(BN),其中不同的分数和搜索算法用于英国国民。此外,使用三种平衡技术从不平衡数据集创建了三个平衡数据集:随机欠采样,过采样和混合采样。用于开发形成不平衡数据集的模型的贝叶斯分类器也用于从三个平衡数据集开发模型。此外,贝叶斯分类器用于分析城市和郊区道路碰撞的伤害严重程度。将开发的模型相互比较,使用10倍交叉验证方法,其中每个数据集首先分为10个子集,9个用于训练模型,其余的一个子集用于测试模型。重复该过程十次,得到平均值。因此,开发和比较了11种型号。图1显示了所采用的程序。开发和比较了11种模型。图1显示了所采用的程序。开发和比较了11种模型。图1显示了所采用的程序。

图1 本研究采用的程序

2.1数据

约旦城市和郊区道路发生的交通事故记录是从约旦警务交通部(PTD)获得的,为期3年(2009-2011年)。本期间发生的事故总数为49,693人。考虑到本研究的主要目的是确定有助于碰撞发生特定严重程度的关键因素; 仅有财产损失的事故(PDO),行人和越野路被排除在外。在本研究中,只有碰撞事故进行了分析,结果使用的记录总数为16,815个。

要确定影响城市和郊区碰撞严重程度的主要因素,分析了14个独立变量(见表格1)。所选择的变量基于原始数据集中可用的变量和文献中使用的变量(Theofilatos等,2012;Pahukula等,2015)。数据包括描述事故发生时现行条件的变量:

道路信息:事故发生的道路的特点,方向数,车道数,水平对准,坡度,路面类型,路面状况等。

情景信息:事故发生时的天气和照明条件。

事故信息:事故类型和事故模式等事故情况。

车辆数据:车辆数量。

类变量是导致事故的严重程度。之前的研究(Chang和Wang,2006;DeOntilde;aet,2013;Abellaacute;net,2013),损伤严重程度是根据受伤最严重的人员的伤害程度确定的。在这里,严重程度分为两个严重程度:轻伤(SLIG)事故和死亡或严重受伤事故(KSEV)。

记录的原始分发(也称为实例)是13,725轻伤,3090人死亡或重伤。目标变量(严重程度)主要是不平衡的,大多数情况属于SLIG(77%),仅占KSEV的一小部分(23%)。

2.1.1数据预处理

从PTD获得的变量在分析之前进行了预处理,在之前的研究中,它们首先离散化成不同的值(Simoncic,2004;Helai,2008;DeOntilde;aet,2011)。用于替换缺失值的无监督变量过滤器用于处理丢失的数据。如果变量为数字或模式,则该过滤器将使用平均值替换缺少的数据,如果该变量是具有缺失数据的实例所属的类中该属性的所有已知值的标称值。

总的来说,在14个独立变量中,使用了原始数据集中出现的以下变量:PAT,TRAME,GRADE,SPE和DIR。变量的其余值被离散化,以便与它们一起工作。例如,在原始数据集中,变量ACT有12个类别,其中6个被分组在一个类别中; 与固定物体碰撞(此类别包括与护栏,障碍物,混凝土屏障,杆,停放车辆和交通控制装置的碰撞)。其他变量如PAV有五类(沥青,混凝土,污垢,砾石和金属),分为三类。表格1给出了用于分析的变量及其严重程度类别之间的分布的描述。

2.1.2重新抽样技术

如果目标变量的每个类别中的实例数量大致相等,则数据集被称为不平衡(Crone和Finlay,2012)。基于不平衡数据的分类问题常常发生在感兴趣的事件罕见的应用中,例如造成严重伤害或交通事故死亡的结果。

类别不平衡问题存在于许多领域,发现机器学习方法,特别是分类器性能的性能恶化,因为它们假设存在一个平衡的数据集(Japkowicz,2000)。在许多领域遇到了这样的问题的例子,例如:在飞行中的直升机变速箱故障监测(Japkowicz等人,1995年),检测到欺诈性电话(Fawcett和Provost,1997),检测到卫星雷达图像中的漏油(Kubat等,1998),信用评分Brown and Mues,2012)或学生保留(Thammasiri等,2014)。

在许多现实世界的应用中,实例的类分布通常是不平衡的,错误分类的成本是不同的。因此,课堂失衡和成本敏感的学习引起了研究人员的极大关注。抽样是处理类不平衡问题的广泛使用的方法之一,改变了实例的类分布,使少数民族在培训数据中得到很好的体现(Thammasiri等,2014)。

重采样技术应用预处理步骤以平衡原始的不平衡数据。本文采用三种平衡技术。Weka的预处理监督过滤器(Witten和Frank,2005)用于对数据集进行重新抽样。所采用的重采样技术(Loacute;pezet,2012b):采样不足,过采样和混合。以下给出了对它们的简要说明:

随机抽样:一种非启发式方法,旨在通过随机消除大多数类实例来平衡类分布。执行大多数类实例的消除以便尝试平衡数据集以试图克服机器学习算法的特性。随机欠采样的主要缺点是该方法可以丢弃对诱导过程可能很重要的潜在有用数据。此外,一旦进行了低抽样,大多数类被执行,样本不能再被认为是随机的。这是因为当在某些数据集上使用分类器时,目标人口没有预定义的已知概率分布,并且由于该分布是未知的,所以样本分布用于尝试去估计人口分布,而且只要样本是随机的,那么样本分布就可以从被绘制的画中来估计人口分布。

合成少数民族过采样技术(SMOTE):这是一种启发式方法,通过创建合成少数民族示例创建原始数据集的一个子集,少数民族通过采取每个少数民族阶层的样本进行过度抽样,并沿着连接任何/全部(k)少数民族最近邻居的分组的线路引入合成示例。根据所需的过采样量,随机选择(k)最近邻居的邻居,并在每个相邻方向生成一个样本。通过在“可变空间”而不是“数据空间”中运行,以较少的应用程序特定的方式生成合成实例。进一步来说,通过考虑所考虑的可变向量(样本)与其最近邻点之间的差异,将该差乘以零与一之间的随机数,然后将其加到考虑的可变向量中,生成合成样本。这导致沿着两个特定变量之间的线段选择随机点,因此有效地迫使少数民族阶层的决策区域变得更加普遍(Chawla等,2002)。

混合方法:这种方法结合了采样和采样过采样技术。在这种方法中,少数类实例被随机复制,同时随机丢弃大多数类实例以便修改类分布,直到属于每个类的实例的数量大致相同,保留原始数据集大小(Witten和Frank,2005)。

2.2 贝叶斯分类器

使用贝叶斯原理可以成功地执行数据处理中的统计推理。贝叶斯分类器基于这样的想法:一个类的角色是预测该类成员的变量的值,其中实例被分组在类中,因为它们具有变量的常用

全文共17161字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[144615],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。