FVID:基于VMS轨迹的渔船类型识别外文翻译资料

 2022-08-11 15:07:33

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


摘 要

船舶监控系统(VMS)为量化渔业研究提供了新的契机。基于渔船的类型,文章提出了许多利用VMS轨迹识别渔业活动的方法。然而,有一个研究问题仍然需要解决,那就是如何仅根据VMS轨迹来识别渔船的类型。这个问题很重要,因为它要求渔船类型作为从VMS轨迹识别捕鱼活动的一个初步依据。本文提出了一种基于VMS轨迹的渔船类型识别方案。FVID以XGBoost的特征工程和机器学习方案为两个关键模块,将渔船分为九类。该数据集包含2017年3月在东海的所有渔船轨迹,包括10031艘预先登记的渔船和1350艘未知类型的未登记的渔船。为了验证类型识别的准确性,我们首先对注册渔船的轨迹进行4次交叉验证。分类准确率为95.42%。然后,我们将FVID应用于未注册的渔船,以识别它们的类型。在对未登记的渔船类别进行分类后,会根据其类别进一步确认其捕鱼活动。最后,我们计算并比较了未注册渔船使用前后东海的捕捞密度分布,确认了未注册渔船类型识别的重要性。

关键词VMS;船舶类型识别;捕鱼密度;轨迹分析;分类。

1.介绍

船舶监控系统(VMS)的最初目标是加强航行安全。它记录船舶航行信息,包括其身份、时间、位置、瞬时速度和航向等。当在渔船上部署卫星设备时,VMS会产生大量的轨迹数据。同时,随着轨迹数据处理的改进,这些VMS数据为量化渔业研究提供了新的机遇。

以往关于VMS轨迹的垂钓研究分为两个阶段。首先是识别所有VMS轨迹的捕鱼片区。在这一步中利用了不同的分类方法,包括速度和航向的阈值,统计推断,机器学习和图像处理。第二种是计算捕捞相关的指标,包括捕捞密度和捕捞力度。

以往的研究多以对渔船类型的认识为基础,因为渔船类型识别要求渔船类型适用不同的航速、航向等条件。然而,渔船的类型在实践中往往是未知的,因为并非所有的渔船都已向与某一渔区有关的渔政局登记。例如,2017年3月,浙江省海洋渔业局在其监控下,记录了10031艘在东海活动的渔船。与此同时,在同一地区出现了1350艘未注册的渔船,这就要求在进一步分析捕捞密度或捕捞力度等指标之前,必须先确定它们的类型。因此,本文的研究问题是如何基于VMS轨迹识别渔船类型。Campanis和Coro等人提出的方案试图计算未注册渔船的捕捞活动。这些方案直接利用速度、方向和水深信息来建立基于规则的分类器,这对于不同类型的渔船来说是容易出错的。

在船舶类型识别问题上存在两大挑战。首先,不同类型的渔船往往吨位和发动机相似,因此它们的航行和捕鱼活动可能相差不大。其次,VMS轨迹数据量大,需要一种有效的计算方法。在本文中,我们提出了一种仅基于VMS轨迹的渔船类型识别方案FVID。FVID利用XG Boost的特征工程和机器学习方案作为其两个关键块。FVID首先利用特征工程从VMS轨迹中提取特征,代表不同渔船类型之间的差异。由于一个特征向量表示了一艘渔船的轨迹特征,因此减小了下一航段的输入尺寸。XGBoost分类器利用训练阶段注册渔船的特征向量,识别出未注册渔船的类型。为了解决不同类型渔船数量之间的不平衡,我们在分类前进一步采用了SMOTE过度抽样法。

VMS数据集由浙江省海洋渔业局于2017年3月记录,共包含49236165和13.6 GB内存的记录数据。特别是,每艘船平均有4326条记录,最多12051条,最少2032条。此外,这些轨迹是由中国北斗卫星系统记录的,5分钟的分辨率。本地区登记注册的渔船有虾拖网、网板拖网、对拖网、刺网、帆布堆网、蟹笼、方网、轻型围网和运输等9种类型。因此,渔船识别的任务是将未登记的渔船归入这九种类型之一。

为了验证分类的准确性,我们首先利用注册渔船的轨迹对FVID进行4次交叉验证。分类精度为95.42%,验证了FVID的性能。然后对未登记的渔船进行FVID分类。未经注册的渔船被确定其类型后,我们确认其捕鱼活动。最后,利用注册渔船和未注册渔船的轨迹,计算渔船密度分布的变化,以确认未注册渔船类型识别的重要性。

2.数据集和方法

本节首先简要介绍在实践中带来了渔船类型识别的问题的VMS数据集。然后详细介绍了所提出的渔船类型识别方案FVID。

2.1 数据集

该数据集是由中国浙江省海洋与渔业局记录的活动渔船的VMS轨迹。轨迹数据包含201年3月东海渔船的时间、位置、航行速度和方向等。记录的轨迹具有5分钟的时间分辨率,数据集有49236165条记录。本月有10031艘注册“渔船”活动。此外,该数据集包含了1350艘未注册渔船的轨迹。

注册渔船按其捕捞量或捕捞方式分为虾网渔船、网板拖网渔船、对拖网渔船、刺网渔船、帆布堆网渔船、蟹笼渔船、方网渔船、轻型围网渔船和运输渔船等9种。每种型号船号如表2.1所示。

表2.1注册渔船的种类和数量

然而,对于1350艘未登记的船只,该局没有关于其船只类型的线索。这导致该局无法区分他们的航行或捕鱼行为和他们的VMS轨迹,而VMS轨迹依赖于船只类型作为初步判断。这里的研究问题是仅根据VMS轨迹来识别1350艘未注册渔船的类型。

2.2 方法

由于注册渔船有类型标签,我们可以使用监督机器学习的分类器来识别未注册的渔船类型。FVID 由预处理、特征枚举、特征选择、分类器训练和类型识别五个步骤组成,如图2.1所示。

图2.1 FVID的示意图

预处理的第一步是基于所捕捉的位置处理缺失值问题,计算船舶速度和航向。

第二步提取特征,表示在不同类型的渔船之间的轨迹差异。我们从轨迹分析中提取时间、速度、方向和区域的特征,并应用特征选择找到最佳特征向量进行分类。FVID利用了XGBoost分类器的准确性和轻量级成本。如表1所示,不同捕捞类型的分布是不平衡的。我们对那些数量少的船舶类型采用过度采样方法。对分类器进行训练后,利用分类器识别未注册渔船的类型。我们将在下面详细说明我们的方法的每个步骤。

1)预处理:由于传输错误和数据丢失非常普遍。一旦GPS时间、纬度或经度项上有一个空值,我们就删除记录。同时,记录的速度和方向是北斗终端设备观测到的瞬时值,这个瞬时值由于船舶的晃动和波浪,会出现较大的波动。我们计算了两个记录之间的平均方向和速度,这比瞬时记录更稳定。

2)特征枚举:本节描述特征枚举阶段。这里列举了61个特征表示不同渔船类型之间的差异。

对于每个VMS记录,我们选择时间、经度、纬度、方向和速度作为预处理后特性计数的原始字段。之前的研究指出,对于许多类型的渔船来说,捕捞活动的速度与航行速度是不同的。因此,我们计算数据集中的每种注册船只的速度分布。

图2.2为所有9种类型渔船的速度分布。所有类型渔船的整个航速段从0到12。对于不同类型的渔船,速度分布的密集区域存在一定的差异。例如,无论是捕虾拖网还是网板拖网的速度分布都只有一个(2.5,5.5)的清晰致密段,而刺网有两个(0.5,2.5)和(5.5,12)的致密段。在对每一种类的致密切片进行计数时,在图2.2中发现了三条分裂线,分别是0.5、2.5和5.5。根据这些线条,整个speed部分被划分为(0,0.5)、(0.5,2.5)、(2.5,5.5)和(5.5,12)四个部分。

图2.2 九种渔船的航速分布

根据这四种速度分布,九种类型的渔船有相似或不同的分布。这提供了将九种类型至少分成四组的线索。第一个只包含一种类型刺网渔船,有两个密集的部分(0.5,2.5)和(5.5,12)。第二个只有两个密集的螃蟹笼子,分别是(2.5,5.5)和(5.5,12)。第三种是两种类型的渔船,即帆布积网渔船和运输渔船。它们密集的部分在于速度(5.5,12)。最后一组共有五种类型,包括捕虾拖网渔船、网板拖网渔船、对拖网渔船、方网渔船和轻型围网渔船。如图2.2所示,这五种类型的分布在(2.5、5.5)中只有一个典型的致密断面。这四组数据表明,以四个速度区段的分布为特征进行分类是有帮助的。因此,我们将前四个特征量化为每条船速度值的四个速度部分的直方图。

当进一步比较最后一组内不同类型的分布时,图2.2所示的速度(2.5、5.5)的密度分布仍有一定差异。

图2.3 各类渔船捕捞活动的空间频率分布

方向场在渔船捕鱼时存在变化。这是因为不同类型的渔船采用不同的捕鱼方法。例如,网板拖网渔船拖着他们的网频繁转弯来抓鱼。这些类型的活动带来了快速改变方向。相反,刺网渔船在一个地方放下网,航行离开,然后回来把网拉出来。因此,它们唯一典型的捕鱼轨迹是沿着一条路径来回航行,只有一个转弯。除了唯一的转弯,没有明显的方向变化。

因此,我们使用速度区间(0,0.5)、(0.5,2.5)和(2.5,5.5)的方向标准差作为特征f26-f28。

不同类型渔船的捕捞周期也有一定的差异。尤其对于灯光网渔船,他们的捕鱼活动发生在第二天的下午4点到第二天早上6点,这段时间天空是黑暗的。我们设计了一些特征值来获取速度区间(2.5, 5.5)在每个小时所占的比例, 作为f29-f52。速度区间(2.5、5.5)是典型的轻型围网、捕虾拖网、网板拖网、对拖网和方网的密集段。例如,f29代表了一艘船在0:00到1:00在速度区间(2.5, 5.5)中所占的捕鱼记录的比例。我们也定义了 f53-f61分别为时间段 (0:00-5:00), (5:00-7:00), (5:00-8:00), (6:00-11:00), (6:00-17:00), (12:00,14:00), (12:00,17:00), (18:00-23:00) 和 (18:00-5:00)的捕鱼记录。

总结所有的特性,我们从原始VMS数据中提取了61个特征值。所有这些特征值分别与速度区段(0,0.5)、(0.5,2.5)、(2.5,5.5)和(5.5,12)有关。f1-f4表示(0,0.5)、(0.5,2.5)、(2.5,5.5)和(5.5,12)速度区间的直方图。f5-f13在速度区段(0,0.5)、(0.5、2.5)和(2.5、5.5)上标记平均值、中值和标准差。经纬度上的均值、中位数分别构成(0,0.5)、(0.5、2.5)、(2.5、5.5)速度区间的空间特征值f14-f25。f26-f28分别表示(0,0.5),(0.5,2.5)和(2.5,5.5)速度区间上方向的标准差。时间特征值f29-f52计算每小时占用的速度部分的比例。

特征值f53-f61作为某些特殊时期的捕鱼比例。

3)分类器和过度采样:由于特征选择方法属于包装类,所以我们在这一小节中对分类器进行说明,然后在下一小节中描述我们的特征选择。根据已知类型注册渔船的VMS轨迹,可以将未注册渔船类型识别问题定义为监督多类分类问题。由于我们的数据量很大,因此选择一个能够并行执行的分类器是很重要的。因此,我们选择XGBoost (Chen and Guestrin, 2016)作为分类器。此外, 取 One-Versus-Rest (OVR) (Boutell等人, 2004 ) 多层次分类问题的方法 即训练9个分类器用于类型 T1-T9。对于未注册的容器,每个分类器生成实例属于相应类型的概率。然后将实例标识为具有最大概率的类型。通过交叉验证调整XGBoost的超参数。

如表2.1所示,T6型、T7型和T8型的渔船数量与其他类型的渔船数量相比都很小。67 8 这导致了训练样本在类型间的不平衡。我们使用了Synthetic Minority Over-sampling Technique (SMOTE)来解决这个问题。SMOTE是一种利用过采样技术处理少数和合成新样本的过程。

应用SMOTE,对T6、T7和T8型分别对9739、9760和9896个阳性样品进行过采样。我们将在评估部分比较过采样前后的分类精度。

  1. 特征选择:在前面的特征枚举中,我们构造了速度、方向、空间和时间特征值。共有61个特征值。然而,并非所有的特征值都有助于分类;也许一些特征值相互矛盾或对分类器的贡献很小(Feng and Lang,2017)。我们应用特征值选择来评估每个特征值对分类的贡献,并为每种船舶类型分类器找到最佳的特征向量。首先,我们通过方差阈值法去降低方差特

    剩余内容已隐藏,支付完成后下载完整资料


    资料编号:[237034],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。