用于野生动物自动监测的深度卷积神经网络动物识别和鉴定外文翻译资料

 2023-06-26 10:32:02

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


用于野生动物自动监测的深度卷积神经网络动物识别和鉴定

洪·恩古延1、萨拉·麦克拉甘2、杜丁·恩古延1、辛·恩古延1、保罗·弗莱明斯3、凯莉·安德鲁斯4、尤安·g·里奇2和丁凤1

1澳大利亚吉朗市迪肯大学模式识别和数据分析中心

2澳大利亚伯伍德德金大学综合生态学中心

3澳大利亚博物馆研究所,澳大利亚悉尼

4澳大利亚ABC国家广播电台

{hung,smaclaga,tu.nguyen,thin.nguyen}@deakin.edu.au,paul.flemons@austmus.gov.au,andrews.kylie@abc.net.au,{e.ritchie,dinh.phung}@deakin.edu.au

摘要——对野生动物的自然栖息地进行有效和可靠的监测,对于制定保护和管理决策至关重要。自动隐蔽相机或“相机陷阱”由于其在不引人注目地、连续地和大量地收集野生动物数据方面的有效性和可靠性,正成为野生动物监测的日益流行的工具。然而,手动处理从相机陷阱捕获的如此大量的图像和视频是极其昂贵、耗时并且单调的。这给科学家和生态学家在开放环境中监测野生动物带来了很大的障碍。利用计算机视觉中深度学习技术的最新进展,我们在本文中提出了一个框架来建立自动化的野生动物识别,旨在建立一个自动化的野生动物监测系统。特别是,我们使用由公民科学家完成的野生动物观察者项目的单标签数据集和最先进的深度卷积神经网络架构,来训练一个能够过滤动物图像和自动识别物种的计算系统。我们的实验结果在检测包含动物的图像的任务中实现了96.6%的准确率,并且在澳大利亚维多利亚州中南部拍摄的野生动物图像集中识别三个最常见物种的准确率为90.4%,证明了建立全自动野生动物观察的可行性。因此,这反过来可以加快研究成果,构建更有效的基于公民科学的监测系统和后续管理决策,有可能对生态和陷阱相机图像分析领域产生重大影响。

索引术语—深度学习、卷积神经网络、大规模图像分类、动物识别、野生动物监测、公民科学

  1. 介绍

在自然环境中观察野生动物是生态学的中心任务。人口的快速增长和对经济发展的无止境追求正在过度开发自然资源,导致地球生态系统发生快速、新颖和实质性的变化。越来越多的陆地表面被人类活动所改变,改变了野生动物的数量、栖息地和行为。更严重的是,

  1. 在野外部署的照相机陷阱 (b) 野外设置的摄像机陷阱

图1:开放空间中的相机陷阱设置示例(来源:http://reconyx.com.au/gallery.php,2017年6月8日)。

地球上的许多野生物种已经濒临灭绝,许多物种被引入新的领域,在那里它们可以破坏自然和人类系统[1]。因此,监测野生动物至关重要,因为它为研究人员提供证据,为保护和管理决策提供信息,以在这些变化面前保持多样化、平衡和可持续的生态系统。

各种现代技术已经被开发出来用于野生动物监测,包括无线电跟踪[2],无线传感器网络跟踪[3],卫星和全球定位系统(GPS)跟踪[4],[5],以及通过运动敏感摄像陷阱进行监测[6]。运动触发的远程摄像机或“摄像机陷阱”是一种越来越受欢迎的野生动物监测工具,因为它们配备了新颖的功能,更广泛的商业可用性,以及易于部署和操作。例如,一个典型的隐蔽相机模型(图1)不仅能够在白天和夜晚捕捉高清图像,还能够收集图像数据中集成的时间、温度和月相信息。此外,慷慨和灵活的相机设置允许秘密和连续地跟踪动物。一旦充满电,

相机可以拍摄数以千计的连续图像,提供大量的数据。这些规格使相机陷阱成为生态学家的有力工具,因为他们可以记录野生动物的每个方面[7]。

如果能够捕捉到视觉数据,那么视觉数据就是丰富的信息来源,可以为科学家提供证据来回答与生态相关的科学问题,例如:稀有动物的空间分布是什么,哪些物种受到威胁并需要保护,例如鼠尾鼠,哪些有害物种需要控制,例如赤狐和兔子;这些是理解野生动物种群、生态关系和种群动态的关键问题的例子[7]。为此,生态学家最近广泛使用的一种方法是在野外设置几个相机陷阱,收集野生动物在其自然栖息地的图像数据[6]、[7]、[8]。

    1. 良好的图像 (b)比例变化/远场问题 :鸟离照相机很远

由于数字技术的进步,照相机捕捉迅速被用于野生动物监测,数字技术的进步产生了更现代的照相机捕捉,其系统部件自动化,但购买成本更低;然而,分析大量相机陷阱图像的任务一直是手动进行的。尽管人类的视觉系统可以毫不费力地快速处理图像[9],但手动处理如此大量的图像是非常昂贵的。例如,到目前为止,快照塞伦盖蒂项目1从2010年至2013年通过坦桑尼亚塞伦盖蒂国家公园的225个相机陷阱收集了320万张图像[8]。另一个类似的项目“野生动物观测者2”收集了数百万张在澳大利亚热带雨林和干旱牧场拍摄的野生动物照片。不幸的是,由于自动陷阱相机捕捉机制,绝大多数捕获的图像非常难以处理,即使对人类来说也是如此。只有有限数量的采集图像处于良好状态

(c) 背景混乱:爬行动物融入场景

(e)用红外闪光灯在夜间拍摄的图像

物体离摄像机太近

(d) 物体离相机太近

    1. 物体遮挡问题

如图2a所示。许多图像仅包含动物对象的部分身体(图2d),在其他图像中,动物对象在整个身体中被捕捉,但是离相机太远(图2b),在变化的视图或变形中(图2g),或者被遮挡(图2f)。此外,许多图像都是灰度级的,因为它们是在晚上用红外闪光灯拍摄的(图2e),大量图像不包含动物,如图2h所示(75%的塞伦盖蒂快照[8]和32.26%的野生动物观察者标记的图像被归类为“无动物”),而在其他图像中可能出现属于不同物种的几个物体。因此,大量的数据和有限的图像质量显著降低了图像分析过程的速度。

为了分担科学家的工作量,在Snapshot Serengeti或Wildlife Spotter等大型野生动物监测项目中,志愿者被邀请作为“公民科学家”,通过基于网络的图像分类系统远程加入图像分析过程。大量志愿者参与了这些项目,在Snapshot Serengeti数据集[8]上获得了96.6%的物种识别准确率,并得到了专家的验证,这证明了公民科学项目的成功。

https://www . snapshot Serengeti . org 2 https://wildlife Potter . net . au

(g)物体变形/视图不清晰 (h)没有动物的图像,但有提交给公民科学家进行注释

图2:不同场景下野生动物观测者图像数据集的例子。原始图像的分辨率为1920times;1080或2048times;1536像素。为了便于说明,所有图像的大小都进行了调整。

times; times;

然而,巨大的图像集合和不完美图像质量的限制显著地影响了人类分类的速度,有时甚至影响了准确性,即使对于专家来说也是如此[8]。特别是,Snapshot Serengeti数据集中的一些图像被专家标注为“无法识别”,维多利亚中南部野生动物观察者数据集中的9,600多张图像被标记为“其他东西”或“图像问题”,数千张照片的标签不一致(例如,同一张图像被不同的志愿者归类为不同的物种)。此外,即使许多志愿者对加入公民科学项目充满热情,手动分析数百万张图像也需要很长时间。例如,在Snapshot Serengeti项目中,由28,000个注册用户和40,000个未注册的志愿者[8]组成的团队花了两个多月的时间对一批6个月的图像进行注释。

因此,野生动物识别自动化的需求就是从这些障碍中产生的。据我们所知,目前只有非常有限的现有工作试图建立自动化系统来处理和分析在野外捕获的视频和图像,以用于环境监测任务。

来自相机陷阱的大量数据突出了图像处理自动化的需要。从数据分析和机器学习的角度来看,有一些直接的技术可以使野生动物识别自动化,例如应用线性支持向量机(SVM)分类器,在手工制作的特征上进行手动对象绑定[10],具有自动对象检测的卷积神经网络(CNN)模型[11],或者继承在非常大规模的数据集(如ImageNet [12],[13])上预先训练的模型权重的微调CNN模型。这些方法解决了野生动物监测自动化的问题,并展示了充满希望的实证结果。然而,仍然存在两个主要挑战,这两个挑战抑制了自动化野生动物监测应用在实践中的可行性。第一个障碍是,为了获得可应用的图像分类精度,仍然需要大量的手动预处理来输入用于检测和界定动物对象的图像[10]。第二个限制是,尽管完全自动化,野生动物监测系统的性能很差,实际应用需要更多的改进[11]。

本文设计了一个用于野外动物识别的框架,旨在实现一个全自动的野生动物识别系统。我们的工作受到最近用于图像分类的深度CNN模型的最先进能力的激励,特别是最近的证据表明,在ImageNet竞赛中,自动识别在某些对象识别任务上可以超越人类[14]。我们在野生动物观察者项目的数据集上进行了实验,数据集包含由澳大利亚科学家设置的陷阱相机拍摄的大量图像。更具体地,由于野生动物观察者数据集包括动物和非动物图像,我们将野生动物识别自动化分成两个后续任务:(1)野生动物检测,其实际上是能够基于图像中动物存在的预测将输入图像分类成两类的二元分类器:“动物”或“无动物”;和

(2)野生动物识别,一个多类分类器,通过指定物种用动物存在来标记每个输入图像。每个任务的核心本质上是一个基于CNN的深度分类器,由志愿者手动标记的准备好的数据集进行训练。该框架采用了几种精选的深度CNN架构进行比较。任务1的成功将通过自动过滤掉公民注释者目前浪费时间的大部分非动物图像,对提高基于公民科学的项目(例如,野生动物观察者)的效率产生重大影响。我们在野生动物观察者数据集上的实验结果表明,这种方法是可行的,并且可以节省大量的时间和费用。因此,这项工作的主要贡献是,有了足够的数据和计算基础设施,深度学习

可以用来建立大规模的全自动图像分类系统,把科学家从手工处理数百万幅图像的负担中解放出来,这被项目经理们认为是“计算机做不了的工作”3。此外,我们提出的框架可以与现有的公民科学项目相结合,形成一个“混合”图像分类器,其自动化组件作为一个推荐系统,为志愿者提供出色的建议,以加快他们的分类决策。

本文的其余部分组织如下。在第二节中,我们简要概述了CNN的基本原理及其在图像分类中的应用。在这一节中,我们还总结了自动野生动物分类主题的相关工作和一个现有的基于公民科学的野生动物分类项目:野生动物观察者。我们在第三节中描述了提议的动物识别框架、数据和实验设置。第四节介绍了实证结果和讨论。最后,在第五节中,我们总结并展望了未来的工作。

  1. 相关著作

在这一节中,我们首先简要介绍CNN及其在图像分类中的应用。然后,我们总结了在最近的ImageNet挑战中表现出一流性能的各种CNN架构[14]。最后,我们讨论现有的方法来解决一个特殊的问题:动物分类的自然场景从相机陷阱图像。

  1. 用于图像分类的卷积神经网络

视觉识别对人类来说是一项相对琐碎的任务,但由于图像复杂多变的特性,对自动图像识别系统来说仍然具有挑战性[15]。每个感兴趣的对象可以改变由位置、比例、视图、背景或照明的变化产生的无限数量的不同图像。在现实世界的问题中,挑战变得更加严重,如自动陷阱相机的野生动物分类,其中大多数捕获的图像质量不佳,如第一节所述。因此,对于图像分类自动化的任务,重要的是建立能够对输入的某些变换保持不变的模型,同时保持对类间对象的敏感性[16]。

由LeCun等人[17]首先提出,细胞神经网络在过去的几年中已经显示出很好的实际性能,并被广泛用于机器学习,特别是在图像分类[14]、[18]、[19]、[20]、[21]、语音等领域

识别[22],以及自然语言处理[23],[24]。这些模型已经取得了最先进的结果,甚至在图像识别任务中超过了人类[25],这是由于最近在神经网络(即深度CNN)和计算能力方面的改进,特别是在图形处理单元(GPU)上成功实施了并行计算,以及用于大规模学习深度模型的异构分布式系统,如TensorFlow [26]。

3 https://wildlife Potter . net . au/classify

图3:典型的卷积神经网络架构设置图。

CNN基本上是基于神经网络的学习模型,专门设计用于推进输入图像的空间结构,输入图像通常是三维体积:宽度、高度和深度(颜色通道的数量)。如图3所示,CNN本质上是一系列层,这些层可以分成组,每个组包括卷积层加上非线性激活函数,通常是整流器线性单元(ReLU) [20],以及汇集层,主要是max汇集;以几个完全连接的图层结束,其中最后一个图层是带有预测的输出图层。在标准神经网络中,每个神经元与前一层中的所有神经元完全连接,并且每层中的神经元完全独立。当应用于诸如自然图像的高维数据时,参数的总数可以达到数百万,导致严重的过拟合问题并且不适合训练。相比之下,在CNN中,每个神经元只连接到前一层的一小块区域,形成局部连接。卷积层计算连接到前一层局部区域的神经元的输出,这种连接的空间范围由滤波器大小指定。此

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[603373],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。