基于计算棒的Yolo3算法优化外文翻译资料-文献翻译网

本科生毕业设计（论文）外文资料译文

（ 2020届）

论文题目	基于计算棒的Yolo3算法优化

杭州国际服务工程学院教学部

外文资料译文规范说明

一、译文文本要求

1．外文译文不少于3000汉字；

2．外文译文本文格式参照论文正文规范（标题、字体、字号、图表、原文信息等）；

3．外文原文资料信息列文末，对应于论文正文的参考文献部分，标题用“外文原文资料信息”，内容包括：

1）外文原文作者；

2）书名或论文题目；

3）外文原文来源：

□出版社或刊物名称、出版时间或刊号、译文部分所在页码

□网页地址

二、外文原文资料（电子文本或数字化后的图片）：

1．外文原文不少于10000印刷字符（图表等除外）；

2．外文原文若是纸质的请数字化（图片）后粘贴于译文后的原文资料处，但装订时请用纸质原文复印件附于译文后。

指导教师意见：

指导教师签名：年月日

一、外文资料译文：

SlimYOLOv3: 更窄，更快，更好的实时性

无人机应用

摘要：无人机或无人普通飞行器（UAV），由车载摄像机和嵌入式系统与计算机视觉功能赋予，已经在广泛的应用成为热门。然而，通过在UAV平台上运行的对象检测的实时场景解析很有挑战性，由于有限的存储器和计算嵌入式设备的功率。为了应对这些挑战，在本文中，我们建议通过卷积层的通道修剪来学习有效的深层对象检测器。为此，我们通过对信道的比例因子施加L1正规化执行卷积层的信道级稀疏剪枝较少信息量的特征信道，以获得“苗条”对象检测器。基于这种方法，与原始YOLOv3相比，我们提出的SlimYOLOv3具有更少的可训练参数和浮点运算（FLOP）（Joseph Redmon等人，2018），这是一种用于无人机实时目标检测的有前途的解决方案。我们在VisDrone2018-Det基准数据集上评估SlimYOLOv3;与未修剪的同类产品相比，SlimYOLOv3取得了令人瞩目的结果，包括FLOP减少了约90.8％，参数大小减少了约92.0％，运行速度提高了约2倍，并且检测精度与YOLOv3相当。不同修剪率的实验结果一致地证明，所提出的具有更窄结构的SlimYOLOv3比YOLOv3更有效，更快和更好，因此更适合于无人机的实时目标检测。我们的代码可在https://github.com/PengyiZhang/SlimYOLOv3上公开获得。

关键词：SlimYOLOv3，对象检测，无人机，通道修剪，稀疏性训练

图1. VisDrone2018-Det基准数据集上的十亿浮点运算（BFLOP）与精度（mAP）的关系。通过通道修剪，我们的SlimYOLOv3-SPP3可以达到与YOLOv3相当的检测精度，但是只需要与YOLOv3-tiny等效的浮点运算即可。这样的性能在无人机应用中非常有竞争力。 sect;5中提供了详细信息。

1.简介

最近，具有机载摄像头和嵌入式系统计算机视觉功能的无人机或普通无人机已被广泛应用，涉及监视[1]，航空摄影[2]和基础设施检查[3]。这些应用要求无人机平台能够感知环境，解析场景并做出相应的反应，其中的核心部分就是场景解析。不同的无人机应用程序需要不同级别的场景解析，包括识别场景中的对象种类，定位这些对象的位置以及确定每个对象的确切边界。这些场景解析功能对应于计算机视觉领域的三个基础研究任务，即图像分类，对象检测和语义（实例）分割。视觉对象检测可能是最普遍的一种，它被用作无人机应用中场景解析的基本功能模块，因此，它已成为人们越来越感兴趣的领域。由于开放部署环境的多样性，在无人机平台上运行的自动场景解析变得非常苛刻，这给物体检测算法带来了许多新的挑战。这些挑战主要包括：（1）如何处理航空影像中物体的视觉外观通常遇到的各种变化（例如，照明，视野，小尺寸和比例）；（2）如何在内存和计算能力有限的无人机平台上部署目标检测算法；（3）如何平衡检测精度和实时性要求。在处理这些变化时，基于传统机器学习和手工特征的对象检测方法很容易失败。解决这些挑战的一种竞争方法是基于近年来流行的深度学习技术的对象检测器。在计算能力（例如，图形处理单元和专用深度学习芯片）的增长以及大规模标记样本（例如，ImageNet [4]和COCO [5]）的可用性的推动下，由于深度神经网络的广泛研究到其快速，可扩展和端到端的学习框架。特别是，与传统的浅层方法相比，卷积神经网络（CNN）模型[6]在图像分类（例如ResNet [7]和DenseNet [8]），目标检测（例如Faster R-CNN [9]）方面取得了显着改善。 ]和SSD [10]）以及语义分割（例如，UNet [11]和Mask R-CNN [12]）等。自从CNN模型成功引入对象检测任务（R-CNN，Ross Girshick等）以来等人，2014）[13]，这种检测框架吸引了许多研究兴趣，并且在过去的五年中，已经提出了许多基于CNN的最先进的物体检测器。具体来说，YOLO系列模型（Joseph Redmon等。[14] [15] [16]）可能是实际应用中最受欢迎的深层物体检测器，因为其检测精度和速度都得到了很好的平衡。尽管如此，对这些检测器的推断仍需要高性能计算和较大的运行时内存占用空间，以保持良好的检测性能。它给无人机平台的车载嵌入式设备带来了高计算开销和功耗。因此，当在无人机上部署深物体检测器时，如何在不显着牺牲检测精度的情况下减少浮点运算（FLOP）和可训练参数的大小成为亟待解决的问题。模型修剪方法是实现此目标的一种有前途的方法。典型的深度学习管道简短地涉及设计网络结构，微调超参数，训练和评估网络。大多数流行的网络结构（例如ResNet和DenseNet）都是手动设计的，在这种结构中，无法在培训之前确定每个组件的重要性。在训练过程中，网络可以通过自动调整可训练层的权重来了解每个组件的重要性。因此，网络中的某些连接和计算变得多余或不重要，因此可以删除它们而不会显着降低性能[17]。基于此假设，最近设计了许多模型修剪方法，以简化深度模型并促进深度模型在实际应用中的部署。通道修剪是一种粗粒度但有效的方法，更重要的是，仅通过修改配置文件中相应通道（或过滤器）的数量即可方便地实现修剪的模型。随后对修剪的模型执行微调操作，以补偿潜在的临时退化。我们凭经验论证，由专家手动设计的深层物体检测器可能在特征通道中存在固有的冗余，因此可以通过修剪通道来减小参数大小和FLOP。在本文中，我们建议通过在卷积层上执行通道修剪来学习有效的深层对象检测器。为此，我们通过在通道缩放因子上施加L1正则化来增强卷积层的通道级稀疏性，并修剪具有较小缩放因子的信息量较少的特征通道，以获得“细长”的目标检测器。基于这种方法，与原始YOLOv3相比，我们进一步提出了SlimYOLOv3具有较少的可训练参数和较低的计算开销，这是用于无人机实时目标检测的有希望的解决方案。 YOLOv3最初接受了频道级稀疏正则化的培训；依次，根据特征通道在YOLOv3中的缩放比例，将特征通道修剪成一定比例，得到SlimYOLOv3。最后，对SlimYOLOv3进行了微调，以补偿检测精度的暂时下降。我们在VisDrone2018-Det基准数据集上评估SlimYOLOv3 [18]；与未修剪的同类产品相比，SlimYOLOv3取得了令人瞩目的结果：FLOP减少了约90.8％，参数大小减少了约92.0％，运行速度快了约2倍，并且检测精度与YOLOv3相当。不同修剪率的实验结果一致地证明，所提出的具有更窄结构的SlimYOLOv3比YOLOv3更有效，更快和更好，因此更适合于无人机的实时目标检测。

2.相关工作

2.1深度对象检测器

在提出R-CNN（Ross Girshick等人，2014）[13]之前，通过在图像上滑动窗口，将对象检测用作分类问题。这些传统方法无法有效地处理对象外观的各种变化。结合选择性搜索和CNN模型，与浅层方法相比，R-CNN在目标检测任务上实现了显着改进。从那时起，深物体探测器吸引了许多研究兴趣。在过去的五年中，已经提出了许多最新的深层物体检测器，包括SPP-net [19]，Fast R-CNN [20]，Faster R-CNN [9]，R-FCN [21]。，RetinaNet [22]，SSD [10]，YOLO [14]，YOLOv2（YOLO9000）[15]和YOLOv3 [16]等。根据是否需要额外的区域提议模块，这些深层物体检测器可以简单地分为分为两类，即两级和单级检测器。两级检测器。以R-CNN系列模型为代表的两级检测器主要由三部分组成：（1）骨干网，（2）区域提议模块和（3）检测头。首先，区域提议模块生成大量可能包含感兴趣对象的区域提议；检测标头依次对这些提议进行分类，以检索它们的类别并执行位置回归以精确定位对象。通过对区域建议方法（例如，选择性搜索[13]和区域建议网络[9]等），深度建议计算方法的几项重大改进，两阶段目标检测器的检测精度和实时性能已得到越来越多的优化。区域提议（空间金字塔池[19]，ROI池[9]，ROI对齐[12]等）和骨干网（VGG，ResNet [7]，特征金字塔网络[23]等）。两级检测器依靠区域提议模块生成的高质量区域提议来获得良好的检测精度。但是，用这些区域建议推断两级检测器需要大量的计算和运行时内存占用，从而使检测相对较慢。单级检测器。相反，以YOLO系列模型，SSD和RetinaNet为代表的单级检测器利用预定义的锚来密集地覆盖整个图像的空间位置，比例和纵横比，而不使用额外的分支网络（例如区域提议网络）。换句话说，单级检测器通过获取输入图像并学习类别概率和相对于预定锚点的边界框坐标，直接将对象检测视为回归问题。将所有计算封装在单个网络中，单级检测器比两级检测器运行速度更快。在这些单级检测器中，YOLO系列模型可能是最快的对象检测算法，具有最先进的检测精度，因此成为实际应用中最受欢迎的深层对象检测器之一。文献中报道的YOLO系列模型的实时性能是在具有高性能计算能力的强大图形处理单元（GPU）卡上进行评估的。当在计算能力有限的无人机平台上部署时，平衡检测性能和高计算开销将是非常具有挑战性的。在本文中，我们建议通过卷积层的通道修剪来学习有效的YOLOv3模型（即SlimYOLOv3）以应对这一挑战。

2.2模型修剪

在资源有限的设备上部署深度模型时，模型压缩是研究人员重新调整深度模型所需资源消耗的有用工具。现有的模型压缩方法主要包括模型修剪[17] [24]，知识蒸馏[25]，参数量化[26]和动态计算[27]等。在本节中，我们专门讨论模型修剪方法。

图2.增量模型修剪的代表性过程。存在四个迭代步骤：（1）在预训练的深度模型中评估每个组件的重要性；（2）删除对建模不重要的组件；（3）调整修剪模型以补偿性能的潜在暂时下降；（4）评估微调模型，以确定修剪后的模型是否适合部署。最好采用增量修剪策略以防止过度修剪。

增量模型修剪的代表性过程如图2所示。在模型修剪方法中从深层模型中删除的组件可以是单个神经连接[28]或网络结构[17] [24]。权重修剪方法以较小的权重修剪不太重要的连接。从概念上讲，它很容易理解，但是由于生成的不规则网络体系结构，很难存储修剪的模型并加快其速度。从技术上讲，除非设计了专门的软件库或专用硬件来支持修剪模型，否则重量修剪可能不适合实际应用。与权重修剪不同，结构化修剪更有可能产生常规且易于处理的网络体系结构。为了获得结构化修剪的结构化重要性，研究人员求助于结构化稀疏性正则化的稀疏性训练，涉及结构化稀疏性学习[29]和通道方式缩放因子上的稀疏性[17] [24]。刘等。 [24]提出了一种简单但有效的信道修剪方法，称为网络瘦身。他们直接将批量归一化（BN）层中的缩放因子用作通道方式的缩放因子，并在这些缩放因子上对L1正则化进行训练的网络以获得通道方式的稀疏性。通道修剪是一种粗粒度但有效的方法，更重要的是，无需专用硬件或软件即可方便地实施修剪模型。他们将网络瘦身方法应用于修剪基于CNN的图像分类器，并显着减少了模型大小和计算操作。在本文中，我们将遵循Liu的工作，并将其扩展为一种用于有效的深层对象检测器的神经体系结构搜索的粗粒度方法。

3. SlimYOLOv3

专家手动设计用于对象检测器的网络体系结构。不能保证每个组件在正向推理中都起着重要作用。我们建议通过在卷积层上执行通道修剪来学习有效的深层对象检测器。具体来说，我们旨在搜索卷积层的更紧凑和有效的通道配置，以帮助减少可训练的参数和FLOP。为此，我们按照图3所示的步骤在YOLOv3中应用通道修剪以获得SlimYOLOv3。

lt;

剩余内容已隐藏，支付完成后下载完整资料

英语原文共 11 页，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[273489]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可： Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版

注册

找回密码

基于计算棒的Yolo3算法优化外文翻译资料

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章