基于端到端卷积神经网络的视频去雨外文翻译资料

 2022-08-24 11:39:21

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


基于端到端卷积神经网络的视频去雨

摘要:

现有的视频雨线去除方法利用各种人工模型来表示雨线的外观,并且只使用卷积神经网络(CNN)作为后处理部分来补偿传统去雨线操作所造成的像失准这样的伪影。然而,这些人工模型只适用于某些特定场景,因为雨线的分布是复杂和随机的。并且,因为卷积神经网络和先前传统的去雨操作不能一起训练,所以卷积神经网络的输出仍然存在伪影。为了解决这些问题,我们提出了一个称为EEVRSR网络的端到端的视频雨线去除CNN网络。合成数据和实际数据的实验结果表明,与现有方法相比,所提出的EEVRSR网络在速度和效率上都取得了更好的性能。

1 引言:

在雨天户外视觉系统拍摄到的视频不可避免地包含大量的雨线,导致背景场景的对比度降低和拍摄的场景内容被遮挡。这不仅影响视觉体验,而且还会降低后续计算机视觉任务的性能。例如目标识别、追踪、行人识别。因此在计算机视觉领域,去除视频雨线是一个重要课题。

有两种视频去雨的方式,基于图像去雨和基于视频去雨。基于图像的方法从单幅雨天图像中恢复出清晰的图像,并通过逐帧的方式实现视频雨线的去除。基于视频的方法借助当前雨帧的多个相邻帧从当前雨帧中恢复清晰的图像。由于相邻帧可以提供关于被遮挡场景的更可靠的细节,基于视频的方法更有可能获得更好的去雨结果[5]。在这篇论文中,我们重点研究基于视频的方法。

由于雨线分布随机且移动迅速,相邻帧的相同场景并不总是被雨线遮挡。在基于视频的方法中,连续帧之间的强度波动通常用于检测雨线[6]。然而,移动的相机和物体也可能导致强度波动,这使得难以在保持原始图像背景结构和纹理的同时去除雨线。

图1 提出的的EEVRSR网络框架

为了区分雨线,早期的工作提出了雨线的各种属性,例如色度属性[7]、几何属性[8]、相位属性[9]和动态属性[10]。但是这些手动设计的特定先前结构对于某些特定场景可能会失败,因为它们通常不能表示各种复杂的雨线[11]。最近,基于学习的模型被用来表示雨线,例如稀疏编码[12]、[13]、高斯混合模型[11]和马尔可夫随机场[14]。然而,这些传统方法中的大多数([8],[10],[11],[12],[13],[14])需要在线迭代优化算法来估计优化的模型参数,这是很耗时的。最近,陈等人[5]第一次利用卷积神经网络进行视频雨线的去除,并取得很好的表现。然而,他们的卷积神经网络(CNN)仅用作后处理部分,以补偿由传统去雨操作引起的错位模糊。由于CNN网络和以往的传统去雨操作无法共同训练,其性能受到以往传统去雨操作的限制。而且他们的CNN网络的输出经常会留下一些未对准的伪影。

为了解决上述问题,并受到卷积神经网络在许多计算机视觉任务中的出色表现的启发,[15],[16]由于其捕捉统计图像特征的能力和快速的测试速度,我们提出了一个端到端的卷积神经网络用于视频雨线去除。此外,为了向所提出的去雨网络输入更多相关的时间信息以获得更好的去雨性能,我们在去雨网络之前添加运动补偿(MC)网络以补偿当前雨帧与其相邻帧之间的运动。因此,我们最终提出的端到端视频雨线消除网络称为EEVRSR网络,它由两个子网络组成,一个运动补偿子网络(MC子网络)和一个去雨子网络(DR子网络)。实验结果表明,与现有方法相比,本文提出的EEVRSR网络在除雨精度和运行速度方面都取得了较好的性能。消融研究被进一步构建,以证明运动补偿子网络和去雨子网络的有效性。

2 提出的的方法

(我们)所提出的EEVRSR网络的框架如图1所示,它由一个MC子网和一个DR子网组成。MC子网络被用来补偿当前雨帧与其相邻帧之间的时间运动。具体来说,MC子网首先预测当前雨帧与其相邻帧之间的时间运动。然后,根据相邻帧的估计时间运动,使用空间变换器对相邻帧进行变形。这样,当前雨帧与其相邻帧之间的运动位移被减小甚至消除。它确保后续卷积可以利用尽可能多的时间相关性。在此基础上,我们提出了一种具有早期融合时空结构的DR子网,用于视频雨线的去除。在DR子网中,当前的雨帧及其补偿的相邻帧都是输入。因此,可以在补偿的相邻帧的帮助下去除当前雨帧的雨线。注意,在提出的EEVRSR网络中,MC子网和DR子网可以单独和联合训练。每个子网的详细信息和训练步骤将在下面介绍。

2.1 运动补偿子网(MC子网)

在[17]中,Caballero等人提出了一种有效的多帧超分辨率MC网络模块,称为空间变换运动补偿(STMC)。与其它MC网络相比,它具有较少的参数。因此,我们选择它作为MC子网的主要框架。如图2所示,STMC首先使用跨步卷积和亚像素卷积来估计当前帧与其相邻帧之间的粗略MV标记为MVcoarse和精细MV标记为 MVfine。然后,根据MVcoarse和MVfine的总和,利用空间变换器对相邻帧进行变形。关于更多细节,请参阅[17]。

直观地说,较大的感受野可以估计较大的运动,因为较大的感受野能够捕获更多的结构信息。考虑到大范围的全局和局部运动位移,以及大范围雨线的遮挡,我们在STMC的顶部叠加了一个附加的卷积层来进行大规模的MV估计。附加层是基于核尺寸较大的粗略MV估计层而设计的,因此具有较大的感受野。附加层的参数如图2所示。

图2 运动补偿子网的网络结构

注意MC子网也在一定程度上减少了运动相机和物体引起的强度波动,这有助于保持原始图像的背景结构和纹理。

2.2去雨子网(DR子网)

不同于基于CNN的图像雨线去除,它只能利用当前雨帧内的空间信息,DR子网可以利用相邻帧间的附加时间信息。为了充分利用时空信息,我们采用了早期融合的时空结构,即通过在时间轴上串联所有的输入帧,在开始时折叠所有的时间信息。实践证明,利用网络的全容量联合处理所有的时间信息,可以充分利用网络资源[17]。

此外,为了使学习过程更加容易,采用了残差学习结构[18]。与直接学习去雨帧相比,学习残差可以显著减少网络的映射范围[19]。在所提出的DR子网中,在最后一个卷积层之后输出残差图像。然后将残差图像加入到输入的当前雨帧中,得到最终的去雨帧。

我们按照传统去雨方法的基本思想,设计了一个高效、紧凑的DR子网,它可以分为3个步骤:1)用不同特征表示雨线和背景场景;2) 分离特征以去除雨线;3)从分离的特征重建背景场景。然而,最终的性能在很大程度上取决于所提出特征的类型。网络越深,提取的特征越明显,运行时间越长。为了得到一个快速准确的去雨网络,我们采用密集块[20]进行特征提取,它可以通过密集连接的卷积层,使用比传统的前向卷积网络更少的参数提取丰富的局部特征。

所提出的DR子网的最终结构如图3所示。首先,设计了核大小为7times;7的卷积层Conv1来联合提取大规模的时空特征。其次,利用稠密块从大规模时空特征中提取复杂特征。再次,通过BN、ReLU和Conv2将复杂特征分离。第四,利用分离后的特征通过BN、ReLU和Conv2重建残差图像。最后,将重建后的残差图像加入到当前雨帧中,得到去雨帧。DR子网的参数见表1。

图3 去雨子网的网络结构

表1 去雨子网的卷积层

2.3 训练策略

为了避免过拟合,简化训练过程,我们将训练过程分为三个步骤,而不是直接训练整个EEVRSR网络。

我们通过最小化当前帧It和最终补偿的相邻帧It k之间的MSE来训练MC子网的参数theta;MC。损失函数可以表示为

注意,由于被雨水遮挡的像素的干扰,使用下雨图像作为训练数据集将导致MC子网学习估计错误的MV映射。因此,我们在原始无雨图像的监督下训练MC子网。

其次,我们将训练后的MC子网参数固定下来,训练DR子网的参数theta;DR。假定It和Ittrain分别定义为原始无雨帧和相应的合成雨帧。 Rt是DR子网最后一个卷积层的输出。损失函数可以表示为

接着,为了更好地结合MC子网和DR子网,我们同时微调整个EEVRSR网络的参数。 损失函数可以表示为

图4 在合成的有雨视频中不同雨线去除方法的视觉比较。建议使用电子放大

3 实验

我们评估了提出的EEVRSR网络在合成视频和真实视频上的性能,并将其与三种最新的雨线去除方法进行了比较,包括基于图像的方法深层细节网络(DDN)[19],传统 基于视频的方法基于张量的判别固有先验(TDIP)[23],以及将传统的基于视频的方法与CNN网络相结合的超像素内容对齐和补偿CNN(SPAC-CNN)[5]。

3.1合成视频结果

为了建立综合测试数据集,避免同一视频中不同镜头风格相似的情况,我们从[5]中选择了3个空间分辨率为640times;480的无雨视频,从Derf的集合[24]中选择了3个空间分辨率为352times;288的无雨视频。对于每个视频,我们使用“Adobe After Effects”合成不同的雨外观[25]。

定量结果见表2。如表2所示,与其他去除雨线的方法相比,所提出的EEVRSR网在PSNR和SSIM方面都获得了更好的量化性能。请注意,这些合成测试视频涵盖了不同的运动情况。定量结果表明,所提出的EEVRSR网络在不同的运动情况下都有良好的性能。

为了定性地证明所提出的EEVRSR网在合成数据上所取得的改进,图4给出了两个不同合成雨视频的去雨结果的视觉比较。可见,DDN结果中仍存在明显的雨线,TDIP结果明显模糊。尽管SPAC-CNN能够去除大部分的雨线,但它也去除一些细节。总体而言,提出的EEVRSR网在保留较好细节的同时,几乎消除了所有的雨线,这与定量结果是一致的。

3.2真实视频结果

对于真实的测试数据集,我们从Youtube [26],GIPHY [27],电影剪辑和[5]收集了6个真实的雨天视频。

去雨结果的两个示例如图5所示。可以观察到,基于图像的方法DDN不能去除不透明的雨线,或者使图像细节过度平滑,比如人脸。 这是不可避免的,因为DDN缺少时间信息来获取被遮挡的场景。 移动速度快时,TDIP的结果会严重模糊。 这是合理的,因为TDIP是基于背景低等级的假设而设计的,它不适用于动态场景。 SPAC-CNN可以成功消除大多数雨水痕迹,而不会出现严重的模糊,但可以使图像细节(例如男人的耳朵和红色汽车的车轮)过平滑。 此外,SPAC-CNN的结果可能在运动较大的区域(如右眼的区域)中包含未对准的伪影。 相比之下,提出的的EEVRSR网络在有效去除雨线和保留图像细节方面都取得了更好的结果。更多真实数据的实验结果将在补充材料中介绍。

表2 在PSNR和SSIM项目中,不同视频雨线去除方法对合成雨视频的定量结果

图5 真实雨视频中不同雨条去除方法的视觉比较,建议使用电子放大

3.3 运行时间

从表3中可以看出,提出的EEVRSR网络比其他基于视频的方法要快得多,并且可以与基于图像的方法DDN相提并论。

表3 在100张尺寸为352times;288的图像上的平均运行时间

3.4 消融研究

为了证明MC子网的贡献是合理的,我们单独训练了一个新的DR子网而不使用MC子网,并将其直接用于测试数据。 单独的DR子网的PSNR和SSIM结果如表2所示。它表明MC子网确实可以帮助提高去雨性能。此外,请注意,尽管单个DR子网的PSNR和SSIM低于EEVRSR网络的PSNR和SSIM,但高于表2中所有其他比较方法的PSNR和SSIM,这证明了所建议的DR子网的效率。

4 结论

本文提出了一种端到端的视频雨线去除CNN网络,称为EEVRSR网络。 EEVRSR网络包含两个子网:MC子网和DR子网。MC子网补偿当前雨帧与其相邻帧之间的时间运动,从而为后续的卷积提供更多的时间相关性。DR子网采用早期融合的时空结构和密集块进行特征提取,然后在补偿后的相邻帧的帮助下消除当前帧中的雨线。 合成和真实数据的实验结果表明,所提出的EEVRSR网络在有效性和速度上均优于当前方法。消融研究证明,MC子网确实可以帮助提高去雨性能。

参考文献:

1. Y. Li, R. T. Tan, X. Guo, J. Lu, M. S. Brown, 'Rain streak removal using layer priors', Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2736-2744, 2016.

2. R. Girshick, J. Donahue, T. Darrell, J. Malik, 'Rich feature hierarchies for accurate object detection and semantic segmentation', Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 580-587, 2014.

3. K. Zhang, L. Zhang, M. H. Yang, 'Real-time compressive tracking', Euro

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235313],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。