图像超分辨率的深度展开网络外文翻译资料

 2022-08-04 21:00:45

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


图像超分辨率的深度展开网络

摘要

基于学习的单幅图像超分辨率( SISR )方法不断显示出比传统基于模型的方法更加优越的有效性和高效性,很大程度上归功于端到端的训练。但是,与基于模型的方法能够在统一MAP (最大后验估计)框架下处理不同尺度因子、模糊核和噪声水平的SISR问题不同,基于学习的方法一般缺乏这样的灵活性。针对这一问题,本文提出了一种端到端的可训练展开网络,该网络兼顾了基于学习的方法和基于模型的方法。具体来说,通过半二次分裂算法展开MAP推理,可以得到由交替求解一个数据子问题和一个先验子问题组成的固定迭代次数。然后这两个子问题可以用神经网络模块来解决,从而形成一个端到端的可训练、迭代的网络。因此,该网络继承了基于模型方法通过单一模型对不同尺度因子的模糊、含噪图像进行超分辨的灵活性,同时保持了基于学习方法的优势。大量实验证明了所提出的深度展开网络在灵活性、有效性和可推广性方面的优越性。

1.介绍

单幅图像超分辨率( SISR )是指从一幅低分辨率( LR )图像中恢复出自然而尖锐的高分辨率( HR )对应物的过程。它是低层次计算机视觉中经典的不适定逆问题之一,具有广泛的实际应用,如提高高清显示器上的图像视觉质量[ 42,53 ]和改善其他高层视觉任务的性能[ 13 ]。

尽管有几十年的研究,SISR仍需要进一步的研究,基于学术和工业的目的[ 35,64 ]。这种困难主要是由于现有SISR方法的简单退化假设与真实图像的复杂退化假设不一致[ 16 ],实际上,对于尺度因子s,经典(传统) SISR退化模型[ 17,18,37 ]假设LR图像y是HR图像x的模糊、抽取和噪声版本。数学上,他可以用

y= (xotimes;k)darr;s n 表示, (1)

其中,otimes;表示x与模糊核k的二维卷积,darr;s表示标准的s倍下采样,即对每个不同的stimes;s块保持左上方像素,舍弃其他像素,n通常被假设为标准差(或噪声水平)sigma;下的高斯白噪声( AWGN )[ 71 ]。通过为底层HR图像设置适当的模糊核、尺度因子和噪声,Eq.( 1 )可以近似多种LR图像。特别地,Eq.( 1 )在MAP框架下求解数据项与先验项组合的基于模型的方法中得到了广泛的研究。

图1 当单一的降解模型(即Eq . ( 1 ))在不同的模糊核、尺度因子和噪声的情况下,HR图像会产生不同的LR图像,缺乏学习单一的深度模型将所有的LR图像转换为HR图像的研究。

尽管基于模型的方法通常具有算法上的可解释性,但它们通常缺乏统一标准的评价准则,因为除了尺度因子外,Eq.( 1 )还涉及了模糊核和附加噪声水平。为了方便起见,研究者在不考虑模糊核和噪声水平的情况下,采用双三次插值退化[ 14,56,60 ]。然而,双三次插值退化在数学上十分复杂[ 25 ],这又阻碍了基于模型的方法的发展。为此,最近提出的SISR解决方案主要是基于学习的方法,即学习从双三次下采样LR图像到其HR估计的映射函数。的确,基于学习的方法在提高双三次退化的PSNR [ 26,70 ]和感知质量[ 31,47,58 ]方面取得了重大进展,其中基于卷积神经网络( CNN )的方法由于其强大的学习能力和并行计算的速度而最为流行。尽管如此,在应用CNNs通过单一模型解决Eq.( 1 )问题上,却鲜有研究。与基于模型的方法不同,CNNs通常缺乏通过单一端到端训练模型对不同尺度因子的模糊、含噪LR图像进行超分辨的灵活性(见图1 )。

本文提出一种深度展开超分辨率网络( USRNet ),以弥合基于学习的方法与基于模型的方法之间的鸿沟。一方面,与基于模型的方法类似,USRNet可以有效地处理经典的退化模型( Eq.( 1 ) ),通过单一模型得到不同的模糊核、尺度因子和噪声水平。另一方面,与基于学习的方法类似,USRNet可以以端到端的方式进行培训,以保证有效性和效率。为此,我们首先通过半二次分裂算法展开基于模型的能量函数。相应地,我们可以得到一个在求解两个子问题之间迭代交替的推论,一个与数据项有关,另一个与先验项有关。由于这两个子问题分别对应于强化退化一致性知识和保证去噪器先验知识,USRNet具有明确的退化和先验约束的原则,相对于现有的基于学习的SISR方法具有明显的优势。值得注意的是,由于USRNet涉及每个子问题的超参数,因此该网络包含一个额外的超参数生成模块。此外,为了减少参数的数量,所有以前的模块共享相同的体系结构和相同的参数。

这项工作的主要贡献如下:

1 )提出了一种端到端的可训练展开超分辨网络( USRNet )。USRNet是首次尝试通过一个端到端的训练模型来处理具有不同尺度因子、模糊核和噪声水平的经典退化模型。

2 ) USRNet融合了基于模型方法的灵活性和基于学习方法的优点,为弥合基于模型方法和基于学习方法之间的鸿沟提供了一条途径。

3 ) USRNet本质上对解施加退化约束(即估计HR图像应符合退化过程)和先验约束(即估计HR图像应具有自然特征)。

4 ) USRNet在不同退化设置的LR图像上表现良好,具有较大的实际应用潜力。

2 .相关工作

2.1退化模型

对退化模型的了解对于SISR的成功至关重要[ 16,59 ],因为它定义了LR图像如何从HR图像中退化。除了经典退化模型和双三次退化模型外,SISR文献中还提出了其他几种退化模型。

在一些早期的工作中,退化模型假设LR图像直接从HR图像中下采样而不模糊,这对应于图像插值问题[ 8 ];在[ 34,52 ]中,进一步假设双三次下采样图像受到高斯噪声或JPEG压缩噪声的破坏。在文献[ 15,42 ]中,退化模型关注的是高斯模糊和随后的带尺度因子3的降采样。注意,不同于Eq.( 1 )对于每个不同的3times;3补丁,它们的下采样保持中心而不是左上方像素。文献[ 67 ]中,退化模型假设LR图像是含有某种高斯噪声的模糊的、双三次降采样HR图像。文献[ 68 ]通过假设双三次下采样的干净HR图像也是干净的,将退化模型看成是对LR图像的去模糊和具有双三次退化的SISR的组合。

虽然已经提出了许多退化模型,但基于CNN的针对经典退化模型的SISR却很少受到关注,值得进一步研究。

2.2灵活的SISR方法

尽管基于CNN的SISR方法在处理双三次退化方面取得了令人瞩目的成功,但将其应用于处理其他更实际的退化模型并不简单。出于实用性考虑,更可取的是设计一种考虑尺度因子、模糊核和噪声水平3个关键因素的柔性超分辨器。

针对不同尺度因子的双三次退化问题,提出了基于单一模型的方法,如LapSR [ 30 ]的渐进上采样方法、MDSR [ 36 ]的尺度特异分支方法、Meta - SR [ 23 ]的元上采样方法。为了灵活地处理模糊LR图像,文献[ 44,67 ]提出的方法以PCA降维模糊核作为输入。然而,这些方法仅限于高斯模糊核。也许最灵活的基于CNN的作品能够处理各种模糊核、尺度因子和噪声水平,是深度即插即用的方法[ 65,68 ]。这种方法的主要思想是在MAP框架下将学习到的CNN先验插入到迭代解中。不幸的是,这些方法本质上是基于模型的方法,计算量大,而且涉及手动选择的超参数。如何设计一个端到端的可训练模型,以便在较少的迭代次数下取得更好的结果,仍未研究。

虽然基于学习的盲图像复原最近受到了相当多的关注[ 12,39,43,50,62 ],但是我们注意到这项工作集中在非盲SISR上,它假设LR图像、模糊核和噪声水平是已知的。事实上,非盲SISR仍是一个活跃的研究方向。首先,可以估计模糊的内核和噪声水平,或者根据其他信息(例如相机设置)知道。第二,用户可以通过调整模糊核和噪声水平来控制尖锐度和平滑度的偏好。第三,非盲SISR可以成为解决盲SISR的一个中间步骤。

2.3 .深度展开图像复原

除了深度即插即用方法(如[ 7,10,22,57 ] ),深度展开方法还可以集成基于模型的方法和基于学习的方法。它们的主要区别在于,后者以端到端的方式优化参数,通过最小化大型训练集上的损失函数,因此即使迭代次数较少,通常也会产生更好的结果。早期的深度展开方法可以追溯到[ 4,48,54 ],这里提出了一种基于梯度下降算法的紧致MAP推理用于图像去噪。此后,针对图像去噪[ 11,32 ]、图像去模糊[ 29,49 ]、图像压缩感知[ 61,63 ]和图像去噪[ 28 ]等不同的图像复原任务,提出了一系列基于优化算法(如半二次分裂[ 2 ]、交替方向乘子法[ 6 ]和原对偶[ 1,9 ] )的深度展开方法。

与基于简单学习的方法相比,深度展开方法具有可解释性,能够将退化约束融合到学习模型中。然而,它们大多存在以下一个或几个缺点:( i )没有使用深度CNN的前一个子问题的解不足以取得良好的性能;( ii )数据子问题没有采用闭式解,这可能会阻碍收敛。( iii )整个推论是通过分阶段、微调的方式训练的,而不是完全的端到端方式。此外,由于没有深度展开的SISR方法来处理经典退化模型,因此提出一种克服上述缺点的方法是特别感兴趣的。

3 .方法

3.1 退化模型:经典vs双立方

由于双三次退化得到了很好的研究,因此考察其与经典退化模型的关系是很有趣的。实际上,双三次退化可以通过在Eq.1中设置适当的模糊核来近似。为此,我们采用数据驱动的方法,通过最小化大HR /双三次LR对{ ( x,y ) }

上的重构误差来解决以下核估计问题。

图2 经典SISR退化模型假设下尺度因子2、3和4的近似双三次核。注意这些内核包含负值。

3.2 .展开优化

根据MAP框架,可以通过最小化下列能量函数 (3)

来估计HR图像,其中为数据项,Phi;( x )为先验项,lambda;为权衡参数。为了得到Eq.( 3 )的展开推论,半二次分裂( HQS )算法由于其简单、收敛速度快,在许多应用中被选用。HQS处理Eq.( 3 )引入辅助变量z,得到如下近似等价( 4 ) 其中micro;为惩罚参数。这样的问题可以通过迭代求解x和z的子问题来解决。

根据Eq.( 5 ),micro;应足够大,使x和z近似等于不动点。然而,这也会导致收敛缓慢。因此,一个好的经验法则是迭代增加micro;。为了方便起见,第k次迭代中的micro;用micro;k表示。

可以看出,数据项和先验项解耦分别为Eq.( 5 )和Eq .( 6 )。对于Eq.( 5 )的求解,假设卷积是用圆形边界条件进行的,可以利用快速傅里叶变换( FFT )。值得注意的是,它有一个闭式表达式,(7)

其中d定义为,,F (·)和表示FFT和逆FFT,表示F (·)的复共轭,表示逐元素乘法的分块处理算子,即对F ( k )的s times; s分块进行逐元素乘法,dArr;s表示分块下采样算子,即对s times; s分块求平均,uarr;s表示标准s重上采样算子,即对stimes;s分块求平均,也就是说,通过用零填充新的条目来重新采样空间大小。特别值得注意的是,Eq.( 7 )亦适用于s = 1时的特殊情况。对于Eq.( 6 )的求解,可知,从贝叶斯角度来看,它实际上对应着一个含噪声水平[10]的去噪问题。

3.3 深入展开的网络

一旦确定展开优化,下一步就是设计展开超分辨率网络( USRNet ),因为展开优化主要是迭代求解一个数据子问题(即Eq.( 5 ) )和先前的子问题(即Eq.( 6 ) ),USRNet应在数据模块D和先前模块P之间交替使用。此外,由于子问题的求解也分别以超参数alpha; k和beta; k为输入,在USRNet中引入了超参数模块H。图3给出了K次迭代USRNet的总体架构,其中K为速度-精度权衡经验设定为8。接下来,提供更多关于D、P和H的细节。

数据模块D 数据模块起到Eq.( 7 )的作用是数据子问题的闭式解。直观地,其目的是寻找更清晰的HR图像,使数据项和二次正则项的加权组合与权衡超参数alpha;k最小。由于数据项对应于退化模型,因此数据模块不仅具有以尺度因子s和模糊核k作为输入的优势,而且对解施加退化约束。实际上,手工设计这样一个简单但实用的多输入模块是很困难的。为简洁起见,Eq.( 7 )改写为

。( 8 )

注意x0是通过最简单的最近邻插值用尺度因子s插值y来初始化的。值得注意的是,Eq.( 8 )不包含可训练的参数,这反过来由于数据项与前项完全脱钩,使其具有更好的通用性。对于实现,我们使用了PyTorch,其中主要的FFT和逆FFT运算符可以分别由torch. rfft和torch. irfft实现。

事先模块P 事先模块的目标是通过带噪声级beta;k的去噪器将zk传递给一个更干净的HR图像xk。受文献[ 66 ]的启发,我们提出了一种深度CNN去噪器,它以噪声水平为输入。( 9 )

提出的去噪器ResUNet将残差块[ 21 ]集成到U-Net [ 45 ]中,U-Net被广泛用于图像到图像的映射,而ResNet由于其训练速度快、容量大、残差块多而受到欢迎。ResUNet以级联的zk和噪声水平图作为输入,输出去噪后的图像xk。这样,ResUNet可以通过单一模型处理各种噪声水平,显著减少了参数总数。在U-Net的共同设置之后,ResUNet涉及四个尺度,每个尺度在降尺度和升尺度操作之间都有一个标识跳转连接。具体来说,从第一个比例尺到第四个比例尺每一层的信道数分别设置为64、128、256和51

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[262973],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。