4 Applications Using GANs
As discussed in earlier sections, GAN is a very powerful generative model in that it can generate real-like samples with an arbitrary latent vector z. We do not need to know an explicit real data distribution nor assume further mathematical conditions. These advantages lead GAN to be applied in various academic and engineering fields. In this section, we discuss applications of GANs in several domains.
Figure 12: Paired image translation results proposed by pix2pix [52]: converting Cityscapes labels into real photo compared to ground truth. Images from pix2pix [52].
4.1 Image
4.1.1 Image translation
Image translation involves translating images in one domain X to images in another domain Y . Mainly, translated images have the dominant characteristic of domain Y maintaining their attributes in the original images. Image translation can be categorized into supervised and unsu- pervised techniques such as the classical machine learning.
4.1.1.1 Paired two domain data
Image translation with paired images can be regarded as supervised image translation in that an input image x isin; X to be translated always has the target image y isin; Y where X and Y are two distinctive domains. Pix2pix [52] suggests an image translation method with paired images using a CGAN framework in which a generator produces a corresponding target image conditioned on an input image as seen in Figure 12. In contrast, Perceptual Adversarial Networks (PAN) [127] add the perceptual loss between a paired data (x, y) to the generative adversarial loss to transform input image x into ground-truth image y. Instead of using the pixelwise loss to push the generated image toward the target image, it uses hidden layer discrepancies of the discriminator between an input image x and ground truth image y. It tries to transform x to y to be perceptually similar by minimizing perceptual information discrepancies from the discriminator.
4.1.1.2 Unpaired two domain data
Image translation in an unsupervised manner learns a mapping between two domains given unpaired data from two domains. CycleGAN [145] and discover cross-domain relations with GAN (DiscoGAN) [57] aim to conduct unpaired image-to-image translations using a cyclic consistent loss term in addition to an adversarial loss term.With a sole translator G:X→Y,GAN may learn meaningless translation or mode collapse,resulting in an undesired translation.To reduce the space of mapping of the generator,they adopt another inverse translator T:Y→X and introduce the cyclic consistency loss which encourages T(G(x))asymp;x and G(T(y))asymp;y so that each translation finds a plausible mapping between the two domains as mentioned in Section 2.1.3.1. Their methods can be interpreted in a similar manner described in Section 3.2.1 in that they add a supervised signal for reconstruction.
Attribute guided image translation was also considered to transfer the visual characteristic of an image.Conditional CycleGAN[75] utilizes CGAN with a cyclic consistency framework.Kim et al.[58]attempted to transfer visual attributes.In addition to the cyclic consistency of an image, they also added an attribute consistency loss which forces the transferred image to have a target attribute of the reference image.
4.1.2 Super resolution
Acquiring super resolution images from low resolution images has the fundamental problem
that the recovered high-resolution image misses high-level texture details during the upscaling of
the image. Ledig et al. [65] adopted a perceptual similarity loss in addition to an adversarial loss, instead of pixelwise mean-squared error loss. It focuses on feature differences from the intermediate layer of the discriminator, not pixelwise because optimizing pixel-wise mean squared error induces the pixelwise average of a plausible solution, leading to perceptually poor smoothed details and it is not robust to drastic pixel value changes.
4.1.3 Object detection
Detecting small objects in an image typically suffers from low-resolution of an object, and thus, it is necessary to train models with images of various scales similar to You Look Only Once (YOLO) [101] and Single Shot Detection (SSD) [96] methods. Notably, Li et al. [69] tries to transform a small object with low resolution into a super resolved large object to make the object more discriminative. They utilized a GAN framework except decomposed the discriminator into two branches, namely, an adversarial branch and a perceptual branch. The generator produces a real-like large-scale object by the typical adversarial branch while the perceptual branch guarantees that the generated large-scale object is useful for the detection.
Ehsani et al. [28] proposed another framework to detect objects occluded by other objects in an image. It uses a segmentor, a generator, and a discriminator to extract the entire occluded-object mask and to paint it as a real-like image. The segmentor takes an image and a visible region mask of an occluded object and produces a mask of the entire occluded object. The generator and the discriminator are trained adversarially to produce an object image in which the invisible regions of the object are reconstructed.
4.1.4 Object transfiguration
Object transfiguration is a conditional image generation that replaces an object in an image with a particular condition while the background does not change. Zhou et al. [144] adopted an encoder-decoder structure to transplant an object, where the encoder decomposes an image into the background feature and the object feature, and the decoder reconstructs the image from the background feature and the object feature we want to transfigure. Importantly, to disentangle the encoded feature space, two separated training sets are required where one is the set of images having the object and the other is the set of images not having the object.
In addi
剩余内容已隐藏,支付完成后下载完整资料
4 GAN的应用
如前几节所述,GAN是一个非常强大的生成模型,它可以生成具有任意潜在向量z的类实样本。我们不需要知道显式的实数据分布,也不需要假设进一步的数学条件。这些优点使GAN在各个学术和工程领域得到了广泛的应用。在本节中,我们将讨论GANs在一些领域中的应用。
4.1 图像
4.1.1 图像翻译
图像转换包括将一个域X中的图像转换为另一个域Y中的图像。翻译后的图像主要具有域Y的显性特征,保持了它们在原始图像中的属性。图像翻译可以分为有监督和无监督技术,如经典的机器学习
4.1.1.1 双域中成对的数据
成对图像的图像翻译可以看作是有监督的图像翻译,因为要翻译的输入图像xisin;x总是有目标图像yisin;y,其中x和y是两个不同的域。Pix2pix[52]提出了一种使用CGAN框架的成对图像的图像转换方法,在CGAN框架中,生成器根据输入图像生成相应的目标图像,如图12所示。相比之下,感知对抗网络(PAN)[127]将成对数据(x,y)之间的感知损失加上生成对抗损失,将输入图像x转化为地面真实图像y。它并不是使用像素损失将生成的图像推向目标图像,而是利用判别器在输入图像x和地面真值图像y之间的隐藏层差异。尝试通过最小化判别器的感知信息差异,将x变换为y,使其在感知上相似。
图12 :pix2pix提出的成对图像转换结果[52]:将城市景观标签转换为真实照片,与地面真实情况进行比较。图像来自pix2pix[52]。
4.1.1.2 Unpaired two domain data
在无监督学习方式下的图像翻译是从两个域中的未配对数据中学习这两个域之间的映射关系。CycleGAN[145]和发现与GAN(DiscoGAN)[57]的跨域关系的目的是使用循环一致损失项和对抗性损失项进行未配对的图像到图像翻译。使用单独的翻译器G:X→Y,GAN可能只会学习到无意义的翻译或者是出现模式崩溃,为了缩减生成器的映射空间,他们采用了另一个逆转换器T:Y→X,并引入了循环一致性损失,激励T(G(X))asymp;X和G(T(Y))asymp;Y,这样每一个转换都能找到第2.1.3.1节中提到的两个域之间的合理映射。它们的方法可以用第3.2.1节中描述的类似方式来解释,它们添加了用于重建的监督信号。
属性引导的图像翻译也被认为能够传递图像的视觉特征。条件CycleGAN[75]使用具有循环一致性框架的CGAN。Kim等人[58]试图传递视觉属性。除了图像的循环一致性之外,它们还添加了一个属性一致性损失,强制使传输的图像具有参考图像的属性。
4.1.2 超分辨
从低分辨率图像中获取超分辨率图像的根本问题是,在图像提高分辨率的过程中,恢复的高分辨率图像会丢失高层次的纹理细节。Ledig等人。[65]除了对抗性损失之外,还采用了知觉相似性损失,而不是像素级的均方误差损失。它关注的是与鉴别器中间层的特征差异,而不是像素级的,因为优化像素级的均方误差会导致输出似是而非模棱两可的图片,从而导致感知上的平滑细节比较差,并且对像素值的剧烈变化不够具有鲁棒性。
4.1.3 目标检测
检测图像中的小对象通常会受到分辨率较低的对象的影响,因此,有必要使用与You Look Only Once(YOLO)[101]和单镜头检测(SSD)[96]方法类似的各种比例的图像来训练模型。值得注意的是,Li等人[69]尝试将低分辨率的小对象转换为超分辨率的大对象,以使该对象更具区分性。他们使用了一个GAN框架,将鉴别器分解为两个分支,即对抗分支和感知分支。生成器通过典型的对抗分支产生一个真实的大尺度对象,而感知分支则保证生成的大尺度对象对检测是有帮助的。
Ehsani等人[28]提出了另一种检测图像中被其他物体遮挡的物体的框架。它使用一个分段器、一个生成器和一个鉴别器来提取整个被遮挡对象的遮蔽物,并将其绘制为一个真实的图像。分割器获取被遮挡对象的图像和可见区域的遮蔽,并生成整个被遮挡对象的遮蔽物。对生成器和鉴别器进行对抗性的训练,以产生不可见的区域已经被重构的新的图像。
4.1.4 对象迁移
对象迁移是一种条件图像生成,在背景不变的情况下用特定条件替换图像中的对象。Zhou等人[144]采用编码器-解码器结构移植对象,编码器将图像分解为背景特征和对象特征,解码器根据背景特征和我们要转换的对象特征重建图像。重要的是,为了分离编码特征空间,需要两个分离的训练集,其中一个是具有对象的图像集,另一个是不具有对象的图像集。
此外,GAN可以应用于图像混合任务,该任务将一个对象植入另一个图像的背景中,使合成的复制粘贴图像看起来更逼真。Gaussian Poisson GAN(GP-GAN)[132]提出了使用GAN的高分辨率图像混合框架和基于梯度的经典图像混合方法[31]。它使用GAN将图像分解为低分辨率但混合良好的图像,使用梯度约束细化图片的纹理和边缘。然后,使用GP-GAN尝试通过优化高斯Poisson方程[95]来组合信息,以生成高分辨率的良好混合图像,同时保持捕获的高分辨率细节。
4.1.5 联合图像生成
GAN可用于同时生成多个域的图像。耦合GAN[74]提出了一种通过几对GAN之间的权重共享技术联合生成多域图像的方法。它首先采用GAN对来匹配我们想要生成的域的数量。然后,它共享表示高级语义的每个GAN对的某些层的权重。因此,它试图从边缘域分布中提取样本来学习多域的联合分布。应该注意的是,由于它的目标是生成共享高层次抽象表示的多域图像,因此从广泛的角度来看,每个域的图像必须非常相似。
4.1.6 视频生成
在这一段文字中,我们将讨论生成视频的GAN。一般来说,视频由相对静止的背景景物和动态的物体运动组成。视频GAN(VGAN)[125]考虑两个流形的生成器。一个使用3D-CNN(卷积神经网络)的移动前景产生器预测可能的未来帧,而一个静态背景生成器使用2D-CNN使背景静止。pose-GAN[126]采用VAE和GAN结合的方法。它使用一个V-AE方法来估计未来的物体运动,估计的条件是当前的物体姿态和过去姿态的一些隐藏的表示。对于渲染的将来姿态的视频和剪辑图像,它使用3D CNN的GAN框架生成未来帧。最近,运动与内容GAN(motion and content GAN,MoCoGAN)[122]提出对隐空间的内容部分和运动部分进行分解,特别是用RNN对运动部分进行建模以获取时间依赖性。
4.2 序列生成
生成离散值的GAN变体大多借用RL的策略梯度算法,以避免离散值的直接反向传播。要输出离散值,生成器作为函数,需要将隐变量映射到元素不连续的域中。但是,如果我们将反向传播作为另一个连续的值生成过程,则生成器会被鉴别器稳定地引导生成真实的数据,而不是突然跳到目标离散值。因此,生成器的这种微小变化不容易寻找有限的实际离散数据域[141]。
此外,在生成音乐或语言等序列时,我们需要逐步评估部分生成的序列,以衡量生成器的性能。然而,传统的GAN框架只能评估整个生成的序列,除非为每一步都设置一个判别器。但这也可以通过策略梯度算法来解决,因为RL能自然地处理代理的顺序决策过程。
4.2.1 音频
当我们想要产生音乐时,我们需要一步一步地产生音乐的音符和音调,而这些元素并不是连续的值。一种简单而直接的方法是连续RNN-GAN(C-RNN-GAN)[83],它将生成器和判别器都建模为具有长短期记忆(LSTM)[46]的RNN,直接提取整个音乐序列。然而,如上所述,我们只能评估整个序列,而不能评估部分生成的序列。此外,由于没有考虑音乐元素的离散性,其结果并不十分令人满意。
相反,序列GAN(SeqGAN)[141]、物体增强GAN(ORGAN)[41]和Lee等人[66]采用了策略梯度算法,而不是一次生成整个序列。SeqGAN的结果如图13所示。他们将生成器的输出作为代理的策略,并将鉴别器的输出作为奖励。使用鉴别器选择奖励是一种自然的选择,因为生成器从鉴别器获得大量输出(奖励),类似于在强化学习中通过代理学习获得大量奖励。此外,ORGAN与SeqGAN略有不同,在奖励函数中增加了硬编码,以实现指定的目标。
4.2.2 语言和语音
RankGAN[73]提出了语言(句子)生成方法和排序器(ranker),而不是传统的鉴别器。在自然语言处理中,除了要考虑自然语言的真实性外,还要考虑自然语言的表达能力。因此,RankGAN采用了生成句和人类书写的参考句之间的相对排序概念。生成器尝试将生成的语言样本的rank值变高,而排序器目标是判定人类书写的句子的排名分数高于机器书写的句子。当生成器输出离散符号时,它同样采用类似于SeqGAN和ORGAN的策略梯度算法。在RankGAN中,生成器可以被解释为预测下一步符号的策略,rank分数可以被认为是给定过去生成序列的值函数。
变分自编码Wasserstein GAN(VAW-GAN)[48]是一种结合GAN和VAE框架的语音转换系统。编码器推断出源语音的语音内容z,解码器根据目标说话人的信息y合成转换后的目标语音,类似于条件VAE[135]。如第3.2.2节所述,由于对高斯分布的过度简化假设,VAE会产生尖锐的结果。为了解决这个问题,VAW-GAN采用了WGAN[5],类似于V AEGAN[64]。通过将解码器分配给生成器,它能在给定说话人表示的情况下重建目标语音。
4.3 半监督学习
半监督学习是在有标记和无标记数据的情况下,利用无标记数据来提高分类性能的一种学习方法,在大数据时代,存在着数据量太大而无法标记所有数据,或者标记成本太高的普遍情况。因此,经常需要用一个只有一小部分数据具有标签的数据集来训练模型。
4.3.1 利用判别器进行半监督学习
基于GAN的半监督学习方法[104]演示了如何在GAN框架上使用未标记和生成的数据。生成的数据被分配给一个K 1类,超过了标记数据的1到K类。对于标记的真实数据,鉴别器对其正确的标签(1到K)进行分类。对于未标记的真实数据和生成的数据,它们是用GAN极小极大对策训练,其训练目标可以表示为:
其中Ls 和Lus 分别代表标记数据和未标记数据的损失函数。值得注意的是,由于只有生成的数据被分类为K 1类,我们可以将Lus 看作GAN标准的极大极小化问题。未标记的数据和生成的数据用于通知模型实际数据所在的空间。换言之,无监督的损失能用于指导被标记数据的监督学习的最优解位置。
分类GAN(CatGAN)[115]提出了一种具有鲁棒性的分类算法,在这个算法中生成器对其进行正则化。鉴别器没有区分真假的分类头,训练有三个要求:小条件熵H(y|x) 对真实数据进行正确的类分配;大条件熵H(y|G(z))对生成的数据进行不同的类分配;大熵H(y)对生成的数据进行不同的类分配,在x、y和G(z)分别是真实数据、标签和生成数据的类上,具有一致先验p(y)假设的一致边际分布。同时,对生成器进行了两个要求的训练:小条件熵H(y|G(z))使生成数据的类分配确定;大熵H(y) 生成类上均匀分布的样本。未标记的数据和生成的数据通过生成器的对抗行为平衡这些类来帮助分类,因此有助于半监督学习。
4.3.2 带辅助分类器的半监督学习
半监督学习中的上述GAN变体存在两个问题:一是鉴别器有两个不相容的收敛点,一个用于鉴别真假数据,另一个用于预测类标签;二是生成器无法生成特定类中的数据。Triple GAN[67]通过一个三者公式来解决这两个问题:生成器G、鉴别器D和分类器C。该模型如图14所示,其中(Xg, Yg)sim;pg(X, Y ), (Xl, Yl)sim;p(X, Y ), 和(Xc, Yc)sim;pc(X, Y )指生成的数据、标记的数据和带有预测标签的未标记数据,CE是交叉熵损失。综上所述,Triple-GAN采用了一种辅助分类器,能够对真实标记数据和标记条件生成的数据进行分类,让判别器不用再对数据进行分类。此外,Triple-GAN生成基于Yg的数据,这意味着它可以生成特定标签的数据。
4.4 域适应
域适应是一种迁移学习,它试图将数据从一个域(即源域)自适应到另一个域(即目标域),而分类任务性能则保留在目标域中[93]。形式上,无监督域适应解决了以下问题:对于输入数据x及其标签y,在xtimes;y上定义源域分布DS(x, y)和目标域分布DT(x, y),其中x和y分别是数据空间和标签空间的集合。在给定标记源域数据(xs, ys) isin;DS(x, y) 和未标记目标域数据xtisin;DT(x)(DT(x, y)的边缘分布)的情况下,无监督域适应的目的是学习一个在目标域中分类良好的函数h:x→y,而不需要目标域数据xt的标记信息。
4.4.1 基于GAN的特征空间对齐域适应
域适应的主要困难是源分布和目标分布的差异,称为域偏移。这个域偏移允许仅使用源数据训练的分类器在目标域中失败。解决域偏移的方法之一是将每个域数据投影到公共特征空间,其中投影数据的分布是相似的。已有一些研究实现了基于GAN的域适应任务的公共特征空间。
领域对抗性神经网络(DANN)[2]首先使用GAN来获得领域的固定特征,使其在对分类任务仍然具有区分性的情况下,不区分来自源域还是目标域。有两个组件共享特征提取程序,一个是对数据标签进行分类的分类器。另一个是一个域判别器,用于识别数据的来源。特征生成
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236568],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。