Text2Scene:根据文本描述生成合成场景外文翻译资料

 2022-08-15 17:13:14

英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料


Text2Scene:根据文本描述生成合成场景

弗吉尼亚大学国际商业机器公司托马斯·j·沃森研究中心。1 2 1 12

fuwen.tan@virginia.edu, sfeng@us.ibm.com, vicente@virginia.edu

摘要

我们提出了Text2Scene模型,该模型解释输入的自然语言描述,以生成各种形式的合成场景表示;从抽象的卡通场景到合成的图像。与最近的研究不同,我们的方法不使用生成式对抗网络,而是将编码-解码器模型与基于半参数检索的方法相结合。Text2Scene通过关注输入文本的不同部分和生成场景的当前状态,学会在每个时间步上依次生成对象及其属性(位置、大小、外观等)。我们证明,在较小的修改下,所提出的框架可以处理生成不同形式的场景表示,包括卡通场景、与真实图像对应的对象布局和合成图像组合。与最先进的基于ganbased的自动度量方法和基于人类判断的高级方法相比,我们的方法不仅具有竞争力,而且更具有一般性和可解释性。

1.介绍

从文本描述生成图像最近成为一个活跃的研究主题[15,29,39,38,36,13]。这一兴趣部分是由于采用了生成对抗网络[9],它在许多图像合成任务中显示了令人印象深刻的结果。从文本中合成图像还需要一定的语言和视觉理解能力,这可以通过自然语言查询、文本表示学习、自动计算机图形和图像编辑应用程序实现图像检索。

在这项工作中,我们引入了Text2Scene,一个模型来解释视觉描述语言中的重要语义,以生成合成场景表示。我们特别关注于生成一个场景表示,它由一组对象及其属性(参数、大小、纵横比、姿态、外观)组成。我们调整和训练模型来生成三种类型的场景

图1所示。我们的Text2Scene模型的示例输入(左)和输出(中),以及用于生成抽象场景(上)、对象布局(中)和合成图像复合(下)的地面真相参考场景(右)。

实况如图1所示,(1)卡通场景从抽象数据集[41]的对象包括位置、大小、纵横比、方向,并提出(2)对象的场景布局的可可数据集[22]对象包括位置、大小、纵横比,和(3)复合材料合成图像场景在可可数据集[22]对象包括位置、大小、纵横比、pixel-appearance。我们提出了一个统一的框架来处理这三个看似不同但具有独特挑战的任务。我们的方法,不像最近的方法,不依赖于生成敌对网络(GANs)。相反,我们生成一个可解释的模型,该模型通过在每个步骤中预测和添加一个新对象来迭代地生成场景。我们的方法优于在抽象场景[41]中报告的最佳结果,并在自动评价指标下提供了接近于最先进的COCO[22]性能,并且优于由人类进行评价时的最先进的性能。

arXiv: 1809.01110 v2 (cs。2019年1月5日

1

图2。Text2Scene的概述。我们的总体框架包括(1)一个文本编码器产生的顺序表示输入,(2)一个图像编码器编码生成的场景的当前状态,(3)卷积复发模块跟踪,对于每个空间位置,所生成的历史到目前为止,(4)两个关注模块顺序,注重输入文本的不同部分,首先决定什么对象,然后决定哪些属性分配对象,(5)可选的前景嵌入步骤,该步骤学习用于合成图像生成任务中的patch检索的外观向量。

为场景生成生成丰富的文本表示是一项具有挑战性的任务。例如,输入文本描述可能只是间接地暗示属性的存在(例如,在图1中的第一个例子中,输入文本“Mike is surprised”应该改变生成对象“Mike”的面部属性)。文本描述也经常包含有关相对空间配置的复杂信息(例如,在图1的第一个例子中,输入文本“Jenny正在向Mike和鸭子跑去”使得“Jenny”的方向依赖于“Mike”和“duck”的位置)。在图1的最后一个例子中,“大象一起走在一条线上”的文字也暗示了场景中物体的整体空间配置。

我们模型text-to-scene任务使用一个序列,序列方法最初顺序对象被放置在一个空白的画布上(见图2)概述。一般来说,Text2Scene,由一个文本编码器输入句子映射到一组嵌入表示,一个解码器,预测未来对象条件在当前场景状态,译码器和一个属性,决定了预测对象的属性。

我们的Text2Scene模型在抽象场景[41]生成上提供了最先进的结果,在COCO[22]上提供了接近最先进的合成图像生成结果。据我们所知,Text2Scene是第一个展示其在抽象和真实图像上的能力的模型,从而为未来跨域转移学习的工作提供了可能性。

我们的主要贡献可以总结如下:bull;我们提出了Text2Scene,一个从输入语言描述生成合成场景表示的框架。

bull;我们展示了Text2Scene可以在较小的修改下生成不同形式的场景表示,包括卡通场景、与真实图像对应的语义布局和合成图像组合。

bull;我们对抽象场景[41]数据集的抽象图像生成任务和COCO[22]数据集的合成图像生成任务进行了广泛的实验。

2.相关工作

大多数关于视觉描述语言的研究都集中在图像标题或将图像映射到文本的任务[6,24,19,16,34,35,25,2]。最近,有一项与此相反的研究,即使用文本合成图像[29,38,15,39,36,13]。最近的大多数方法都利用了条件生成对抗网络(cGANs)。虽然这些工作已经成功地产生了质量不断提高的结果,但是当试图为具有多个交互对象的复杂场景合成图像时,存在着重大的挑战。组合性原则的启发,在语言和视觉[40],我们不使用甘斯但使用图像生成的综合方法按顺序生成对象(例如剪辑艺术,边界框,或分割对象补丁)包含语义元素组成,这也让我们的模型更多的解释。

我们的工作还与之前的研究有关,即使用抽象场景来反映和分析现实世界中的复杂情况[41、42、8、33]。最相关的是[42],其中引入了图形模型,以从输入文本描述生成抽象场景。与前面的工作不同,我们的方法不使用语义解析器来获取一组元组,而是直接从输入语句以端到端方式进行训练。此外,我们证明了我们的方法比以前的工作更好。我们的工作也与最近从像素级语义标签生成图像的工作有关[14,5,28],特别是[28]提出了一种基于检索的半参数化图像合成方法。我们的复合图像生成模型可选地使用[28]中的级联细化模块作为后处理步骤。我们的

2

珍妮正坐在沙箱里。

迈克拿着一个热狗。

珍妮正拿着铲子。

对象attn:坐沙盒持有属性attn: jenny lt;eosgt; jenny

object attn: sandbox sitting mike属性attn: sandbox lt;eosgt; jenny

对象:迈克,珍妮,坐着,属性:拿着热狗,迈克

jenny jenny mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike mike

注意事项:热狗铲持有属性注意事项:麦克热狗持有

注意:对象

持铲沙箱属性注意:持铲lt;eosgt;

图3。逐步生成一个抽象场景,在每个时间步显示对象预测和属性预测的前3个参与单词。注意,除了在第一个时间步预测太阳之外,对象解码器中的参与词几乎是与预测对象的一对一映射。属性解码器参与的单词在语义上也对应于用于预测姿势或位置的有用信息,例如,为了预测热狗在第五时间步中的位置,模型会关注mike和holding。

工作不同于这些方法,因为它们使用地面真实的语义布局作为输入,而我们的模型学习从文本间接预测场景中对象的布局。

与我们的方法最接近的是[15]、[10]、[13]和[17],因为这些工作也试图预测显式的2D布局表示。[15]提出了一种从结构化场景图中生成图像的图卷积模型。呈现的对象及其关系作为场景图中的输入提供,这与我们的工作不同,我们的工作是从文本中推断对象的存在。[13]的目标是图像合成使用条件的甘斯,但不同于以往的工作,它产生的布局作为中间表示在可分离的训练模块。我们的工作还试图从文本描述生成照片图像,但与[13]不同的是,我们使用半参数检索模块生成像素级输出,而没有经过对位训练。我们的模型还通过端到端学习来同时预测语义布局和对象补丁。[17]从聊天日志中执行图形生成,而我们的工作使用的文本则远未得到充分指定。在[10]提出的系统中,提出了使用半参数化方法生成类卡通图像的方法。然而,所提供的对象也被作为模型的输入,布局、前景和背景补丁的预测是通过分离训练的模块来完成的。我们的方法是端到端的训练,并且超越了卡通场景。据我们所知,我们的模型是唯一一个在统一框架下针对各种类型的场景(如抽象场景、语义布局和合成图像)的模型。

3.模型

Text2Scene采用了序列到序列的方法[31],并介绍了空间和序列推理的关键设计。具体来说,在每个时间步骤中,模型通过三个步骤修改背景画布:(1)模型关注输入文本以决定下一个要添加的对象,或者决定是否生成

应该结束;(2)如果决定添加一个新对象,模型在该对象的语言环境中进行缩放,以决定其属性(如姿态、大小)和与周围环境的关系(如位置、与其他对象的交互);(3)模型将提取出的文本属性返回到画布和场地(场所)中,并将其放入相应的视觉表示中。

为了对这个过程进行建模,Text2Scene由一个文本编码器组成,它以M个单词w(章节3.1)作为输入序列,一个对象解码器,它依次预测T个对象o,一个属性解码器,它预测每个对象的位置,得到一组k个属性{R}(章节3.2)。i tt t tk场景生成从一个初始的空画布b开始,在每个时间步更新它。0 在图像合成任务中,我们还联合训练了一个前景patch嵌入网络(章节3.3),并将嵌入的向量作为目标属性。图2展示了我们的模型的总体流程,图3展示了一个抽象场景的逐步生成。

3.1。文本编码器

我们的文本编码器由一个双向循环网络与门控循环单元(GRUs)组成。对于给定的输入文本,我们计算每个单词i:

(1)

这里BiGRU是一个双向的GRU单元,xis是对应于第i个单词的单词嵌入,hi E

是一个矢量,

tor对当前单词及其上下文进行编码。我们使用{(h, x)}作为编码文本特性。Ei i

3.2。对象和属性解码器

在每个步骤t中,我们的模型使用文本特性{(h, x)}和当前canvas Bas输入,从对象词汇表V及其k属性{R}预测下一个对象o。t tkEi it 对于这一部分,我们使用一个卷积网络(CNN)Ω编码Binto W C Htimes;times;特性图,代表t

3.

当前场景的状态。我们通过卷积GRU (ConvGRU)对场景状态{h}的历史进行建模:Dt

(2)

初始隐藏状态是通过空间复制文本编码器的最后一个隐藏状态来创建的。在这里,他提供了场景中每个空间(网格)位置的时间动态的信息表示。Dt 由于此表示可能无法捕获小对象,因此在上一步预测的对象的一个热向量也作为输入提供给下游解码器。tminus;1 初始对象被设置为一个特殊的场景开始标记。

基于注意的对象解码器:我们的对象解码器是一个基于注意的模型,它输出一个对象词汇表v中所有可能对象的似然得分。它以反复出现的场景状态h作为输入,即文本特征Dt

{(hEi,x)}和前面的predictedobject o:tminus;1

(3)

(4)

(5)

这里Psi;is卷积网络空间关注h,类似如[35]。o Dt Psi;is收集的目标所需的空间上下文对象的预测,如对象已被添加。o 然后通过平均池将参与的特征融合到一个向量uot中。Phi;is文本关注模块,类似[23],它使用[uot;o o]处理语言上下文{(hEi, xi)}并收集上下文向量cot。tminus;1理想情况下,cot编码了所有描述对象的知识,这些对象到目前为止还没有被添加到场景中。Theta;is一个两层感知器预测下一个对象p (o)的可能性从[uot;o to;tminus;1,使用softmax函数。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[411415],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。