即插即用语言模型:一个简单的外文翻译资料

 2022-08-23 15:36:54

英语原文共 34 页,剩余内容已隐藏,支付完成后下载完整资料


即插即用语言模型:一个简单的

控制文本生成方法

苏曼特达塔赫里lowast;

加州理工学院CMS

安德里亚·马多托*

科大

詹妮丝·兰

超级人工智能

洪简

超级人工智能

埃里克·弗兰克

超级人工智能

皮耶罗莫利诺

超级人工智能

杰森·尤辛斯基trade;

超级人工智能

刘若珊

超级人工智能

sdathah@caltech.edu, amadotto@connect.ust.hk邮箱

arXiv:1912.02164v3[cs.CL]2020年1月8日

{janlan,jane.hung,mysterefrank,piero,yosinski,rosanne}@uber.com

摘要

基于大型变压器的语言模型(LMs)在海量文本语料库上的训练显示出无与伦比的生成能力。然而,如果不修改模型结构或对特定属性的数据进行微调并跟踪大量的再培训成本,则很难控制生成语言的属性(例如,切换主题或情感)。我们提出了一个简单的替代方案:即插即用语言模型(PPLM),它将一个预先训练的LM与一个或多个简单的属性分类器相结合,指导文本生成,而无需进一步训练LM。在我们提出的规范场景中,属性模型是一个简单的分类器,由一个用户指定的单词包或一个比LM少100000倍参数的学习层组成。采样需要一个向前和向后的过程,其中属性模型的梯度推动LM的隐藏激活,从而指导生成。模型示例演示了对一系列主题和情感样式的控制,大量的自动化和人工注释的评估显示了属性对齐和流畅性。PPLMs的灵活性在于,任何可微属性模型的组合都可以用于指导文本生成,这将允许在本文给出的示例之外进行多样化和创造性的应用。

  1. 导言

Transformer架构(Vaswani et al.,2017)使得在大量数据上训练的大规模语言模型(LMs)(Radford et al.,2019;Dai et al.,2019b;Radford et al.,2018b)能够极大地提高自然语言处理任务的最新水平。这些模型用于提取用于转移学习的上下文化单词嵌入(Devlin et al.,2019)和作为自然语言生成器。后者可以利用大量未注数据和简单的对数似然训练目标。然而,一旦这些模型经过训练,就可以控制

*在Uber AI实习期间完成的工作

*共同资深作者

    • 贡献摘要:Sumanth,Rosanne和Jason构思了PPLMs并领导了手稿写作。Sumanth领导了这个项目,实现了PPLM,建立并运行了所有的建模实验,设计了如何通过加权嵌入方法获得可行的梯度,并使模型工作。安德里亚帮助准备数据集,用于鉴别器训练、自动评估、运行实验和编写手稿。Sumanth,Rosanne和Andrea负责外部基线。罗珊娜和贾妮斯建立并监督了人类评估管道,并计算了统计数据。简用骷髅前缀运行故事生成。埃里克协助进行排毒实验,并绘制了多个版本的羊毛。Piero领导了迁移到新的Pythorch transformer的工作,帮助发布了代码,Rosanne、Jason和Piero与合作者从Hugging Face协作制作了演示。Jason帮助完成了注释管道、查找错误、导航模型和实验方向、设计可行的渐变以及数学建模。罗莎恩实现了初步实验和多属性控制,并对代码进行了清洗和协同发布。罗莎妮和杰森负责这个项目。

表1:PPLM采用预先训练的语言模型(LM),模型参数没有任何变化,可以生成主题和情感等受控属性的文本。我们用两个小而易于构造的属性模型来演示控制:一个与主题相关的单词包(BoW)和一个基于LM潜在表示训练的线性判别器来控制情绪。带下划线的前缀是LM生成一段文本(例如土豆)的条件。被控制的属性被着色并用括号括起来(例如[科学]),弓上直接优化的单词被明亮地突出显示(例如研究)。较软的突出显示对应于与属性相关的词,但在控制过程中没有直接优化(例如,运行状况)。

[–]土豆和花椰菜都是制作复合面包、面包堆或垫子的季节。为了增加挑战,试试大蒜土豆泥。

[否定]土豆是个很糟糕的主意。它能使你发胖,它能使你有一个可怕的免疫系统,它甚至可以杀死你。

[正面]你要的薯片食谱!我们喜欢做这些,我已经做了很多年了。我一直很难保守食谱的秘密。我想这是我们的孩子们喜欢吃的方式——很多小孩子。

[科学]土豆曾被认为没有健康问题,从19世纪中期开始被作为营养食品推广,但最近的报告表明,它有许多有害健康的问题。事实上,来自约翰霍普金斯大学的研究人员。

[政治][正面]为了结束这一系列文章,我将介绍三篇关于这一主题的最受欢迎和最有影响力的作品。第一条论述了妇女参政在建立代表人民意志的政治制度中的作用。

[政治][负面]总而言之,2008年经济危机造成的最重大和最持久的损害是,许多政府,包括政治中心的政府,在现代历史上第一次失去了权力。

如果不修改模型架构以允许额外的输入属性或使用属性特定数据进行微调,生成的文本将变得困难(Keskar等人,2019年;Ziegler等人,2019年)。

可控生成需要建模p(x | a),其中a是一些期望的可控属性,x是生成的样本。然而,生成模型只学习p(x)。在计算机视觉领域,来自Nguyen等人的即插即用生成网络(PPGN)。(2017)通过插入鉴别器(属性模型)p(a | x)和基本生成模型p(x)并从结果p(x | a)| p(a | x)p(x)中采样,开发了一种生成具有不同属性图像的机制,有效地从任何提供的属性模型动态创建条件生成模型。以类似的方式,我们提出了用于条件语言生成的即插即用语言模型(PPLM),该模型将一个或多个简单属性模型p(a | x)-以单词包(BoW)的形式或单层分类器与预先训练的无条件语言模型p(x)相结合。我们通过在潜在表示中跟踪梯度从得到的组合模型中取样

空间设计灵感来源于在Nguyen等人中部署的经大都市调整的近似Langevin(MALA)(Roberts等人,1996年;Roberts和Rosenthal,1998年)采样器。(2017年)。

优化是事后在激活空间中执行的,因此不需要重新训练或微调。控件是细粒度的,强度参数决定属性影响的强度;强度为0将完全恢复原始模型p(x)。这种设计允许巨大的灵活性:用户可以将最先进的生成模型(可能很大,很难训练)与任意数量的属性控制器结合起来。属性模型可能更易于训练或未经训练(在弓模型的情况下),并且在推理期间可以灵活地组合多个控制器。在本文中,我们使用GPT-2345m模型(Radford et al.,2019)作为通用LM p(x)来演示p p LM方法,但该方法适用于任何基于转换器的文本生成器的任何表示空间,并允许与任何属性模型p(a | x)组合。

我们展示了一系列属性控制器的受控生成,这些控制器在生成过程中组装和组合在一起,每个控制器都具有不同的强度,充当一组“控制旋钮”,将生成调整到所需的属性(见表1中的示例)。实验的代码可以在:https://github.com/uber-research/PPLM上找到。我们的主要贡献是:

      • 我们介绍了用于控制语言生成的即插即用LM,讨论了它与现有工作的关系,以及PPLM中的采样是如何工作的(第2节和第3节)。
      • 我们展示了对一系列属性的文本生成控制,包括7个主题(每个主题使用一包单词定义)和1个简单的情感鉴别器。我们使用自动评估(分别训练的困惑和情绪模型)和人类评估(属性相关性和流畅性)来量化有效性。所有评估都指向PPLMs生成属性控制的流畅文本的能力(第4节)。
      • 我们比较了PPLM和强大的LM基线,如CTRL(Keskar et al.,2019)和GPT-2的积极性微调(Ziegler et al.,2019)。我们的方法,不需要任何LM训练,在属性相关性和流畅性方面通常优于基线(第4.2节和第4.3节)。
      • 我们表明,PPLM方法可用于某些情况下的解毒,在这些情况下,通过遵循一个训练用于检测毒性的模型的负梯度(第4.4节)。我们还展示了PPLM如何用于结构受限的故事写作(第4.5节)。
  1. 相关工作

控制生成控制文本生成的当前方法包括使用强化学习(RL)微调现有模型(Ziegler等人,2019)、训练生成性多功能网络(Yu等人,2017)或训练条件生成模型(Kikuchi等人,2016;Ficleramp;Goldberg,2017)。与我们的方法不同,这些方法不是即插即用的,因为整个模型需要针对每个特定属性分别进行微调。Keskar等人。(2019)训练具有50多种不同控制代码的大型语言模型。结果是高质量的,因为它们的训练正是为了使p(x | a)最大化,但这是以预先确定控制代码和训练一个非常大的模型(1.6B参数)为代价的。我们的方法不需要再训练任何条件生成模型,而且语言模型和条件模型都可以灵活地组合。表2给出了最近针对特定属性调整的语言建模方法的比较。在另一个有趣但又相切的作品中,Subramani等人。(2019)最近的研究表明,一个预先训练过的语言模型可以用来恢复任意的语音。相反,我们的目标是从预先训练的无条件语言模型中产生条件。

噪声信道建模于等。(2016年),最近Yu等人。(2019年);Yee等人。(2019年);Ng等人。(2019),利用香农噪声信道理论(香农,1948)改进序列到序列建模。他们的方法将源语言句子y翻译成目标

语言句子x首先从正向模型建议分布p forward(x | y)中抽样,然后根据pbackward(x | y)| p(x)p(y | x)给出的概率重新排列样本。PPLM使用相同的基本方程对样本进行评分,但由于我们没有前向或建议模型pforward(x | a),因此我们依赖于Nguyen等人提出的潜在空间更新。(2017年)。作为基线,我们考虑

使用p(x)作为“前向模型”,然后重新评级,我们将看到在某些情况下运行良好,而在其他情况下运行较差(见表4和表6)。

加权解码Holtzman等人。(2018);Ghazvininejad等人。(2017)考虑受控语言生成(前者带有鉴别器,后者带有一包单词),其中解码过程被修改以考虑用于解码的评分函数。见等人。(2019)请注意,使用加权解码(WD)进行控制是困难的,通常会导致牺牲流畅性和连贯性。此外,Ghazvininejad等人。(2017)强烈依赖于从特定主题的一组关键字中进行抽样,并且不允许以不需要包含一组关键字的方式偏向于主题的生成。同样,Baheti等人。(2018)提出了一种解码策略,用于在对话系统中使用单词包和单词嵌入生成有趣的响应。复杂的抽样方法(Metropolis等人,1953年)可用于将模型生成约束到某些关键字和主题。我们评估WD作为基线。

文本样式转换在语言建模之外,文本样式转换字段执行相关任务。Shen等人。(2017年);Hu等人。(2017)训练基于学习的风格转换的可变自动编码器,分离风格和内容的潜在表现。Li等人。(2018)展示了一种基于条件生成模型的简单方法的有效性,该方法将与属性相关的n-grams替换为与所需属性相对应的n-grams。关键的区别

表2:所考虑的不同模型和分布的比较。此表中的所有模型都适用于不同的场景。PPLM的特殊优势在于,非常小的自定义属性模型p(a | x)可以与强大的通用预训练语言模型p(x)相结合,以创建廉价但仍然强大的条件生成模型p(x | a)。

型号

模型形式

样品

示例模型

可训练参数的数量

语言模型

p(x)

无争议。

GPT-2中型:345M

(Radford等人,2019年)

微调

语言模型

p(x)

无争议。

微调GPT-2介质:345M

(Ziegler等人,2019年)

有条件的

语言模型

p(x | a)

条件。

控制:16亿

(Keskar等人,2019年)

即插即用

语言模型

(PPLM)

p(x | a)| p(x)p(a | x)

条件。

PPLM BoW:0(策展词列表)

PPL

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237127],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。