英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
基于潜在话语结构及其排序的无监督神经单文档摘要
Masaru Isonuma1 Junichiro Mori1;2 Ichiro Sakata1
1东京大学 2里肯
{isonuma, isakata}@ipr-ctr.t.u-tokyo.ac.jp
mori@mi.u-tokyo.ac.jp
摘要
本文主要研究无监督的单一产品评审的端到端抽象摘要。我们假设评论可以描述为一个语篇树,其中摘要是根,子句详细地解释了它们的父句。通过递归地从子代中估计父代,我们的模型在没有外部解析器的情况下学习潜在的语篇树并生成一个简洁的摘要。我们还引入了一个体系结构,该体系结构将每个句子的重要性排列在树上,以支持以主要审查点为重点的摘要生成。实验结果表明,我们的模型与其他无监督方法相比是有竞争力的或优于其他无监督方法。特别是,对于相对较长的评审,它实现了比监督模型更具竞争力或更好的性能。归纳树表明,子语句提供了有关其父语句的附加信息,生成的摘要将整个评论摘要化。
1 介绍
由于大量的在线文本数据不断增长,自动文档摘要的需求也在不断增加。如同电子商务网站上的产品评论,简洁的摘要允许客户和制造商获得大量意见(Liu和Zhang,2012)。在这种情况下,有监督的神经网络模型取得了广泛的成功,使用了大量的参考摘要(Wang and Ling,2016;Ma et al.,2018)。然而,在这些总结上训练的模型不能在其他领域中采用,因为显著短语在各个领域中并不常见。为每个领域准备大量的参考文献需要很大的成本(Isonuma等人,2017)。
无监督方法可能是解决这类问题的办法。之前,无监督学习被广泛应用于提取方法(Radev等人,2004;Mihalcea和Tarau,2004)。如(Carenini et al.,2013;Gerani et al.,2014)所述,抽取方法通常无法提供评论的概述,而抽象方法通过解释和概括成功地浓缩了整个评论。我们的工作集中在对一篇没有监督的评论进行一句话的摘要。
摘要无监督文摘的难点有两个:一是获取摘要的表示形式,二是学习一种语言模型对其进行解码。Chu和Liu(2018)将文档嵌入的平均值作为摘要,作为多个评论的无监督方法,同时通过每个评论的重构学习语言模型。相比之下,这种方法不能直接扩展到单一的审查,因为它还包括一些琐碎或多余的句子(其性能在第4.4节中演示)。
为了克服这些问题,我们采用了语篇树框架。摘要抽取式和文档分类技术有时使用语篇分析器来获得文档的简洁表示(Hirao等人,2013;Bhatia等人,2015;Ji和Smith,2017);但是,Ji和Smith(2017)指出了使用外部语篇分析器的局限性。在这一背景下,Liu和Lapata(2018)提出了一个没有分析器的框架。他们的模型是通过一个有监督的文档分类任务来构造树的,我们的模型是通过识别和重构父语句来诱导它的。因此,当我们通过重构学习语言模型时,我们获得了一个摘要作为诱导潜在语篇树的根的表示。
图1:拼图游戏评论的话语树示例。StrSum从一个根的子代中归纳出潜在树并生成摘要,而discressrank则支持它关注主要的审查点。
图1显示了一个拼图复习的例子及其基于依赖关系的语篇树。摘要描述了它的性质。子句提供了大小(1)和厚度(2)的解释,或提供了背景(4)。因此,我们假设评论一般可以描述为一个多根的非投射语篇树,其中摘要是根,句子构成每个节点。子语句提供有关父语句的附加信息。为了构造树并生成摘要,我们提出了一种新的体系结构:StrSum。它递归地从子代重构父代,并在不使用解析器的情况下生成一个潜在的语篇树。因此,我们的模型从根的周围句子生成摘要,同时通过端到端的重建学习语言模型。我们还介绍了discountersrank,它根据后代的数量来排列每个句子的重要性。它支持StrSum生成一个摘要,该摘要关注于主要审查点的摘要。
这项工作的贡献有三方面:
- 我们提出了一种新的无监督端到端模型,在生成潜在话语树的同时,生成单个产品评论的抽象摘要。
- 实验结果表明,我们的模型与其他无监督模型相比具有一定的竞争力或优越性。特别是,对于长时间的评价,它比监督模型更具竞争力或更好的性能。
- 归纳树表明,子句提供了有关其父句的附加信息,并生成了整个复习的摘要。
2 建议模型
在这一部分中,我们提出了我们的无监督端到端摘要模型,描述了StrSum和DiscourseRank。
2.1 StrSum:结构化摘要
模型训练:StrSum的概要如图2所示。yi、siisin;Rd分别表示第i句及其在文档D={y1,hellip;,yn}中的嵌入。Wti是句子yi={w1,hellip;,wli}中的第t个单词。si是通过在隐藏状态htiisin;Rd上的双向选通递归单元(Bi GRU)的max pooling操作计算的:
双向门控循环单元(bi-gru)的隐状态 hti isin; rd:
在这里,我们假设文档 d 及其摘要组成一个话语树,其中根是摘要,所有句子都是节点。 我们把 aij 表示为从属关系的边际概率,其中第i句是第j句
句子的父节点。 特别是,a0j 表示根节点为父节点的概率(见图2)。 我们将概率分布aij (i isin; {0, . . . , n}, j isin; {1, . . . , n})定义为非投影依赖树的后边缘分布。 边际概率的计算在后面进行了解释,类似于(liu and lapata2018) ,为了防止句子嵌入的过载,我们将它们分解为两部分:
|
其中语义向量对语义信息进行编码,结构向量用于计算依赖关系的边际概率:
使用 si ,gru-decoder 学会重建第i句句子,也就是说,获得最大化以下日志可能性的参数:
摘要生成: 本文解释了训练如何有助于语言模型的学习和摘要嵌入的获得。对于前者,解码者学习一个语言模型,通过重构语言模型来生成语法句子记录句子。 对于后者,如果第j句句子有助于生成第i句句子,那么 aij 就会更高。
这种机制模拟了我们的假设,即子句可以生成父句,但反之则不然,因为子句提供了关于父句的额外信息。 因此,最简洁的第k句句子(例如,图1中的第1、第2和第4句) ,对任何其他句子的重构贡献较小。 因此,aik得到较低的forall;i : i = 0。因为aik满足约束的期望值较大,因此第k句有助于构建摘要嵌入s0 。
依赖的边际概率: 依赖的边际概率的计算aij在这里解释。首先定义了加权邻接矩阵F = (fij ) isin; R(n 1)lowast;(n 1),其中第一列和第一行的指数为0,表示根节点。Fij 表示父句子i和它的子句子j之间的边的非标准化权重,我们将其定义为下面的一对分数(liu 和 lapata,2018)。 通过假设一个多根话语树,fij 被定义为:
其中Wf isin; Rdf lowast;df 和wr isin; Rdf 是转换的参数。Wp isin; Rdf lowast;df和 bp isin; Rdf 分别是权重和偏置,用于构造父节点的表示。Wc isin; Rdf lowast;df 和bc isin; Rdf 相当于子节点的信号。
我们基于(Koo等人,2007)将fij规范化为aij。aij对应于包含边(i,j)的生成树的总权重的比例:
其中T表示文档D中所有生成树的集合。v(t|F)表示树tisin;T的权重,Z(F)表示从矩阵树定理(tutte,1984)中所有树的权重之和,Z(F)可以改写为:
其中 L(F) isin; R(n 1)lowast;(n 1)和L0(F) isin; Rnlowast;n分别是F的拉普拉斯矩阵及其删除第0行和第0列后形成的主子矩阵。通过解决Eq. 12,aij 可以表示为:
2.2 论文库
Strsum 在词根子句的影响下生成摘要。因此,与等级无关的句子(例如图1中的第4个)也会影响摘要,可以被视为噪音。 在这里,我们假设有意义的句子(例如,图1中的第1和第2个)通常有更多的后代,因为许多句子提供了对它们的解释。因此,我们引入了语篇库来根据后代的数量对句子的重要性进行排序。 受PageRank (Page et al., 1999)的启发,根和n个句子在第t次迭代rt = [r0, . . . , rn] isin; R(n 1)中的语义集定义为:
其中 A = (aij ) isin; R(n 1)lowast;(n 1表示每个依赖项的转移矩阵,lambda; 是阻尼因子,v isin; R(n 1) 是所有元素均等于1 / (n 1)的向量。Eq. 18意味着如果第i句句子更可能是第j句句子的父句子,那么ri反映rj更多。计算边(0, j) a0j (j isin; {1, . . . , n}) 的r解和更新得分为:
更新的得分a0j用于计算总结嵌入s0,而不是eq.16。因此,生成的摘要反映了依赖于根的边际概率较高的句子,同时侧重于主要的复习点。
3相关工作 剩余内容已隐藏,支付完成后下载完整资料
资料编号:[409626],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。