英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料
语义增强的核典型相关分析:
一种多标签的跨模态检索
摘要 跨模态检索以测量跨媒体语义相似性为目标,试图将异质特征对齐到一个可以合理比较异质特征的中间公共子空间。这是基于对不同模态所代表的语义的相同理解。但是,语义通常可以由多个概念反映,因为概念是在现实世界中共同出现的,而不是单独出现的。这导致了一个更具挑战性的任务,多标签的夸模式检索,其中多个概念被标注为图像的标签作为一个例子。更重要的是,概念的共现模式产生了相关的标签对,在进行准确的跨模式检索时需要考虑标签之间的关系。本文提出了一种新的跨模态检索方式——多标记ker-nel正则相关分析(ml-KCCA),他用高级语义信息增强了内核CCA,这些语义信息反映在多标签注释中。通过对多标记信息进行核化相关提取,可以测量出更多不同模式之间的复杂非线性关联,从而获得更适合于跨模式检索任务的判别子空间。对公共数据集的广泛评估验证了我们的方法相对于包括其他CCA扩展在内的最先进的跨模式检索方法的改进。
关键词 跨模式检索 KCCA 多标签信息 概念关联
1 介绍
跨模式的多媒体检索在网络2.0时代尤其需要,因为多媒体在社交网络和媒体共享网站中的贡献是爆炸性的。对于许多实际的应用程序来说,找到一组图像在视觉上最能说明给定的文本描述,或者找到一组句子在文本上最能说明给定的图像,这是非常必要的。大量的多媒体是由用户生成的,具有非正式的结构和各种媒体类型。在异构实例检索中,关键问题是如何在跨模态人工检索中度量它们之间的距离或相似性。之前的许多工作都是通过学习一个共同的潜在空间来对齐两个特征空间,使它们能够合理地进行比较。在这些提出的方法中,典型相关分析(CCA)通过最大化两种模式的线性投影之间的相关性,显示了它在学习公共子空间方面的简单性和效率。
虽然CCA因其优点而广受欢迎,但它也有一些缺点。CCA依赖于两种模式之间的显示配对来建立对应,在这个过程中,多标签信息仍然没有被利用。然而,语义概念通常在现实世界中同时出现,而不是孤立地出现。例如,图1展示了通过www.imagga.com提供的服务,用多个标签自动标记马的图像。我们可以从框中高亮显示的标记中看到,这些标记在范例图像中更有代表性,更多的标记可以帮助解释图像的内容,例如将马作为前景,将草地或农场作为背景。除了可以用来标注图像内容的概念外,不同概念对之间的关联构成了视觉语义的另一部分。与WordNet词汇表中组织的层次结构类似,Imagenet中的图像也预先组织为类层次结构,其中标记有子节点类的图像也可以分类为其父类。这种“is-a”关系也可以从图1中看出,“马”和“哺乳动物”都是“动物”概念的子代。“is-part of”的关系也如图1所示,反映了“草”和“农场”概念的内在关联。
图1 通过www.imagga.com提供的服务,用正片叠底标签对马的图像进行自动标记。代表性的标签分别用红框和蓝框高亮显示,它们分别与“is-a”和“is-part of”的概念关系相关联
虽然人们普遍认为,利用上述多标签关系可以帮助计算机理解多媒体的语义,但在完成多媒体检索任务时,对这些关系进行量化仍然是一个挑战。为了缓解这一问题,从注释集的统计和从知识库的语义两方面利用概念相关性,旨在提高图像检索的多标签标记性能。在[29]中还利用了高级语义用于位置可视化,在[37,39]中提出了一种无训练的方法,利用图像的共现和重复出现模式所反映的概念相关性来提高图像的多标记性能,而不是高度依赖注释集或预先构建的知识库。这种方法避免了通过概念图来明确量化概念相关性的困难,概念图通常是高度非线性的,但在[37,39]中通过全局和局部模式分析来处理。此外,为了准确检索图像,[47-49]提出了新的排序模型,该模型同时利用视觉特征和点击特征来获取排序模型。例如Yu等人提出了Deep-MDML方法,该方法采用结构化的排序模型,利用视觉特征和点击特征进行距离度量学习。将CCA应用于跨模态检索时也面临类似的问题,因为CCA在测量不同模态之间的复杂非线性关联时的无能为力会限制其性能。由于许多语义关联不能简单地用线性形式表示,因此可以构造较少的判别子空间,这些子空间不能更好地适应涉及多个标签的跨模态检索任务。虽然有人提出了CCA的一些扩展来利用标签信息,但大多数扩展都是针对单一标签的问题,即假设数据样本只有一个标签。一个图像通常有多个概念,因此应该有多个标签注释。因此,为了精确地模拟不同模式之间的相关性,必须考虑多标签。基于这一基本原理,Viresh Ranjan等人提出了ml-CCA,这是CCA的一个扩展,它通过以多标签注释的形式结合高级语义,从而超越了大多数其他CCA扩展。由于ml-CCA仍然依赖于模态对应的线性建立,因此,当涉及到较复杂的、难以线性建模的相关时,ml-CCA的表现并不会始终如一。
为了解决多标记语义中复杂关联的学习问题,提出了一种新的多标记核正则相关分析方法(ml-KCCA)。通过引入语义相似矩阵并将其嵌入到KCCA中,该方法可以利用语义信息来学习更有鉴别性的不同模态公共子空间。此外,只要能将不同的多标签语义量化并表示为矩阵,该算法结构就能与之兼容。本文的贡献总结如下:
——提出了一种基于核函数的多标记信息多模式检索方法,利用核函数挖掘不同模式数据间的非线性关联。
——提出了一种多标签嵌入的核化CCA算法,为多标签语义对应估计提供了一种非线性的解决方案。
——对公共数据集的广泛的经验评估验证了我们的方法,并显示了对其他扩展的CCA和其他最先进的跨模式检索方法的改进。
论文组织如下:第2节讨论了跨模态信息检索和多标签方法领域中最相关的工作。第3节概述了在跨模式检索任务中多标签设置的方法。为了解决所提出的问题,第4节给出了所提出的ml-KCCA框架的数学公式和求解方法。第5节报告了对基准多标签数据集的广泛的实验评估,以验证所提出的方法对跨模式检索任务的有效性。最后,本文以第6部分的结论和未来的工作作为结语。
2 相关工作
跨模态信息检索是一个具有挑战性的研究课题,因为它存在所谓的语义鸿沟,即查询和查询结果可能涉及不同的媒介模式,在这种情况下,不能直接将查询和结果进行比较。为了应对这一挑战,近年来在跨模态检索中提出了大量的方法,其中一个有效的方法是学习不同模态的最优公共表示。这种方法将不同的模态投射到一个公共空间中,使相似语义的距离最小化,使不同语义的距离最大化。在建立多模态实例间的语义关联时,典型相关分析(CCA)因其简单和高效而成为跨模态检索任务的主要内容之一。CCA是一种将两个多维变量之间的线性关系进行排序的方法。它利用同一语义对象的两个视图来提取语义的表示,由于其泛化能力,已成为最流行的无监督跨模态子空间学习方法之一。
近年来,人们提出了不同的CCA扩展,以强调跨模态检索任务的不同挑战方面。CCA最初由Hotelling提出,是一种数据分析方法,用来发现多个数据空间的一个子空间。如何寻找两组变量的最优基向量来对多模态相关进行建模是一种有效的方法。可以找到一个以上的典型相关,每一个对应于一组不同的基向量。PLS的目的是通过将预测变量和观测变量投影到一个新的空间,从而找到一个线性回归模型,这在很多情况下与CCA是等价的。CCA也可以作为其他学习任务的补充预处理。例如,Rasiwasia等人在CCA学习的子空间的基础上,提出学习跨模态的主题分类器来度量Web数据的语义分歧。Wu等人构建了语义距离测量模型,Gong等人开发了一种利用CCA利用标签信息的二进制码学习方法。最近,Yao等人探索了相对关系,首先通过CCA找到一个潜在的空间,然后重新调整空间,从点击数据中加入排名偏好。典型相关的异构判别分析利用源域的判别信息和目标域的拓扑信息,学习两种不同的投影矩阵,发现可以比较异构特征的公共特征子空间。
然而,经典的CCA忽略了额外的高级语义信息,这极大地限制了它在实际多模态检索任务中的性能。为了缓解这一问题,Rasiwasia等人提出了cluster-CCA来合并单个标签所代表的高级特性。虽然在必须将实例分隔成不同集群的单标签数据集中证明是有效的,但是在多标签场景中,cluster-CCA的缺点很明显,因为没有将多标签数据集自然地分隔成不同的集群。为了使CCA适应多标签设置,在[7]中引入了三视图CCA,在这个CCA变体中,使用多标签向量作为高级语义的表示。然而,三视图CCA高度依赖于先验的跨模式的对应信息,因此不能直接应用于这些数据集,因为这些数据集不能满足CCA的要求。CCA对多标签信息的另一个典型扩展是Viresh Ranjan等人在[25]中提出的ml-CCA。该算法在学习两种模式的公共语义空间的同时,利用多标签信息,可以学习更适合于跨模式任务的判别语义空间。与CCA不同的是,ml-CCA不依赖于模式之间的显示配对,而是使用多标签信息来建立对应,从而产生更适合于跨模式检索任务的诊断子空间。受益于多标签信息的考虑,ml-CCA已经显示出它的优点,并优于大多数其他扩展的CCA。然而,在多标记的跨模态任务中,由于模态对应通常是复杂的,并且不能通过线性投影精确地建模,因此,ml-CCA未能利用非线性的模态间关系,这也限制了其性能。
本文所研究的多标签语义的一个研究方向是多标签多媒体标引,其中多标签训练和标引细化是利用多标签信息的两种主要方法。在[24]中提出了一种典型的多标记训练方法,该方法利用吉布斯随机场对分类模型中的概念相关性进行建模。类似的多标签训练方法可以在[44]中找到。由于所有的概念都是从一个完整的模型中学习的,缺点之一就是缺乏灵活性,这意味着当概念词汇改变时,学习阶段需要重复。作为一种替代方法,索引细化方法从各个检测器获得处理后的检测分数,允许对每个概念使用独立和专门的分类技术。基于上下文的概念融合(CBCF)是一种通过对独立概念之间的关系进行建模来细化检测结果的方法。概念相关性可以从注释集学习,也可以从WordNet等预先构建的知识库推断。然而,由于注释集的大小有限,并且注释是在独立概念而不是在头脑中进行关联的情况下完成的,因此它们在学习关联方面几乎总是不够。外部知识网络的使用也限制了CBCF的灵活性,因为它们使用静态词汇,而创建静态词汇的成本很高。在[39]中,提出了一种不需要训练的方法,通过全局和局部细化来利用概念相关性。在优化过程中加入预先构建的本体,可以更好地适应这种知识约束。类似地,[38]中通过时态语义考虑张量因子分解方法处理多标签索引问题。
在双向图像和句子检索中,Hodosh等人为了发现图像和句子的共同特征空间,提出了核典型关联分析(KCCA),这是机器学习领域中提取非线性特征的一种强有力的方法。KCCA增加了特征选择的灵活性,将假设映射到高维特征空间。KCCA在Lai、Fyfe、Vinokourov等人的一些前期工作中得到了应用,效果有所改善。[8]中还使用KCCA对网络图像和相应的文本标题之间的相关性进行建模。最近,Yoshida等人提出了一种新的两阶段KCCA方法,在多核学习的框架下选择合适的核。虽然KCCA可以利用高度非线性的模态间关系,但是在KCCA中并没有利用多标签语义,如何使用核方法来利用CCA进行多标签的模态间检索仍然是一个未解决的问题。Sung Ju Hwang等人介绍了一种基于KCCA的图像检索方法,该方法利用了关键字标签列表所传达的关于对象重要性的隐含信息。然而,这种类型的标签很难获得。因此,我们需要一种新的方法来更自然、更方便地利用标签信息。
3 方法概述和符号
在这一节中,我们提出了用于跨模式检索任务中多标签设置的多标签核标准关系分析(ml-KCCA)的概述。在提出ml-KCCA时,我们依赖CCA作为基本方法,因为它可以有效地学习不同模式下的公共子空间。我们将讨论限制在包含图像和文本的多标签实体上,以简化符号和模型描述,并且我们的方法可以很容易地应用于任何内容模式的组合。在详细描述所提议的ml-KCCA框架之前,为了完整性的目的,首先对CCA进行简要的回顾。
3.1 CCA概述
典型相关分析(CCA)通过分析两个多维变量之间的线性关系,以不同的数据观来表示它们之间的共同表征。CCA使用由成对视图组成的数据来同时找到来自每个特征空间的投影,从而使来自相同实例的投影特征之间的关系最大化。形式上,给定一组N对数据样本,其中和分别表示文本模态数据和视觉模态数据,都是归一化的,关键是寻找两组向量u和v,使正则相关达到最大:
(1)
此处,为组间协方差矩阵,和分别表示文本数据和可视数据的自协方差矩阵。(1)的解可以通过一个广义特征值问题得到。正如我们所看到的,由于CCA是一种线性方法,它不能挖掘不同模式之间的非线性关联。此外,CCA不能利用高级语义信息,这进一步限制了它的性能。这些缺点通常导致CCA学习的公共子空间对于跨模态检索任务的识别能力不够。
3.2 多标签KCCA
在本节中,我们将介绍多标签核典型相关分析(multi-label kernel Canonical Correlation Analysis, ml-KCCA)处理涉及多标签场景的跨模态检索任务。该方法通过对核矩阵的优化,利用配对数据对应的多标记向量之间的相似性来学习更适合于跨模态检索任务的不同模态的判别公共子空间。
图2展示了ml-KCCA的原理图,其中三角形和正方形分别表示图像和文本。图2中,不同的标签分别由+、-、times;和divide;分别表示。如图2a所示,利用多标签表示得到的语义相似矩阵得到文本和图像的新形式的内核矩阵和分别。在求解(1)的核化版本后,在图2b中使用优化投影向量alpha;和beta;,即(1)式中的u和v,构造一个新的特征空间。如图2b所示,在这个新的投影共同空间中,标签相似的成对多模态实例语义上更接近,然后坐标距离更小。在使用ml-KCCA将文本和图像映射到这个公共空间之后,可以有效地执行双向交叉模式检索,比如在响应文本查询时检索图像,反
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239230],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。