英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
Zhou Z H. A brief introduction to weakly supervised learning[J]. National Science Review, 2018, 5(1): 44-53.
机器学习在各种任务中取得了巨大的成功,特别是在监督学习任务中,如分类和回归。通常,预测模型是从包含大量训练实例的训练数据集中学习的,每个实例对应一个事件/对象。一个训练示例由两部分组成:描述事件/对象的特征向量(或称为实例)和指示真实输出的标签。在分类中,标签表示训练样本所属的类别;在回归中,标签是与示例对应的实值响应。大多数成功的技术,如深度学习[37],需要给出大量真实标签的数据集;然而,在许多任务中,由于数据标记过程的高成本,很难获得如此准确的强监督信息。因此,机器学习技术需要能够在弱监督环境下工作。一般来说,有三种类型的弱监督模型。第一种被称为不完全监督(Incomplete Supervision),即只有一个(通常很小) 训练数据的子集被标签标识,而其他数据未标记。这种情况发生在各种任务中。例如,在图像分类中,真值标签由人工标注;从互联网上获取大量的图像是很容易的,但是由于人工成本很高,只有一小部分图像可以被注释。第二种是不确切监督(Inexact Supervision)。即只给出粗粒度的标签。再次考虑图像分类任务,希望对图像中的每个对象进行注释;然而,通常我们只有图像级标签而不是对象级标签。第三种是不准确监督(Inaccurate Supervision)。即给出的标签并不总是基于事实的。这种情况时有发生,例如,当图像注释人员不小心或疲倦时,或一些图像本身就很难分类。
弱监督学习是一系列试图通过在弱监督条件下学习来构建预测模型的总括。本文将介绍这方面的研究进展,以探讨在监督不完整、不确切和不准确的情况下如何进行学习。我们将分别处理这些类型的弱监督,但值得一提的是,在实际操作中,它们常常同时发生。为了简单起见,在本文中,我们考虑二分类问题。形式上,监督学习任务是通过一个训练数据集,其中为特征空间,,。我们假设是根据未知的相同独立分布生成,即是独立同分布样本。
一、不完全监督
不完全监督关注的是如下这样一个情况:我们有少量的标记数据,但这些不够训练泛化性能良好的学习器,除此之外我们还有大量的未标记数据。形式上,任务可以抽象为从数据集中学习一个学习器,其中表示标记书籍数量,为未标记数据量, 为数据集总量。
有两大主要的技术来完成此类任务:主动学习(Active Learning)和半监督学习(Semi-Supervised Learning)。
主动学习假设存在一个“圣人”,就好像人类中的专家,可以向他咨询数据的真实标签。相反地,半监督学习则是自动地去利用未标记信息来提升学习性能,不需要人工参与。
主动学习假设可以从“圣人”处查询未标记实例的真实标签。为简单起见,假设标记成本仅取决于查询的数量。因此,主动学习的目标是最小化查询的数量,从而降低训练成本。给定一小组标记数据和大量的未标记数据,主动学习尝试选择最有价值的未标记实例进行查询。有两个广泛使用的选择标准,即“信息量”标准和“代表性”标准。“信息性”度量未标记的实例在多大程度上有助于减少统计模型的不确定性。而“代表性”度量的是一个实例如何很好地表示输入模式的结构。
基于信息的方法的主要弱点在于,它们严重依赖带标签的数据来构造初始模型来选择查询实例,而且当只有少数带标签的示例可用时,性能往往不稳定。基于代表性的方法的主要弱点在于其性能严重依赖由未标记数据主导的聚类结果,尤其是在只有少数标记的例子的情况下。因此,最近的一些交流学习方法试图综合利用“信息性”和“代表性”。
关于主动学习的理论研究有很多,例如,已经证明对于可实现的情况(假设类中存在一个假设与假设类中的数据完全分离),通过主动学习可以获得样本复杂度的指数级提高。非可实现情况(由于噪声,假设空间中的数据不能被完全分离)下,相关研究已经表明,没有假设噪声模型的情况下,主动学习的下界与被动学习的上界相差无几,换句话说,主动学习并没有提供多少帮助。
半监督学习试图在不向“圣人”咨询的情况下分析未标记的数据。人们可能会好奇,为什么没有标签的数据可以帮助构建预测模型。以下给出了一个简单的解释。假设数据来自一个包含个部分的高斯混合模型,即:
其中表示混合系数,,是模型参数。在此例中,标签可以被认为是由混合部分和特征向量确定的分布为的随机变量,根据的最大后验概率准则,我们可以拥有以下模型:
其中,
目标是通过从训练数据中估计和来实现的。很明显,只有第一项需要已标记的信息。因此,未标记的数据可以用来帮助改进第二项的估计,从而提高学习模型的性能。
图3提供了一个直观的解释。如果我们必须根据唯一的正点和负点进行预测,我们所能做的就是随机猜测,因为测试数据点正好位于两个标记数据点之间;如果允许我们观察一些未标记的数据点,如图中的灰色数据点,我们就可以预测测试数据点为阳性,并且具有较高的置信度。在这里,虽然未标记的数据点没有显式地带有标记信息,但它们隐含地传达了一些关于数据分布的信息,这有助于预测建模。
实际上,在半监督学习中有两个基本假设,即,聚类假设和流形假设,他们都是关于数据分布的。前者假设数据具有固有的集群结构,因此属于相同集群的实例具有相同的类标记。后者假设数据位于流形上,因此,附近的实例也有类似的预测。这两个假设的本质在于,相似的数据点应该有相似的输出,而未标记的数据有助于揭示哪些数据点是相似的。
半监督学习方法主要有四类:生成方法,基于图的方法,低密度分离方法和基于分歧的方法。
生成方法假设标记和未标记的数据都是由相同的固有模型生成的。因此,未标记实例的标签可以作为模型参数的缺失值处理,并通过诸如期望最大化算法(Expectation-Maximization,EM)之类的方法进行估计。这些方法通过使用不同的生成模型拟合数据而有所不同。为了获得良好的性能,通常需要相关领域知识来确定适当的生成模型。
基于图的方法构造一个图,其中节点对应于训练实例,边对应于实例之间的关系(通常是某种相似性或距离),然后根据一定的准则在图上传播标签信息;例如,标签可以在由最小切割分隔的不同子图中传播。显然,性能在很大程度上取决于图是如何构造的。值得注意的是,对于个数据点,这种方法通常需要的存储资源和的计算复杂度。因此,它们严重受到数据量大小可伸缩性的影响;此外,它们具有固有的转导性(Inherently Transductive),因为如果不进行图重建,该模型很难适应新的实例。
低密度分离的方法是在输入空间中通过密度较低的区域。最著名的代表是半监督支持向量机(Semi-Supervised Support Vector Machines,S3VMs)。图4显示了传统支持向量机和S3VM的区别。很明显,S3VMs试图识别一个跨越较低密度区域的分类边界,同时保持正确的标记数据分类。通过对未标记数据点进行不同的标签分配,从而产生复杂的优化问题。因此。在这一方面的研究中,很多精力都投入到有效的优化方法上。
基于分歧的方法生成多个学习器,让他们合作利用未标记的数据,学习器之间的分歧是非常严重的,以确保学习过程的继续。最著名的代表是联合训练,它通过从两个不同的特征数据集(或称为两个视图)来训练两个学习器。在每一次迭代中,每个学习者挑选出最自信的未标记实例,为它添加标记为后面的训练使用。这种方法可以通过把学习器作为一个整体来进一步加强。值得注意的是,基于分歧的方法提供了一种将半监督学习与主动学习相结合的自然方式:除了让学习器相互学习之外,还可以选择一些学习器都不自信或高度自信但相互矛盾的未标记的情形进行质疑。
值得一提的是,尽管利用无标记数据有望改善学习性能,但在某些情况下,半监督学习的性能可能会变差。这个问题被提出和研究了很多年;然而,直到最近,才有了一些实质性的进展。我们现在知道,利用未标记的数据自然会导致不止一个模型选项,而不充分的选择可能会导致糟糕的性能。使半监督学习“更安全”的基本策略是优化选项中的最坏情况性能,可能是通过合并集成机制。
关于半监督学习的理论研究非常丰富,甚至早于半监督学习的名称的出现。最近,人们对基于分歧的方法进行了深入的研究[81]。
二、不确切监督
不确切监督是指所提供的监督信息不完全符合要求。典型的情况是只有粗粒度的标签信息可用。例如,在药物活性预测的问题中,目标是通过学习一个已知分子集合来建立一个模型来预测一个新的分子是否有资格制造一种特殊的药物。一个分子可以有许多低能量的形状,而这个分子是否可以用来制造药物取决于这个分子是否有一些特殊的形状。然而,即使是已知的分子,人类专家也只知道某种分子是否合格,而不知道是分子的什么特殊形状起了决定作用。
形式上,任务是从训练数据集 学习,其中,称为袋子(Bag),是实例,是包中实例个数,。如果包中包含有正例,则包被称为正例包,但是的准确值却无法知道。此模型的目标是预测无法看见内部详细信息的包的标签。这被称为多实例学习。
针对多实例学习,人们提出了多种有效的算法。实际上,几乎所有的监督学习算法都有它们的多实例对偶问题。大多数算法尝试将单实例监督学习算法应用于多实例表示,主要是将对实例的辨别转移到对包的辨别;其他一些算法试图通过表示变换将多实例表示转化为单实例表示。还有一个分类方法,它将算法分组为实例空间范式,其中实例级响应被聚合。值得注意的是,这些实例通常被视为识别样本;但是,有的文章指出,多实例学习中的包虽然可以看作是独立的,但样本却不能看作是独立的。在此基础上,人们开发了一些有效的人工智能测量系统。
多实例学习已成功应用于图像分类/检索/注释、文本分类、垃圾邮件检测、医学诊断、人脸/对象检测、对象类发现、对象跟踪等。在这些任务中,把一个真实的物体(如图像或文本文档)当作一个包是很自然的;然而,与药物活性预测不同的是,包中自然形成的实例(即分子形状),每个袋子都需要生成实例。包生成器指定如何生成实例来代替包。通常,可以从图像中提取许多小块作为其实例,而节/段落甚至句子可以用作文本文档的实例。尽管包生成器对学习性能有显著影响,但直到最近才有大量关于图像包生成器的研究报道,其中披露了一些简单的密集采样袋生成器。
多实例学习的最初目标是预测看不见的包的标签;然而,也有研究试图确定使正例包为正例的关键实例。这对于在没有细粒度固定训练数据的图像中定位感兴趣的区域非常有用。值得注意的是标准的多实例学习假定每个正例的包必须包含一个关键实例,而有研究认为正例包中并没有关键实例,是包中的每个实例确定了包的标签。甚至有研究认为一个包是正例的只有当包中的每个实例都满足条件。
早期的理论结果表明,多实例学习对于包中每个实例都按不同规则分类的异质情况是困难的,而对于所有实例都按相同规则分类的同质情况是可学习的。幸运的是,几乎所有的实践多实例任务都属于同质类。这些分析假定袋子中的实例是独立的。不假设实例独立性的分析更具挑战性,而且出现得更晚,这表明在同构类中至少有一些案例是可以学习的,可以任意分布在包上。然而,与算法和应用研究的蓬勃发展相比,多实例学习的理论成果非常少,因为分析比较困难。
三、不准确监督
不准确监督是指监督信息不完全真实的情况。换句话说,有些标签信息可能会出错。除了训练数据集中的可能是不正确的外,其形式化的表述和之前的并无太大差异。
一个典型的场景是使用标签噪声进行学习。这方面理论研究较多,其中大部分假设为随机分类噪声,即标签受随机噪音影响。在实践中,一个基本的想法是识别可能被错误标记的示例,然后尝试进行一些纠正。例如,一个数据编方法构造一个相对的邻域图,其中每个节点对应一个训练示例,而连接两个节点的不同标签的边称为切边。然后,利用直觉判断一个实例是否与多个切边相关联,测量切边权值统计量。可以删除或重新标记可疑实例,如图6所示。值得一提的是,这类方法通常依赖于参考邻域信息,因此在高维特征空间中,由于数据稀疏时邻域识别的可靠性较差,因此其可靠性较差。
最近一个有趣的关于不准确监督的场景发生在众包(crowdsourcing)上,这是一个将工作外包给个人的流行范例。对于机器学习来说,众包通常是一种节省成本的方法,用于收集培训数据的标签。具体地说,未标记的实例被外包给大量的工作者来标记。著名的众包系统Amazon Mechanical Turk (AMT)是这样一个市场:用户可以提交一项任务,比如标记树木与非树木的图像,由工人完成,以换取小额金钱报酬。工人们通常来自一个大的社会,他们每个人会负责很多任务。他们通常是独立的,而且相对便宜,并且会根据自己的判断提供标签。在工人中,有些人可能比另一些人更可靠;但是,用户通常不知道这一点,因为工人的身份是受保护的。可能存在“垃圾邮件发送者”,他们在任务上几乎随机地分配标签(例如,机器人倾向于为金钱付款而成为人类),或者“广告员”,他们故意给出错误的答案。此外,有些任务对许多工人来说可能太难了。因此,利用群体反馈的不准确的监督信息来维持学习绩效是非常重要的。
许多研究试图从人群中推断基本事实。多数表决策略在集成方法中有理论支持,在绩效良好的尝试中得到广泛应用,因此常被用作基准。如果可以对工人的素质和任务的不同进行建模,就可以获得更好的绩效,通常是通过为不同的工人衡量不同的任务。为此,一些方法尝试构建概率双线性模型,然后采用EM算法进行估计。极小极大熵原理也被使用。垃圾邮件制造者的消除可以在概率模型中实现。最近已经给出了淘汰低质量工人的一般理论条件。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235302],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。