贝叶斯推理:机器学习原理与实践理论外文翻译资料

 2022-11-06 11:10:27

英语原文共 19 页,剩余内容已隐藏,支付完成后下载完整资料


贝叶斯推理:机器学习原理与实践理论

Michael E. Tipping

Microsoft Research, Cambridge, U.K.

摘要:本文介绍了在机器学习中贝叶斯推理的基本原理,强调了在处理不确定性时边缘化的重要性。在对“稀疏贝叶斯”模型与“相关向量机”的描述提出应用性、时代性和技术性的想法前,我们首先进行一个简单的回归任务。

1.引言

“贝叶斯推理”在机器学习的背景下是什么意思?为了帮助回答这个问题,让我们提出一个理论任务:从一些给定数量的例子的条件下,我们希望知道A和B之间的关系模型。实际上,许多机器学习的问题都是“给定A,什么是B”的类型。

我们经常口头提出数学任务本身就是一个有趣的问题。我们如何回答“B是什么?” 在那些起眼的定义和命题逻辑的公理结构下,我们一定能“回答”这个问题,但这个逻辑在处理现实世界的真实模型时显然过于硬化, 在“真理”中不确定性无处不在。我们对非独立变量(B)和独立变量(A)的测量本质上是混乱的和不精确的,两者之间的关系总是不确定的。这就是概率论想告诉我们的,因为它为我们在不确定性存在的情况下进行有意义的推理提供了一个原则性和一致性的框架。

我们可能会想到概率论,特别是贝叶斯法则,为我们提供了一个“不确定逻辑”。 在我们的例子中,在A给定的条件下,我们将通过其条件概率(即“在给定A的值的条件下B的概率?”)去“确定”B为真的可能性(以B是二进制为例),一个合适的答案可能是 ”B为真的概率是0.6“。 “机器学习”的主要任务之一就是利用基于给定的一组A和B的相关实例集而建立的一些适当的模型去估计,

它是在贝叶斯推理的建模过程中脱颖而出的。我们通常利用(不完全利用)某种形式的参数化模型去求解条件概率:

(1)

这里W表示模型中所有“可变”参数的向量,然后,给出一组包含N个变量的样本D, ,常规方法可能在D的可调参数模型构建中涉及一些测量“精度”的最大化(或最小化的一定程度的“损失”)。然后,我们可以通过求值去预测在A确定的条件下B发生的概率,其中W取最合适的值。当然,如果我们的模型太复杂,会存在许多的可调参数W,我们会对观测数据进行非常专业的评价,从而构建出真实潜在分布的合适的模型 。

贝叶斯推理范式的第一个关键要素就是将像w一样的参数作为随机变量,比如A和B。因此条件概率就变成了,B的概率取决于参数的设置,A也是一样的。它是确定的,而不需要进行“学习”,包括一些优质测量的优化,参数w的分布服从贝叶斯规则,我们将在第2节通过一个简单的回归例子证明这个概念。

为了获得上面提出的W的“后验”分布,必须在我们观察数据前先指定一个“先验”分布。这可能被认为是一种不便,但贝叶斯推理会以统一和一致的方式对待建模过程中所有的不确定性来源,并迫使我们明确我们的假设和约束条件;这本身就可以说是一个在哲学上吸引人的范式。

然而,贝叶斯方法的最吸引人的方面是像“奥卡姆剃刀”一样自动执行和“整合”了所有无关的变量。也就是说,在贝叶斯结构下,会存在一个自动偏好的简单模型去充分解释数据,而且没有不必要的复杂性。我们会在3节中证明这个关键的特性,并且特别强调一点,即使现在完全没有的信息,这个特点也是存在的。我们发现,在实际应用中,对“奥卡姆剃刀”的概念使我们能够在设置正则化参数和“选择”模型的时候不再需要任何额外的验证程序。

贝叶斯方法的实际缺点是,它要求我们执行变量积分,但这些计算和分析都是很棘手的。因此,许多当代机器学习的贝叶斯方法的研究会依赖,或直接涉及相关技术。然而,在4节中,我们介绍了“稀疏贝叶斯模型”,这种模型结合简单的解析计算,实际效率高,可以得出最好的近似结果。

2 从最小二乘法到贝叶斯推理

我们通过一个实例预测(回归)问题介绍了贝叶斯推理的方法。假设现在给出了一个非常简单的包含人工生成N = 15的样本数据集(图1后面所示),并且添加方差为0.2的高斯噪声函数y(x)。在例子中,我们将表示“输入”变量。对于这样的每一个,都有一个实值的“目标”与之对应,我们希望根据这些输入——目标的对应关系,去“学习”底层功能映射。

2.1 线性模型

我们将用一些带参数的函数对这些数据建模,其中 是模型的可变参数向量。在这里,我们考虑线性模型(严格地说是“线性参数”),它是M固定的线性加权和(但有也可能是非线性的),模型的基础函数是:

(2)

这里为了达到目的,我们将利用高斯数据中心的基础函数我们最后得到一个像”径向基函数(RBF)”类型的模型。

2.1.1 “最小二乘法”估计

我们的目标是找到合适W值,使对新的数据作出良好的预测:即它能对潜在生成函数建模。一个估计的经典方法是“最小二乘法”,它的最小化误差度量为:

(3)

如果和是lsquo;设计矩阵rsquo;,那么,(3)式通过线性代数变形得到封闭形式:

(4)

然而,这里的M= 15的基础函数,只有N = 15个的例子,我们都知道,最小的平方误差使模型完全拟合样本数据,如图1所示:

理想选择 最小平方RBF选择

图 1:“适合选择”是显示在左边,而对所有数据点使用15个基函数拟合的最小二乘法是显示在右边,。

现在,我们从图1中可以发现“右边的函数显然是过度拟合的!“。但是如果没“事实”的先验知识,我们真的可以判断哪个模型更好吗?答案是我们不能——现实世界中的问题,数据很可能是由一个复杂的函数(如右侧所示)生成的。我们可以继续有效地学习数据的唯一的方法,就比如通过强加一些先验的偏向到我们希望表达的函数复杂性的性质上,一个常见的做法是通过“规则化”。

2.2 复杂度控制:规则化

一个通俗的的,广泛的和非常合理的假设是:我们通常认为数据产生于平滑的,而不是复杂的函数。在一个线性模型结构,平滑函数通常具有较小的权重,所以我们可以通过在我们需要尽量减少的成本函数中添加适当的惩罚,从对复杂的函数进行惩罚:

(5)

一个标准的选择是方重处罚, ,为“惩罚最小二乘法”(PLS)估计w提供了方便:

. (6)

超参数lambda;平衡了和之间的的权衡——即函数与数据的拟合程度与函数的光滑度之间。因为我们可以直接计算权重的一个给定的lambda;,学习问题已经转化为一个寻找一个适当的超参数的取值。一个很常见的方法是根据一组“验证“数据去估计有可能的lambda;的值(数据不是用来估计W的),在图2 中我们提供了不同的lambda;的值与它们相关的验证错误的实例。

图2 :三个不同正则化超参数lambda;值的估计函数(实线)和验证错误。(真正

的函数是所显虚线)训练数据用黑色绘制,绿色(灰色)为验证集。

在实践中,我们可以评估大量的模型与不同的超参数值,并选择最低的验证错误的模型,如图3所示。我们希望这将给我们一个接近“事实”的模型。在这种人为造成生成函数已知的情况下, 带有“测试误差”的图中表现出了与“事实“的偏离,这个误差是在sin(x) 的无噪声样本中。从图中我们可以看到,最小验证误差并不完全代表最佳测试误差, 但它可以说是令人满意的。我们可以回到这张第三节的图去研究边缘化和如何利用贝叶斯推理去估计lambda;。现在,我们看看正则化方法是如何在贝叶斯概率框架下起作用的。

图3 :图上的误差估计在单独的15例训练和验证集上,以及“测试“的误差测量在三分之一的无噪声集上。最小测试和验证误差被标记为三角形,并且最优的lambda;的交集通过验证计算显示。

2.3 概率回归结构

我们假设之前的数据是一个基本函数模型杂乱的表现:,使用最小二乘法使我们减少,但在这里我们首先定义了一个明确的概率模型的噪声分量,使它成为一个零均值和方差为sigma;2的高斯分布。即。因此由得出的。假设来自数据集的每个示例已经独立生成(通常是现实的假设,但并不总是正确的),所有数据的可能性是由乘积给出:

(7)

(8)

需要注意的是,从现在开始,我们将诸如写作,因为我们从不对给定的输入数据x建模,会忽略这样的调节变量,这种方法纯粹是为方便起见(这意味着没有进一步的模型假设),这是最常见的做法。

2.4 最大似然法和最小二乘法

W的最大似然估计是的最大值。事实上,这与”最小二乘法”的解是相同的,这个结论可以从最小平方误差与最小似然估计的负对数相等得出,即:

(9)

由于(9)中的第一项与W无关,所以只剩下与平方误差成正比的第二项。

2.5 详述贝叶斯先验

当然,对w给出的相同的解时,最小二乘法和最大似然估计也会导致过度拟合。为了控制模型的复杂度,而不是早早地正则化权重惩罚,我们先定义个先验分布,它表达了w可能的值的“信任度”:

(10)

这个(普遍的)选择零均值高斯先验,表示偏好平滑模型通过声明较小的权重是先验的。虽然这个先验对每个权重是相互独立,都有一个共同的逆方差超参数,类似于前面的lambda;,它减轻了我们“观念”的影响。

2.6 后验推断

之前,鉴于我们的测量误差和调整,关于权重我们计算一个单点估计。现在,鉴于可能性和先验,我们通过贝叶斯规则计算W的后验分布:

(11)

作为一种结合了高斯先验和高斯似然的线性模型的结果,后面也方便了高斯:,其中:

(12)

(13)

因此,我们推理了所有可能的值的分布并不是为了“学习”一个单一的W值。实际上,根据数据t提供的信息,我们已经更新了我们对参数值以前的“观念”。而且得出了更多的后验概率的值,这些值既有可能是先验值,也有可能是“解释数据”的值。

2.6.1 MAP估计: “贝叶斯”捷径

对w的“最大后验概率”(MAP)估计在后验分布下最可几值是唯一的。因为前面贝叶斯公式(11)的分母独立于W,这相当于分子最大化,或等价于的最小值。只保留那些W的相关项而得到的公式是:<!--

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[139699],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。