四种监督机器学习技术的比较研究分类外文翻译资料

 2023-03-14 18:42:51


一、外文资料译文:

四种监督机器学习技术的比较研究分类

摘要:四种著名的监督机器学习技术的比较研究,即:决策树、K邻近、人工神经网络和支持向量机。本文重点介绍了每种技术的关键思想及其优缺点,在研究结束时进行了实际应用以比较它们的性能。这些措施已被用于评估它们的性能,例如敏感性和特异性。这项研究表明,没有一种衡量标准可以提供有关分类器性能的所有信息,也没有这样的分类器可以满足所有标准。

关键词:监督学习,决策树,KNN,人工神经网络,支持向量机

1.介绍

近年来,我们可以从数据中提取的信息量迅速增加。机器学习不仅仅是存储大量数据,它还是人工智能(AI)的一部分。人工智能是计算机程序的改进,以执行通常需要人工干预的任务,例如决策。针对特定问题做出正确决定是实现我们目标的主要因素,为此,许多机器学习技术用于分类和回归问题。当预测目标是离散值或类标签时使用分类,而当预测目标是连续的时,回归是合适的方法。

2.机器学习

机器学习的本质是用程序学习的经验来编译我们观察到的数据,以生成我们可以使用的信息。例如,区分有效电子邮件和垃圾邮件的过程,输入将是电子邮件中包含的一些文档或单词,输出应该为是或否,分别表示电子邮件是垃圾邮件或非垃圾邮件,但我们没有准确识别垃圾邮件的算法。机器学习为此任务提供了一个解决方案,我们提供了我们手动标记为垃圾邮件或有效电子邮件的示例,程序可以自动学习区分它们。

2.1监督学习

监督学习的主要思想是学习输入和输出之间的映射,其正确值由监督者提供。监督学习有两种主要类型,分类和回归,其中有输入和输出,主要作用是找到输入和输出之间的映射。在分类中,任务是将训练输入分配给预定义的类别之一。在垃圾邮件示例中有两个类的简单情况下,预定义的类是(1或0)表示电子邮件的类型(垃圾邮件或非垃圾邮件),算法的作用是将训练示例分类为两个班级之一。如果没有不同的数据点具有相同的标签并且没有相同的点具有不同的标签,那么好的学习器就是能够完美地区分这两个类别的学习器。分类问题可以表述如下:给定根据未知概率分布从总体中抽取的训练数据样本和估计给定误差的损失函数,预测的是而不是的实际值。

我们需要损失函数来惩罚预测中的错误; 这意味着预测值越接近的实际值,损失函数越低。目的是找到一个函数,可以最小化看不见的数据的错误。算法正确分类看不见的数据的能力被称为泛化。在分类中,我们要学习的是一个类,损失函数可以采用以下形式:,假设分类是错误的,并且是预测的类标签。是指示函数,可以定义为0/1,其中0表示预测类和实际类相同,1表示类不同。

3.支持向量机

支持向量机(SVM)是监督学习中最强大的训练技术之一。支持向量机由Vapnik于1992年首次引入(Boser,Guyon,amp;Vapnik,1992),它被用于分类、回归和特征选择的许多应用程序。在分类中,支持向量机利用作为SVM本质的边缘概念来确定最佳分离超平面,边距是超平面与两侧最近点之间的距离,我们希望将其最大化以更好地泛化,在最大化边际和最小化错误分类示例的数量之间存在权衡。有一些界限控制模型性能与其容量之间的关系,这可用于平衡模型偏差和模型方差之间的权衡。在以下各部分中,当数据严格线性可分时和数据不完全线性可分时,将针对这两种情况介绍分类支持向量机的公式。

3.1线性可分分类

假设我们有N个严格线性可分的训练样本,其中每个点有K个属性并且属于两个类别TF之一,它们分别取以下值 1-1。训练数据采用如下形式:,当。这意味着如果类,则,并且如果类,则。对于线性可分的数据,我们可以画一个超平面将这两个类分开,这个超平面可以表示为:

(1)

其中是垂直于平面的法向量,是确定相对于原点的点位置的偏差。在这种情况下,我们可以通过一对两个平行的边界平面将两个类分开:

or (2)

or (3)

决策规则是给出的。这两个边界约束可以组合成:

(4)

位于边界平面上的数据点称为支持向量。

图1:许多超平面可以适合对数据进行分类。

在图1的图示中,可以绘制许多超平面来对训练数据进行分离和分类。然而,只有一个可以通过最大间隔实现最大分离来正确分类训练示例。支持向量机算法的目的不仅是对点进行正确分类,而且还希望它们相距一定的距离以便更好地泛化,这意味着不是支持向量的点不携带任何信息。

支持向量机通过最大化来搜索分离超平面,它等效于最小化。它会导致一个简单的二次规划 (QP) 优化问题。

st. (5)

图2:边缘边界和支持向量点。

3.2不是完全线性可分的数据

在现实世界中,许多数据集不能线性分离,它可能有一个弯曲的决策边界来分离数据。SVM可以扩展到处理不完全可分或类线性不可分的数据。为了处理这种情况,我们希望SVM允许一些示例落在分离超平面的错误一侧。可以修改SVM技术以通过添加“软边界”来实现这一点,该“软边界”允许某些点位于错误的一侧,而不会影响结果或违反约束。在这个软边界中,超平面不正确一侧的数据点有一个惩罚,它根据它的位置和这个点离边界边界的远近而变化。软边际可以通过引入非负松弛变量来确定,该变量考虑到某些数据点可能由于噪声而被错误分类的事实。松弛变量测量违反边界约束的量。

or (6)

or (7)

这两个方程可以合并为:

(8)

目的是将错误分类的数据点减少到最少,并在距边缘足够距离的情况下正确分类数据点。该目标函数可以表述如下:

st. (9)

其中C是一个正参数,它控制松弛变量惩罚和边际大小之间的权衡。如果C太小,它会允许更多的数据位于错误的一侧,并且可能会欠拟合训练数据。如果C太大,那么SVM算法可能会过度拟合数据,导致泛化能力差。

3.2.1内核技巧

许多数据集无法分离且远离线性,但可以通过使用非线性映射映射到更高维空间来线性分离。为此,内核用于通过非线性函数将训练数据从输入空间非线性映射到更高维的特征空间ℱ。特征空间是指用于表征训练数据的特征集合。那么输入空间中的训练数据将变成特征空间中的,其中是特征空间的维度。

该映射由内核定义,内核由训练数据向量的点积获得。这意味着分离超平面在特征空间F中将是线性的,但在输入空间中是非线性的。如果可以通过一些非线性映射将函数重铸到更高维空间中,核是有用的,因为我们只需要确定的特征空间中的映射输入。核技巧允许SVM形成非线性边界。可以使用的核函数有很多,合适的核函数是根据案例的性质确定的,并在测试集上通过反复试验来挑选。

图3:非线性SVM连接的图示。

3.3支持向量机的优缺点

支持向量机的主要优点是训练相对容易,它对高维数据的扩展性相对较好,模型复杂度和误差之间的权衡可以很容易地控制,它可以处理连续和分类数据,它捕获数据中的非线性关系。不需要对数据结构进行假设,因为它是一种非参数技术。预测精度非常高,并提供了良好的泛化性能。它提供了唯一的解决方案,因为优化问题是凸的,这意味着它具有唯一的最小值。它是健壮的并且能够处理包含错误的数据。支持向量机的主要缺点之一是难以解释,除非特征是可解释的。它在计算上可能很昂贵,并且需要一个好的核函数 由于它是一种非参数方法,因此结果缺乏透明度。

4.人工神经网络

人工神经网络是一种试图模拟生物神经系统功能的数学模型。该数学模型具有三个基本规则:乘法、求和和激活。它们基本上涉及加权的输入,这意味着每个输入值都乘以特定的权重。然后所有加权输入将添加一个偏差项。最后,所有加权输入和偏置项的总和将由激活函数转换以计算输出。与每个输入相关联的权重提供了突触强度。与特定输入相关的权重越高,输入越强。这些权重可以为正也可以为负,当权重为正(gt;0)时,表示兴奋性连接,而负权重则抑制神经元活动。基本的处理元素称为感知器。感知器的输入可能来自环境(外部输入),也可能是其他感知器的结果。该感知器的输出可以通过以下方式导出:

(10)

其中是偏置项,也称为神经元阈值,可以将其视为附加输入,它始终为1,其权重等于。在这种情况下,感知器输出可以写为点积: (11)

其中和是两个向量。激活函数或传递函数定义了人工神经元的属性,它可以是任何激活函数,输出将如下形式:

(12)

激活函数可以根据人工神经元需要解决的问题来确定。它充当转换实体,以便神经元的输出根据所选函数取某个范围内的值,例如[0,1]或[-1,1]。最流行的激活函数是:阈值函数:它也被称为阶跃函数,它只有两种可能的结果(0或1),如果输入的总和小于特定阈值,则取0;如果输入的总和小于特定阈值,则取1输入的总和大于或等于该特定阈值。它采用以下形式:

1,if

0,if (13)

当我们使用非线性函数时,Sigmoid函数是最常用的。sigmoid函数被定义为严格递增的函数,它在线性和非线性情况之间表现出平衡,其图形为S形。sigmoid函数采用以下形式:

(14)

sigmoid函数的取值范围介于0和1之间,但在某些模型中,使用此区间[minus;1,1]是有益的。在后一种情况下,阈值可以定义为:

1,if

0,if (15)

-1,if

因此,信息如何从输入流动到产生输出的整个数学框架可以表示为图4所示。

<p

剩余内容已隐藏,支付完成后下载完整资料</p


英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[596236],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。