基于评价标准综合研究求解多重共线性问题的特征选择方法外文翻译资料

 2022-11-19 14:35:45

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


基于评价标准综合研究求解多重共线性问题的特征选择方法

摘要:本文提出了一种基于特征过滤器概念的特征选择新方法,使得特征选择与预测模型无关。数据拟合表述为单目标优化问题,其中目标函数表示将目标向量逼近为给定特征的一些函数的误差。特征之间的线性依赖会引起多重共线性问题,并导致模型的不稳定性和特征集的冗余性。本文介绍了一种基于二次规划的特征选择方法。这种方法考虑了特征与目标向量之间的依赖关系,并根据具体问题定义的相关性和相似性度量来选择特征。主要思想是通过改变指示特征存在的二进制向量来最小化相互依赖性并最大化逼近质量。选定的模型不太冗余,更稳定。为了评估所提出的特征选择方法的质量并与其他方法进行比较,我们使用多个标准来衡量不稳定性和冗余度。在我们的实验中,我们将所提出的方法与其他几种特征选择方法进行比较,并证明二次规划方法根据测试和实际数据集考虑的标准提供了优越的结果。

关键词:数据拟合,特征选择,多重共线性,二次规划,评估标准,测试数据集

  1. 介绍

本文提出了一种避免特征选择中多重共线性的新方法。多重共线性是同时影响目标矢量的特征之间的强相关性。在存在多重共线性的情况下,常用的回归分析方法(如最小二乘法)会构建不稳定的过度复杂模型。第5节给出了模型稳定性,复杂性和冗余度的正式定义。

大多数现有的解决多重共线性问题的特征选择方法基于启发式(Leardi,2001; Olul-eye,Armstrong,Leng,&Diepeveen,2014)[17],贪婪搜索(Guyon,2003; Ladha&Deepa,2011)[11]技术(El-Dereny&Rashwan,2011[5]; Zou&Hastie,2005[29])。这些方法没有考虑数据集的配置,也不能保证特别设计的特征子集的最优性(Katrutsa&Strijov,2015)[14]。相反,我们提出了一种二次规划方法(Rodriguez-Lujan,Huerta,Elkan和Cruz,2010)[27]来解决避免上述缺点的多重共线性问题。该方法基于两个想法:将特征存在表示为二元向量,并以二次形式定义特征子集质量标准。二次型的第一项是成对特征相似性,线性项是特征与目标向量的相关性。因此,我们可以用二次目标函数和布尔向量域来陈述特征选择问题。

特征相似性和相关性的度量与问题相关,需要根据应用程序在执行特征选择之前进行定义。这些措施应考虑数据集配置以去除冗余,噪声和多重线性特征,选择那些对于目标向量逼近很重要的特征。我们将特征之间的相关系数(Hall,1999)[12]和互信息(Esteacute;vez,Tesmer,Perez,&Zu-rada,2009)[6]作为特征相似度量度,特征量与作为特征相关度量的目标向量之间的相互关系。这些措施保证了一个正半定的二次形式。

为了解决凸优化问题,我们需要将二元域放宽到连续域。这种松弛使得凸优化问题可以通过最先进的求解器(如CVX)来有效地解决,CVX是用于指定和解决复杂程序的一个包(Grant&Boyd,2008[9]; 2014[10])。为了将连续解决方案转换为二进制解决方案,我们设置了一个重要性阈值,该阈值定义了一些要选择的特征。如果特征相似函数不给出正半定矩阵,那么优化问题不是凸的,而是需要凸松弛。在这种情况下,我们建议使用半定规划松弛(Naghibi,Hoffmann,&Pfister,2015)[22]。这些特征相似性函数超出了本文的范围。另外,所提出的方法给出了目标矢量近似中的特征权重的简单可视化。这种可视化有助于调整阈值。

我们根据Katrutsa和Strijov(2015)[14]提出的程序对特殊测试数据集进行实验。这些数据集证明了特征与特征与目标向量之间的相关性具有多重共线性。实验表明,所提出的方法优于每种类型的测试数据集上考虑的其他特征选择方法。与其他特征选择方法相比,根据各种同时评估标准,二次编程特征选择还可以为测试和实际数据集提供更好的质量结果。

本文的主要贡献是:

bull;用二次规划方法解决多重共线性问题并研究其性质;

bull;根据各种标准对测试数据集上的二次编程特征选择方法的性能进行评估;

bull;将所提出的特征选择方法与测试和实际数据集上的其他方法进行比较,并且表明所提出的方法比其他方法提供更好的特征子集。 特征子集质量通过外部标准来衡量。

1.1相关作品

Li(2016年)[18]等人对功能选择算法进行了全面的调查。它对滤波器、包装器和嵌入式方法进行了系统分析。(Askin,1982[2]; Belsley,Kuh,&Welsch,2005[3]; Leamer,1973[16])已经提出了多种策略来检测多重共线性并解决多重共线性问题。(Belsley et al。,2005[3]; Liu&Motoda,2012[20]) 解决多重共线性问题的一种方法是使用特征选择方法。它们基于评估特征子集质量的评分函数,或基于启发式顺序搜索过程。

(Efron,Hastie,Johnstone&Tibshirani,2004)[4]、Lasso(Tibshirani,1994)[28]、Ridge(El-Dereny&Rashwan,2011)[5]等基于评分函数的特征选择方法,和弹性网络(Zou&Hastie,2005)[29],并且基于顺序搜索,如Stepwise(Harrell,2001)[13]和遗传算法(Ghamisi&Benediktsson,2015)[7]。Lasso得分函数是残差的 范数和参数向量的范数的加权和。这个评分函数给出了一个很好的近似目标向量,并将参数向量中的大元素加起来。此外,参数向量的范数在获得的参数向量中产生稀疏性,因此进行特征选择。岭评分函数与套索相同,但使用范数代替范数。这种方法使解更稳定,但不给出稀疏的参数向量,比Lasso更不费力地选择有限元。弹性网络(Zouamp; Has领带,2005)使用参数的和范数的线性组合作为对剩余范数的惩罚。这一惩罚使我们无法将套索和Ridge的优势结合起来。这些特征选择方法的两个常见问题是根据惩罚项调整权重,并考虑数据集的结构。 Aha和Bankert(1996)[1]对使用顺序搜索的特征选择方法进行了研究。遗传算法(Ghamisi&Benediktsson,2015)[7]使用随机搜索来最大化目标函数,并在每次迭代中添加或删除一些特征,而逐步从一个空白特征集开始。并根据重要性在每个特征上依次添加一个特征由F测试确定。

2. 特征选择问题陈述

设 为设计矩阵,其中 为第j个特征。由 为特征索引集合,设 为特征索引子集。设 为目标向量。数据拟合问题是找到一个参数向量 ,使得

(1)

其中S是误差函数,给定设计矩阵X,目标向量y和函数f,验证参数向量w和对应特征索引子集A的质量。函数f近似于目标矢量y。

本研究探讨了线性函数

其中是包含指数为A的特征的简化设计矩阵,以及二次误差函数

(2)

假设这些特征是噪声的、不相关的或多线性的,这导致估计最优矢量时的额外误差并且增加了该矢量的不稳定性。特征选择方法可用于从设计矩阵X中去除某些特征。特征选择过程减少了问题(1)的维数,并且提高了最优向量的稳定性。 特征选择问题是

(3)

其中Q:A→R是确定选定特征索引子集的质量的质量标准.问题(3)不一定需要估计最优参数向量。它使用特征和目标向量y之间的关系。

令 是一个指标向量,使得当且仅当 时,。然后问题(3)可以改写为

(4)

其中 是域的准则Q的另一种形式。矢量 和索引集通过相关

(5)

2.1多重共线性问题

在这一小节中,我们给出了一个正式定义和一些特殊情况下的多重共线性问题。假设特征和目标矢量y被归一化:

(6)

考虑一个活动的索引子集。

定义2.1 如果存在索引j,则集合A中具有索引的特征是多线性的,系数,一个索引和足够小的正数

,使得

(7)

越小,多重共线性程度越高。这个定义的特定情况如下。

定义2.2 如果存在足够小的正数 ,那么i,j的特征是相关的

(8)

从这个定义可以得出 。如果 和,则k不等式(7)和(8)是相同的。

定义2.3 如果存在足够小的正数,则特征与目标矢量y相关

3.二次优化问题的多重共线性问题

在Katrutsa和Strijov(2015)[14]中表明,没有考虑任何特征选择方法(LARS,Lasso,Ridge,Stepwise和Genetic算法)解决问题(1)并给出同时稳定、准确和非冗余的模型。因此,我们提出了一种求解多重共线性问题的二次规划方法。所提出的方法的主要思想是最小化类似特征的数量并使相关特征的数量最大化。为了形式化这个想法,我们将问题(4)中的标准Q表示为二次函数

(9)

其中是成对相似特征矩阵,bisin;Rn是特征与目标向量相关性的向量。为了计算矩阵Q和向量b,我们引入函数Sim和Rel:

(10)

这些函数是依赖于问题的,在执行特征选择之前由用户定义,并指示如何测量特征相似度(Sim)以及与目标矢量(Rel)的相关性。为了强调二次规划特征选择方法对相似性和相关函数的依赖性,我们引入了下面的定义。

定义3.1 让QP(Sim,Rel)成为解决优化问题的特征选择方法

(11)

其中矩阵Q使用Sim来计算:

(12)

并且使用Rel计算矢量b:

(13)

下面我们举例说明Sim和Rel的功能来说明所提出的方法。

3.1 相关系数

可以使用Pearson相关系数(Hall,1999)计算特征xi和xj之间的相似性。Pearson相关系数被定义为

其中 是和之间的协方差,Var(·)是特征的方差。 样本相关系数定义为

(14)

其中和分别是和的平均值。 在这种情况下,的元素等于相应样本相关系数的绝对值:

(15)

并且 的元素等于特征与目标矢量y之间的样本相关系数的绝对值:

(16)

这意味着我们想要最小化相关特征的数量并且最大化与目标矢量相关的特征的数量。

3.2相互信息

另一种特征相似性度量基于互信息的概念(Esteacute;vez等,2009[6]; Peng,Long,&Ding,2005[26])。特征和之间的互信息被定义为

(17)

样本互信息是根据方程式中概率分布的估计值计算出来的。为了估计边际和联合概率分布,我们使用4.1节描述的方法[26]。该方法使用Parzen窗口方法和高斯核函数来估计概率分布,这是计算互信息所必需的,并且用求和代替积分以计算互信息。

在这种情况下,

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[23684],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。