一种新的医学数据集分类特征选择方法:内核F-score外文翻译资料

 2022-12-18 15:49:55

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


一种新的医学数据集分类特征选择方法:内核F-score

特性选择

Kemal Polat, Salih Guuml;nes

Selcuk University, Dept. of Electrical amp; Electronics Engineering,42075 Konya, Turkey

摘要:本文提出了一种新的特征选择方法——核函数F-score特征选择(KFFS),并将其作为医学数据集分类的预处理步骤。KFFS由两个阶段组成。在第一个阶段,利用线性(Lin)或径向基函数(RBF)核函数将医学数据集的输入空间(特征)转化为核空间。通过这种方法,医学数据集的维数增加到高维特征空间。第二阶段利用F-score公式计算了具有高维特征空间的医学数据集的F-score值。然后计算F-score的平均值。如果医学数据集中任何特征的F-score值大于该平均值,则选择该特征。否则,该特性将从特性空间中删除。利用KFFS方法,将无关或冗余的特征从高维输入特征空间中去除。使用核函数的原因是将非lin-早期可分离医学数据集转化为线性可分离特征空间。在本研究中,我们使用了心脏病数据集,SPECT(单光子发射计算机断层扫描)图像数据集,以及来自UCI (University California, Irvine)机器学习数据库的大肠杆菌启动子基因序列数据集来测试KFFS方法的性能。采用最小二乘支持向量机(LS-SVM)和Levenberg Marquardt人工神经网络作为分类算法。结果表明,与F-score特征选择相比,本文提出的KFFS特征选择方法取得了很好的效果。

关键词:特征选择;核函数F-score;特征选择最小二乘支持向量机(LS- SVM); Levenberg Marquardt人工神经网络;心脏病数据集;SPECT图像数据集;大肠杆菌启动子基因序列数据集;

介绍

特征选择或提取过程是模式识别和机器学习的重要组成部分。由于采用了特征选择过程,降低了计算成本,提高了分类性能。在机器学习和数据挖掘问题中,对所有特征数据进行合适的表示是一个重要的问题。并非所有的原始特性都对分类或回归任务有益。数据集的分布具有不可替代性、冗余性和噪声性等特点。这些特征会降低分类性能。为了提高分类性能和降低分类器的计算成本,在分类或回归问题中应该使用特征选择过程[1]。

有两种类型的特征选择问题:线性特征选择和非线性特征选择。线性特征选择和提取操作在原始输入空间中执行,因此它们都不能很好地处理数据集当中的非线性关系。例如,有限元的主成分可以与输入特征非线性相关,不同类别的数据不能被超平面分离。为了解决这个问题,内核方法是通过使用一个特别形成的映射函数将数据从输入空间映射到内核空间来建立的[1]。在这些方法中,核主成分分析(KPCA) [2]提出了非线性主成分的计算方法。Fisher判别分析(KFD) [3]和广义判别分析(GDA) [4] 可以使用数据集的类别信息。但是,利用这些方法完成的额外特征的数量被分类的数据所限制,这些数据至多是n-1[1]

在文献中,有一些与心脏病诊断相关的工作。其中,Polat等人[5]提出了一种基于特征选择、模糊加权预处理和AIRS分类器相结合来对心脏病数据集进行分类的新决策系统,通过50-50%的分割训练测试得到了92.59%的分类准确率。他们使用基于人工免疫识别系统(AIRS)和模糊资源分配机制的混合系统,以及基于k-nn(最近邻)权值的方法,实现了87%的分类精度。并且采用人工免疫识别系统(AIRS)分类器与模糊加权预处理相结合的混合专家系统对心脏疾病进行诊断,通过10倍交叉验证,获得了96.39%的分类准确率。Ozsen等人[6]提出了一种基于Hybrid特征向量的新型分类算法AIS (Artificial Immune System),并将其应用于心脏病诊断。他们获得了83.95%的分类精度。Kahramanli等人[7]利用fuzzy神经网络对克利夫兰心脏病的诊断准确率为86.8%。

单光子发射计算机断层扫描(SPECT)图像在心脏疾病诊断方面的研究较少。Polat等人[5]提出了一种基于不同特征子集和AIRS分类器的新型集成分类器系统来从SPECT图像中识别心脏疾病,并通过50-50%训练试验分割。Bakırcıet等人[8]使用RBF人工神经网络和GRNN (General回归神经网络)对SPECT图像分类,得到了88.24%和93.58%分类准确性。

近年来,有关大肠杆菌启动子基因检测的文献报道较多。Polat等人[8]将特征选择与Fuzzy-AIRS分类器相结合,采用混合系统对大肠杆菌启动子基因序列进行分类,通过10倍交叉验证,获得了90%的分类性能。Polat等人[9]采用特征选择与最小二乘支持向量机(FS_LSSVM)相结合的新方法对大肠杆菌启动子基因序列进行预测。Geoffrey G. Towell等人[10]利用KBANN、标准Backprogation、O Neill、最近邻和ID3算法分别对大肠杆菌启动子基因序列分类的预测准确率分别为96.23%、92.45%、88.67%、87.73%和82.07%。

本文提出了一种新的特征选择方法,即核函数F-score特征选择方法,对包括心脏病、SPECT图像数据集和大肠杆菌基因序列数据集在内的医学数据集进行分类。该方法首先利用RBF或线性核函数映射数据集的输入空间,将非线性可分数据集转换为线性可分数据集。然后利用F-score公式计算了具有高维特征空间的医学数据集的F-score值。通过对F-score的计算,得出F-score的平均值。如果医疗数据集中任何特征的F-score值大于该平均值,则选择该特征。否则,该特性将从特性空间中删除。利用KFFS方法,将无关或冗余的特征从高维输入特征空间中去除。我们使用两种分类器算法作为分类器,分别是LS-SVM分类器和LM人工神经网络分类器。

本文的其余部分组织如下:我们将在下一节中介绍内核F-score特性选择。在第三节中,我们解释常用的分类器算法,包括LS-SVM和LM人工神经网络算法。第四部分给出了实验结果和提到的特征选择的性能。最后,我们在第五部分对本文进行了总结,并展望了未来的发展方向。

内核F-score 特征选择 (KFFS)

首先介绍F-score方法,然后给出了核函数F-score特征选择方法。

F-score方法是一种基本而简单的技术,它测量两个具有实值的类之间的区别。在F-score方法中,根据公式(1)计算数据集中每个特征的F-score值,然后通过计算所有特征的F-score的平均值,得到阈值,从而从整个数据集中选择特征。如果任何特征的F-score值大于阈值,则将该特征添加到特征空间当中。否则,那个特征被移动到特征空间当中。给定训练向量 k= 1,hellip;,m,[11]如果积极和消极的情况分别是n n-,则第i个特征的F-score的公式如下:

(1)

上述式子中,是整个特征子集当中的第i个特征的平均值分别的积极和消极的数据集。为第k个正实例的第i个特征,为第k个负实例的第i个特征。分子表示正集和负集的区别,分母表示两个集合中各有一个。F-score的值越大,这个特征越有可能具有歧视性。但是F-score方法的缺点是没有考虑特征之间的相互信息[11]。

在提出的特征选择方法中,为了将非线性可分数据集转化为线性可分数据集,降低分类算法的计算成本,提出了核函数F-score特征选择方法。首先,利用线性[11]或径向基函数(RBF)核函数将数据集的输入空间(特征)映射到核空间。这样,数据集的维数就转化为高维特征空间。将输入空间转换为内核空间后,利用F-score公式(1)计算具有高维特征空间的数据集的F-score值。然后计算出F-scores的均值,并选取该值作为阈值。如果数据集中任何特性的F-score值大于阈值,则选择该特性。否则,该特性将从特性空间重新移动。利用KFFS方法,将无关或冗余的特征从高维输入特征空间中去除。使用核函数的原因是从非线性可分的医学数据集到线性可分的有限元空间。图1为内核F-score feature selection (KFFS)的流程图。在本研究中,使用的内核函数如下公式(2)和(3):

  • (2)
  • (3)

在RBF核实验中,采用试错法求出RBF函数的和的参数。

图1.核函数F-Score特征选择的流程图

使用分类方法

在本节中,我们使用了两种分类器算法,包括利用LS-SVM分类器和Levenberg-Marquardt人工神经网络对医学数据集进行分类。在分类器的训练和测试中,我们使用了50-50%的训练-测试数据集分割。我们在下面的小节中解释了这些分类器算法。

最小二乘支持向量机分类器

支持向量机是一种统计的、鲁棒的方法,它能够成功地用于模式识别和回归问题[12]。它是在结构风险最小化准则的概念下形成的。这项技术第一次被Vapnik[13]提出为了完成分类和回归的任务。我们首先介绍了支持向量机(SVM)和然后定义了支持向量机与最小二乘支持向量机(LS-SVM)的区别。LS-SVM是由Suykens和Vandewalle(1999)[14]提出的。图2为SVM分类器[15]。在此图中,我们开发了一个线性SVM来进行分类包含两个可分离类的数据集。设训练数据由n个基准面,hellip;,,和。为了区分这些类,SVM必须找到最佳的分离超平面,这样SVM具有很好的分离效果泛化能力。所有分离的超平面都形成了如下公式(3)和(4):

(3)

(4)

在等式情况下,上述公式中提供的数据点称为支持向量。分类任务支持向量机是利用这些支持向量来实现的。这些超平面的边值符合下列不等式(5):

(5)

图2.简单支持向量机的结构

为了使这个边值(C)最大化,将w的范数最小化。为了减少范数w的解的个数,确定了以下等式(6):

(6)

然后根据约束(2)最小化公式(7)

(7)

当我们处理线性不可分的数据时,将松弛变量代入公式(8)和式(9)。

(8)

(9)

由于支持向量机基本上可以对线性情况下的数据进行分类,所以在非线性可分数据分布的情况下,支持向量机并不能有效地完成分类任务。为了解决支持向量机的这种限制,我们利用内核方法与支持向量机相结合来解决。利用核函数将非线性可分输入数据集转换为高维特征空间。

在LS-SVM分类方法中,将支持向量机中的不等式约束转化为等式约束。LS-SVM的训练过程是通过解一组线性方程组来完成的,而不是一个二次可编程问题[14]。在Vapnik定义的标准SVM中,公式(9)根据公式(8)最小化,而在LSSVMs中,公式(11)根据公式(10)最小化。关于LS- SVM分类器的详细信息可以在[16]和[14]中找到。

(10)

(11)

根据这些公式,将它们的对偶问题构造为公式(12):

(12)

在LS-SVM分类器的训练和测试中,对核函数的选择进行了实证研究,并利用径向基函数(RBF)核函数实现了最优结果。

RBF核:;其中是一个正数。

在我们的实验中,选择为100,000。采用试错法计算了参数,结果为1000。

基于Levenberg–Marquart的人工神经网络

通过学习过程,构造了一种针对特定应用的神经网络,如模式识别或数据分类。反向传播(BP)算法是一种应用最广泛的多层感知器(MLP) [16]。LM算法主要是基于最大邻域思想的最小二乘估计算法。MLP由三层组成:输入层、输出层和一个或多个隐藏层。每一层都由一定数量的神经元组成。输入层中的神经元仅起缓冲作用,将输入信号分配给隐藏层中的神经元。图3为LM人工神经网络的基本架构。在这个图中,网络由三层组成:输入层、隐藏层和输出层。在应用中,输入层的节点数和输出层的节点数分别根据医疗数据中的样本个数和class标签来分别优化。

lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20137],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。