英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料
一种新的文本分类概率特征选择方法
摘要
关键词:
功能选择、过滤、模式识别、文本分类、尺寸缩小。
特征空间的高维度是由于处理时间和精度考虑而导致的文本分类问题中最重要的问题之一。 因此,特征特征的选择对于文本分类至关重要。 本研究提出了一种基于滤波器的概率特征选择方法,即区分特征选择器(DFS),用于文本分类。 将所提出的方法与众所周知的过滤方法进行比较,包括卡方,信息增益,基尼指数和偏离泊松分布。 对不同的数据集,分类算法和成功措施进行比较。 实验结果明确表明,DFS在分类精度,尺寸减小率和处理时间方面提供了上述方法的竞争性能。
1.简介
随着互联网技术的飞速发展,全球电子文件数量急剧增加。 因此,文本分类(也称为文本分类)在这些文档的分层组织中已经变得重要。 文本分类的基本目标是将感兴趣的文本分类到适当的类[14]。 典型的文本分类框架包括从原始文本文档中提取数字信息的特征提取机制,以及使用标记数据的先验知识来执行分类过程的分类器。 文本分类已成功部署到各个领域,如主题检测[5],垃圾邮件过滤[16,19],作者识别[9,11]和网页分类[2,7,33]。
大多数文本分类研究利用手提技术[21]来表示一个文件,使文档中的术语顺序被忽略,但是考虑了术语的频率。 文件收集中的每个不同术语都构成一个单独的特征。 因此,文档由多维特征向量表示,其中每个维度对应于文档集合内的关联词的加权值(即,TF-IDF [28])。 由于这些功能来自不同的术语,文本集合中的文档数量甚至会导致数百甚至数千个特征。 文本中最重要的问题之一。因此,分类是处理特征空间的高维度。 功能过多不仅增加了计算时间,而且降低了分类精度。 因此,特征选择在文本分类问题中起着关键作用,以加快计算速度,提高准确性。
特征选择技术大致分为三类:过滤器,包装器和嵌入式方法。过滤器使用独立于学习模型或分类器的各种评分框架来评估特征相关性,并选择获得最高分数的顶级N特征[18]。过滤技术是计算速度快的;然而,他们通常不考虑功能依赖关系。另一方面,包装器使用特定的学习模型和搜索算法评估特征[17,24]。包装技术考虑特征依赖性,提供特征子集搜索与学习模型的选择之间的交互,但对于过滤器而言在计算上是昂贵的。嵌入式方法将特征选择整合到分类器训练阶段;因此,这些方法就像包装纸一样具体用于学习模型。然而,它们在计算上比包装纸的密集程度更低[18,35]。
在文本分类研究中,虽然有一些组合滤波器和包装器的混合方法[14,38],但由于处理时间相对较少,所以常用的特征选择方法是滤波器。术语强度[41],优势比[31],文献频率[42],互信息[27],卡方[8],信息增益[26],改进的基尼指数[36],偏离泊松分布的度量[32],基于支持向量机的特征选择算法[39],歧义度量[29],类别辨别度量[6]和二项假设检验[40]仅仅是过滤方法的一些例子。还考虑了通过不同滤波方法选择的特征的组合,并对其在不同条件下对分类精度的贡献进行了研究[14]。
尽管以往关于有许多方法,但特征选择仍然是一个持续的研究课题。研究人员仍然在寻找新技术来选择不同的特征,从而可以提高分类精度,并可以减少处理时间。为此,本文提出了一种基于滤波器的概率特征选择方法,即区分特征选择器(DFS),特别是文本分类。考虑到对术语特征的某些要求,DFS选择不同的特征,同时消除不知情的特征。将DFS与成功的过滤方法进行比较,包括卡方,信息增益,基尼指数和偏离泊松分布。对不同分类算法,数据集和具有不同特征的成功措施进行了比较,从而可以在不同条件下观察到DFS的有效性。实验分析结果表明,DFS在分类精度,尺寸减少率和处理时间方面提供了上述方法的竞争性能。
本文的其余部分组织如下:第2节简要介绍了与DFS进行比较的特征选择方法。第3节介绍了DFS方法。第4节解释了实验中使用的分类器。第5节介绍了与每个数据集,分类器和成功度量的相似度,准确度,尺寸减少率和时序分析相关的实验研究和结果。最后,第6节给出了一些结语。
2.现有的特征选择方法
正如上一节所指出的那样,在文本分类中有大量的基于过滤器的技术来选择特征。 在所有这些技术中,卡方,信息增益,基尼指数和偏离泊松分布已被证明是更有效的[32,36,42]。因此,针对这四个成功的方法评估了DFS的疗效。这些方法的数学背景在以下各小节中有所规定。
2.1卡方(CHI2)
最受欢迎的特征选择方法之一是CHI2。 统计数据显示,CHI2测试用于检查两个事件的独立性。假设事件X和Y是独立的
在文本特征选择中,这两个事件分别对应于特定术语和类的发生。CHI2信息可以使用
其中N是观测频率,E是项t和C的每个状态的预期频率[28]。 CHI2是对预期计数E和观察值N相互偏离的度量。过高的CHI2值表明独立性假设是不正确的。如果这两个事件是依赖的,那么这个术语就会使得类更有可能发生变化。 因此,相关术语作为特征是相关的。一个学期的CHI2分数是针对个别课程计算的。 这个分数可以通过两种方式在所有类中全局化。第一种方法是计算所有类的加权平均分数,而第二种方法是选择所有类中的最高分数。在本文中,优先考虑所有类别的CHI2值的通用化
其中P(Ci)是类概率,CHI2(t,Ci)是项t的类特定CHI2得分。
2.2信息增益(IG)
IG测量有关术语是否有有助于对任何类别进行正确的分类决定的信息 [13]。 如果术语是类关联的理想指标,则IG达到其最大值,也就是说,当且仅当文档属于相应类时,该术语存在于文档中。术语t的IG可以使用
其中M是类的数量,P(Ci)是Ci类的概率,P(t)和Peth;tTHORN;是项t的存在和不存在的概率,P(Ci | t)和P(Ci |﹁ t)是类的条件概率 Ci分别存在和不存在期限t。
2.3基尼指数(GI)
GI是另一种特征选择方法,它是原始用于在决策树中找到最佳分类的方法的改进版本[36]。它比其他方法更简单的计算[32]。其公式为:
其中P(t | Ci)是给定类Ci的项t的概率,P(Ci | t)是给定项t的存在的类Ci的概率。
2.4偏离泊松分布(DP)
DP派生自泊松分布,其也被应用于用于选择有效查询词的信息检索,并且该度量适于特征选择问题以构建新的度量[32]。 使用偏离泊松分布的程度作为有效性的量度。 如果一个特征符合泊松分布,则该度量的结果将会更小,这表明该特征与给定类无关。 相反,如果度量的结果更大,则该特征将更具歧视性。 这种方法可以表达为
其中F是所有文档中项t的总频率,N是训练集中的文档数,n(C)和n(﹁C)是属于C类而不属于C类的文档的数量,k是期望的频率 文档中的术语t分别为。 数量a和b表示C类文件中包含且不包含术语t的文档数量。虽然数量c表示包含术语t而不属于C类的文档数量, 表示没有期限t和课程的文件数量C在同一时间。此外,数量a; b; c; d分别是a,b,c,d的预设值。为了使整个集合中的类别特定分数通用化,加权平均分数[32]如下所示。
3.区分特征选择器
一个理想的基于过滤器的特征选择方法应该将高分值分配给特征特征,同时将较低分数分配给不相关的特征。 在文本分类的情况下,每个不同的术语都对应一个特征。 然后,考虑到以下要求,应进行排名:
1、一个常常发生在单一课堂而不发生在其他班级的术语是独特的; 因此,必须分配高分。
2、一个单一课程很少发生,不会发生在其他课堂上的术语是无关紧要的; 因此,它必须被分配一个低分。
3、一个经常发生在所有阶层的术语是无关紧要的; 因此,它必须被分配一个低分。
4、在某些类中出现的术语是相对偏见的; 因此,必须分配相对较高的分数。
根据第一和第二要求,初步评分框架构成为
其中M是类的数量,P(Ci | t)是给定存在项t的类Ci的条件概率,并且P(Ci | ﹁t)分别是给定类Ci的项t的不存在条件概率。从这个叙述可以看出,一个类别的所有文件中出现的术语不在其他类中出现的术语将作为最高评分为1.0。 此外,在单一类中很少出现的功能,不会在其他类中发生的功能将获得较低的分数。然而,该表达式不能满足第三个要求,因为所有类的每个文档中出现的特征也被无效地分配为1.0。为了解决这个问题,制定工作扩大到
其中P(t|﹁C)是给定除Ci以外的类的项t的条件概率。由于将P(﹁t|C)加到分母上,会减少所有类别中出现的术语的分数,所以第三个要求也是满足的。考虑到整个表述,第四和最后一个要求也是满意的。该表述提供了全面的文本收集功能的通用好坏,而不是类特定的分数。从这个评分方案可以看出,DFS根据其意义将分数分配到0.5和1.0之间的特征。换句话说,最具歧视性的术语具有接近1.0的重要性分数,而最小歧视性术语被赋予收敛到0.5的重要性分数。一旦获得了给定集合中所有术语的歧视性权力,就可以像其他过滤技术一样选择最佳术语。
表1中提供了一个示例集合,以说明DFS如何工作。
在这个示例场景中,最大分数被分配给仅在单个类的所有文档中出现的“鱼”,即C3。由于其在C2类的所有文件中出现,并且只有C3的单个文档,因此,成功者被确定为“鼠标”。“狗”一词被选为第三个信息特征,因为它们在三个类别中的C1和C2类中都出现一次。最后,由于在所有三个类的所有文件中出现,最不重要的术语被确定为“猫”。在这里,“鱼”和“猫”是歧视的两个极端情况。虽然“只”一个类的所有文件中都存在“鱼”,但所有文件中都存在“猫”。因此,
“鱼”的重要性分数为1.0,这是DFS分数最高的分数,而“猫”的重要度分数为0.5,这是DFS评分最低的。总而言之,DFS根据他们对课堂歧视的贡献,明确地命名为“鱼”,“老鼠”,“狗”和“猫”。
提供样本集和相关结果,以简要介绍DFS方法的工作原理。在实验工作中彻底评估了DFS对具有不同特征的各种基准数据集的实际性能。
4.分类算法
由于DFS是基于过滤器的技术,它不依赖于学习模型。因此,采用三种不同的分类算法来研究所选特征对分类精度的贡献。第一个分类器是决策树(DT),它是非线性分类器[37]。第二个是线性支持向量机(SVM)分类器[22]。第三和最后一个分类器是神经网络(NN)分类器[4]。所有这些分类方法已被广泛用于文献中的文本分类研究,并被证明是显着成功的[10,14,23,25,43]。
4.1 DT分类器
决策或分类树是多级决策系统,其中类被连续拒绝,直到达到接受阶级[37]。为此,特征空间被分割成与类对应的唯一区域。最常用的决策树类型是通过比较特征值与特定阈值将特征空间分为两部分的二进制分类树。因此,未知特征向量通过沿着决策树的节点路径的一系列是或非的决定被分配给类。在分类树的设计中必须考虑分割标准,停止分割规则和类分配规则。
分裂特征空间的基本目的是生成与以前的子集相比更加类同质的子集。换句话说,任何节点处的分裂准则是获得提供节点杂质最大降低的分裂。熵是广泛使用的定义杂质的信息之一,可以计算为
其中P(Ci | t)表示与节点t相关联的子集Xt中的向量属于C类,i = 1,2,...的概率。现在假设执行分割,NtY点被发送到“是”节点(XtY),NtN被发送到“否”节点(XtN)。然后将节点杂质的减少定义为
其中I(tYES),I(tNO)分别是tYES和tNO节点的杂质。 如果节点杂质的最大降低小于某一阈值,或者在分裂之后获得单个类别,则停止分裂处理。一旦节点被声明为最终或叶,则进行类分配。通常使用的分配方法是将叶子分配给相应子集中的大多数向量属于的类的多数规则。
4.2SVM分类器
SVM是文献中最有效的分类算法之一。SVM算法具有线性和非线性两种版本。 在本研究中,采用线性版SVM。 SVM分类器的要点是边际的概念[22,37]。 分类器利用超平面来分离类。 每个超平面的特征在于其方向(w)及其在空间中的确切位置(w0)。因此,线性分类器可以简单地定义为
然后,将两个分类的超平面wTx w0 = 1和wTx w0 = 1之间的区域称为边距。 边距宽度等于2 / kwk。实现最大可能的边际是SVM算法的基本思想。
这受到In(13)的约束,K是用户定义的常数,e是边际误差。如果属于一个类的数据位于超平面的错误一侧,则会发生保证金错误。因此,最大限度地降低成本是一个很大的差距和少量边际误差之间的权衡问题。获得这个优化问题的解决方案
这是训练特征的加权平均数。这里,ki是优化任务的拉格朗日乘数,yi是类标签。对于位于边缘内的所有点和分类器的正确一侧,k的值不为零。这些点被称为支持向量,并且所得到的分类器作为支持向量机。
在多类分类问题的情况下,两种常见方法之一,即一对一和一对一,可以优先采用两类分类为多类分类[20]。
4.3NN分类器
神经网络广泛使用的应用领域之一是模式识别问题[12]。 虽然已知一些神经网络如感知器对于线性分类问题是成功的,但是多层神经网络可以解决线性和非线性分类问题。 神经网络由非常简单的处理元素的神经元组成,并且通过加权链接彼此连接。 多层神经网络由输入,输出和隐藏层组成。 虽然一些隐藏层对于许多情况是足够的,但在某些情况下,使用两个隐藏层可能会提高性能[12]。 一个简单的多层前馈神经网络如图1所示。 1,其中n表示输入向量的维数,m表示输出数。
反向传播是多层前馈神经网络最受欢迎的训练方法之一。 反向传播训练有三个阶段给出如下:
图1 一个简单
全文共13613字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[142649],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。