中文文本分类系统与分类优先级外文翻译资料

 2022-07-25 14:02:38

英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料


中文文本分类系统与分类优先级

Huan-Chao Keh

信息工程专业,淡江大学,台北,台湾

电子邮件:keh@cs.tku.edu.tw

定安江,致诚许和回族华黄

信息工程,淡江大学,台北,台湾系

电子邮件:chiang@cs.tku.edu.tw,894190130@s94.tku.edu.tw,893190040@s93.tku.edu.tw

摘要

文本分类过程中涉及到一些对文件的内容和/或一些以前的分类知识的理解。对于这些文件的内容,我们使用一个过滤测量功能来选择我们的中文文本分类系统。我们修改了TF-IDF公式,加强重要的关键词的重量并且削弱重要关键词的权重。在分类的知识中,我们使用类别优先代表了两个不同类别之间的关系。
因此,实验结果表明,我们的方法不仅可以有效地减少噪声文本也能增加文本的准确率和分类召回率。

关键词:文本分类,特征选择,过滤措施,文本挖掘

介绍

英语在许多家庭作为主要语言被使用在最近的文本挖掘研究中[1][2][3]。中国语言家庭研究并不常见。因此,我们有一个实际的中文文本分类系统的研究。在中文文本,在汉字和英语单词之间并没有明显的空间,数字和符号通常包括在里面的,所以特征提取需要标点符号。中国标点符号是将特定文本分割为一些不确定长度的单词的。因为一个汉字都有不同的含义。当与不同的字符进行结合的时候,中文标点符号如果想获得最恰当的意思必须依靠庞大的词库和上下文比较等方法获得。既然此系统只有分类中国的文章,在预处理阶段,我们删除所有字符除了中文单词并且开始使用由中央研究院的图书馆团队开发的用于中文标点符号的
中文标点符号系统[4],。我们发现一些功能可能会有遗漏或与被分为不同的特性在不同的含义下:例如“大腸桿菌(大肠杆菌)切成“大腸”(大肠)和“桿菌”(杆菌),尽管“大腸桿菌(大肠杆菌)”应当被视为单一的特性。虽然有些特性可能不能从一个特性中被分割开,但是他们之间的相关性特征是存在的。如果这种类型的结合特性被视为一个特殊的功能,这对做分类处理这件事将会是有帮助的。关联规则可以被用于查找可能和其他特征有联系的关系。因此,我们利用关联分类技术处理此类主题作为参考。[5]。
在本文中,我们使用功能关系超过两个字符来计算这些项的权重相对类别。再被分割之后,文档

将会被一组词表示。 文件D可以修改成d =((F 1,W 1),(F 2,W 2)...(F I,w i)),其中

每个F i是一个文件字而w i表示其频率。

因为在一个集合中出现在不同的字的数量可能会非常大,并且包含许多与分类不相干的词语,除了

消除停用词和助词,如「的」(中),「而且」(也),「和」(和),「因为」(因为)之外,所以特征简化功能经常被执行。作为参考被指了出来。 [3],过滤和包装是两种主要的使得功能降低的方法。由于包装方法很消耗时间并且有时不能被使用,在本文中,我们为特征选择在文本分类系统使用过滤措施TF-IDF。虽然TF-IDF在许多表现不错情况[6],该公式仍然存在一些问题。为了解决这些问题,我们将修改这个公式提高分类的召回率和准确率。我们将在第三节介绍这个改良公式

本研究的数据源主要来自台湾大学论文的摘要。这些论文摘要主要来自“全国论文提取论文信息网“[7]。一般来说,文件通过文件的内容分类成不同的类别进行直接记录。然而,文件是这篇论文在这个研究下的概述摘要并且一些论文会涉及跨越很多不同的领域。如果我们不考虑以前的一些关于分类的知识,论文应该被发布它的相关部门进行分类,但是只能考虑这些论文的内容。这样有可能导致一些分类错误

例如,一些化学系的论文可以子啊生物领域申请相关的化学知识,因而在文件分类,它可能被错误地分类

成生物学领域,因为其中存在很多在“生物学”类别的摘要关键字。在本文中,我们使用分类优先级解决这类分类错误。分类的优先级分体我们将会在第3节进行介绍

本文的其余部分安排如下:第2节,对相关的工作进行了总结。在第3节,改进的TF-IDF方法和分类优先级的重点呈现。第4节介绍了实验结果。 在第5节,结论和进一步的研究描述。

相关工作

A.文档分类处理

不同的文本分类系统已经在最近被提出[8] [9] [10] [11],在本文中,我们主要是指AAS和Eikvil[12]以及对中文文本分类系统过程的总结。我们将这一过程制作成了图标,如下图所示 2.1。该系统机密文件作为培训文件和测试文档,通过短语分布统计来看用预处理培训文档已知的分类和提取的各种功能,保留

有意义的短语和建造的分类估计模型,然后将测试文档进行分类。

在文档分类之前,我们必须选择并且确定文档文件。标题,摘要或指定的章节可以作为文件的配置文件。 如果所有文档内容选择为文档的概要描述,那将是一个巨大数量的文字信息和很多无意义的信息。文档的概要描述因此,应根据分类特征进行选择并且应该是最有代表性的内容。正确的文档的概要描述可以减少多余的文本信息以便提高分类性能。例如,马龙[10]把交易电子计算机期刊作为文档来源,并且选择摘要作为文档的概要描述。哈米尔[8]将化学文摘标题作为文档的概要描述。

特征提取被进一步分成预处理,文档表示和特征选择。在这部分,大部分的相关文献都是英文文件作为测试数据源。如果中国的文件被测试;在特征提取部分,一个中国标点符号的处理必须另外进行。在被分割开后,除了消除停用词和辅助的话,我们必须要执行的功能选择是以减少不相关的会影响分类的话。

B.重量计算

功能提取文件往往被表示为矢量图形(重量,关键字)。重量可以是通过不同的方法进行计算的,比如信息计算获得[10] [13],交互信息[10]等。这些作为参考被指出。 [14],在许多情况下所述的TF-IDF方法表现良好。在本文中,我们在我们的系统总使用这种过滤测量方法,下面是对于这种方法的介绍。

TF-IDF方法使用的术语频率和文档频率计算出一个文件中一个单词的重量。词频TF(T,D)是这个单词t在原告d中的频率。文档频率DF(t)是对于包含T字的文档数目。

D是文档的数量并且IDF(t)是一个T字在整个文档中的的过酌度。由于一个字t在文档d中的重要性正比于一个字的频率在一个文件和逆文档中存在频率,即一个字的t在文献d的重量,W(T,D),可以通过下列公式计算:

W(T,D)= TF(T,D)times;IDF(T)(2)

在上述式中,W的较大的值(T,D)指示字t出现在文档d的较高频率,但一个在所有文档中t出现的较低频率。

是用这个公式的问题是,它很容易在每个类别中产生一个恒定不变的有关于项t的IDF(T)或者产生类似的项t的权重相对于各种类别。当这种情况发生时,在T的重量不同的文献d完全取决于术语频度TF(T,D)。当一个噪声项的频率,TF(T,D更高,权重W(T,D)相对于各类别将更大;因此,分类误差概率将会增加。为了提高分类准确度,可酌情应采取考虑每个字的类别分布。这个文章主要采用TF-IDF权重法并且做了一些改进。修改后的TF-IDF会在下一节进行介绍。

C.分类

许多文档分类算法,如Rocchio分类[15] [16],决策树分类[17],SVM(支持向量机)[18]KNN最近邻规则[19],和朴素贝叶斯[13] [20],都在最近已经被提出。各个分类算法各有优势和不同的分类模型。在本文中,我们使用朴素贝叶斯分类方法进行分类文件;因此,仅将此方法引入此节。

朴素贝叶斯分类方法是在贝叶斯分析的理论基础上设计的方法。贝叶斯分析在18世纪初由托马斯·贝叶斯

提出的。它的基本原理是修改(或改善)按照一定的事件除了一些额外的信息的边界概率。它预测的概率

对象的是某一类的成员,以便为完成分类。本研究采用贝叶斯概率[13] [20]作为分类标准。对于朴素贝叶斯分类器,本文计算根据TF-IDF所有的特征项的权重式。对于测试文档,贝叶斯执行作为的分类规则基础。它使发生特征方面的数lt;F 1,F 2,F 3 ...,F Igt;的文档(j)和乘以其匹配的IDF。该获得的权重该类累积完整提供的类的数量是已知的。和那么它概括一类的累计完整的文件即可匹配该类积分。

value(j)为每累计完整文件。基于该概率数据,我们可以分类这种未被分类的数据与最高的类别可能性。

III。系统

A.系统的过程

如图3.1所示,该系统首先总结了每学期在训练文件中的发生的事件并使用改进的TF-IDF建设的权重表。由此,该系统计算的总和每个涉及每一种分类的测试文件。此外,由于该文档具有跨领域的性能,,在

类优先的基础上最高权重或次高重量将被选择为最终的分类结果。

B. TF-IDF改进

传统的TF-IDF方法没有考虑在不同类别的特征词的分布;因此,它不仅可区分重要词语因为它们发生少倍的文档中,但是也是在降低噪音方面的用处却不大,因为IDF(t)是接近于零。为了区分无意义噪音方面和重要功能方面,类别特征方面的分配应该考虑到该考虑东西。因此,改善了的TF-IDF其公式如下表示:

W(T,C)= TF(T,C)times;IDF(T,C)(4)

在这里,TF(T):的术语t频率

TF(T,C):在C类的术语t频率

D:文档总数

DF(T):术语t文档频率

alpha;:类别总数

beta;:其中项t出现次数

改进的IDF由三个项目:第一项是使用其在一类的集合确定项t的自由裁量权,即较高的的项t的出现是在分类里的,较小的分母是(接近1)。较低的类别项t出现在分类里,分母越大(近分子)使IDF变低;第二项是传统的IDF;第三项是用项t被分配的分类的数量确定长期t的分配,项t分布类别。如果出现项t

在只有几大类,那么IDF将上升;然而,如果项t出现在多个类别,那么IDF下降。

例如,如表3.1所示,传统的TF-IDF加权方法无法过滤不重要词“研究”(研究)和“结果”(结果)。不像

传统的TF-IDF加权法,改进TF-IDF的方法是能够用类别分配参数,以降低噪声方面的影响。如表3.1所示,“研究”(研究)和权重“结果“(结果)被减少到零。

另一个例子示出的是,根据分配在各种类别,改进的TF-IDF方法能加强或减弱相同的重要性与在相同的相对于不同类别的关键字时间。例如,如表3.2所示,“台风”(台风)的重量在两个“民法”类别,“大气”的范畴。同源更多的权重比较“台风”改进的TF-IDF的(台风)和传统的TF-IDF加权方法,很明显,重量“台风”(台风)的类别“民法”的是减弱;和另一例子中,“钢琴”(钢琴)具有重量在两“乐”和“教育”类别。然后得到改善,在类别“音乐”的重量得到了加强,并在“教育”减小到零。因此,改进的TF-IDF方法可加强在各种类别的关键字分化,以便提高分类准确率。

C.优先类

如在引言中提到的,数据源是来自台弯大学的论文摘要以及被发布这些论文的这些领域的院系进行分类。由于一些论文可以跨越两个不同的部门,这种情况可能会导致分类错误。例如,文件原本属于中在“化学”的分类中包含一个抽象的生物关键字,如“细菌”,“感染”等,会因为在“生物学”类别进行分类相对于“生物学”重量比大于“化学”。为了确定主要部门这些论文中,不同的优先级应给予这两种不同的类别。在本文中,我们提出一个简单的办法,优先类,来解决这个问题。因为我们发现,在化学系常常会产生类似于生物学论文,但生物学部门很少会产生类似化学论文,我们可以使用类别优先描述上述这种交叉领域的论文的关系。在这情况下,“化学”类的优先级是比“生物学”类别更高和这种关系的可被表示为如下:

化学 生物学。 (6)

此外,由于这些论文都跨越生物学和化学领域,相对于这些论文权“化学”类和“生物学”类别应比其他部门更高。因此,我们可以定义以下的算法,作为在下面的算法表示出跨字段分类论文。

该算法的分类交叉领域论文。

/ *让原稿D是一个过路的论文“A”和“B”

字段,以及“A”是高于类别优先

该“B”的* /

{如果论文为“A”的权重最高,

然后本文属于“A”类,

否则,如果重量的“A”和“B”之间的比

达到某一阈值,

然后本文属于“A”类,

否则本文属于“B”类。 }

这些论文这是覆盖生物学分类并通过上述算法化学领域,我们可以选择文件所在的权重最高的是“生物学”类和第二权重最高的是“化学”的范畴。如果重量之间的比“化学”类和“生物学”类别达到一定阈值时,我们可以这样分类根据记录的“化学”的范畴第二权重最高。通过实验的经验,本研究设置阈值作为0.6。例如,用来比较的实验结果改进的TF-IDF方法,不需要和需要类别优先级,如表3.3所示,当类别优先使用化学?生物时,有15个是论文从“生物学”类别为“化学”分类类别并且14个论文被正确分类。

此外,化学系的一些论文也可申请相关的化学知识的民政部门的领域,因此,在文档分类,它可能会被错误地分为“民法”范畴。例如,一个文件原来属于在“化学”类别,它有一个抽象的包含了“土木工程”自然的关键字,例如为“混凝土”,“水泥”等,将在被分类“民法”的范畴,因为相对权重“民用”是大于为“化学”。出于同样的原因在“化学”类和“生物”之间类,我们定义的“化学”的优先级类是比“民用”类别的更高。这个关系可以表示如下:

化学 民间。 (7)

如表3.4所示,当传统的TF-IDF法和优先类化学 民间是使用,但是,它是由所述分类65提纲“民法”范畴进入“化学”的类别和52论文被正确分类。此外,如图中表3.3,改进的时候TF-IDF方法和分类优先

全文共5602字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[154865],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。