题 目 对新闻评论进行情绪分析的混合方法外文翻译资料

 2022-12-24 17:02:21

A Hybrid Approach to Sentiment Analysis of News Comments

Addlight Mukwazvure1, K.P Supreethi2 1,2Department of Computer Science and Engineering JNTU College of Engineering Hyderabad Kukatpally, Hyderabad - 500 085, Telangana, India

1addymkz@gmail.com

2supreethi.pujari@gmail.com

Abstract— Today, the web hosts quite a voluminous amount of information. Among such information is user generated content which plays an important role in analyzing different business aspects. Sentiment analysis therefore becomes an effective way of understanding public opinions. Businesses, particularly in e- commerce, stock market, social networks and also political entities can use sentiment analysis for decision making. Traditional methods of opinion gathering involved the use of questioners and interviews which solely depend on the good will of the people to be interviewed. Most research on sentiment analysis focused on social networks, product reviews and also on the stock market. Less research has been covered on analysis of news comments. This research embarks on a hybrid approach to sentiment analysis of news comments which involves using sentiment lexicon for polarity detection (polarity will be classified as positive, negative and neutral). The results from the lexicon based method are then used to train machine learning algorithms. Two algorithms employed in this research are the Support Vector Machine (SVM) and K-Nearest Neighbour (kNN). Experimental results show that SVM performs better than kNN on news comments.

KeywordsUser generated content, sentiment analysis, sentiment lexicon, polarity, SVM, kNN

  1. INTRODUCTION

The rapid increase in web 2.0 applications has seen a vast amount of information available on the web today. Users can now give their perception concerning an entity or service on the web. Such user generated content can be of value to various organizations. Finding ways therefore, to mine such content becomes vital in this web era. One such way of mining user opinion is known as Sentiment Analysis, also known as Opinion Mining. These two terms have been used interchangeably but [1] highlights a slight difference between the two. Opinion mining can be defined as a means to understand the peoplersquo;s emotions, attitudes and perceptions about a service or entity whereas sentiment analysis finds opinions, identify the sentiment expressed in the text and then classify its polarity. For this reason sentiment analysis has been defined as a classification problem[2].

Sentiment analysis finds itrsquo;s applications in many areas among which business and politics are not exempted. By understanding public views and feelings about an entity,

businesses can tailor make their services to meet public demands. Consumers on the other hand find it easier to make purchasing decisions. Politicians can also determine the level of support they have and can consequently measure the effectiveness of their policies.

Up to now sentiment analysis has been limited to a single domain, with research on cross domain sentiment analysis still ongoing. A large number of previous works on sentiment analysis majored on highly subjective texts like product reviews, movie reviews and twitter data, however sentiment analysis has also found its way in newsrooms. Taking into cognizance that in product reviews and tweets, the author of the text is the opinion giver, classification is somehow different when dealing with news. News articles are generally objective and what determines the audiencersquo;s reaction and feelings about a particular article is not deduced from the article but from the comments the commentators give regarding the issue addressed in the article. These comments can provide information to the news agents on how the public perceive their coverage. It can help them to know information like quality of their work, coverage expected by users and also editorial issues. Instead of manually reading through every comment on the web, automatic classification of the comments as positive or negative will therefore be valuable information to the entity in question.

The rest of this paper is organized as follows: Section II presents related work. Section III described the proposed system framework while Section IV describes the general system overview of the hybrid approach. Section V presents experimental evaluation and analysis. Section VI concludes the paper.

  1. RELATED WORK

There are basically two main approaches to sentiment analysis which are lexicon-based approach and machine learning approach [3]. The lexicon based approach, unlike in machine learning, do not require the storage of a large corpus of data. It utilizes lexicon or dictionaries to calculate the semantic orientation of a document. Semantic Orientation (SO) is a measure of subjectivity and opinion in text and it captures polarity and strength of words or phrases [2], [3]. Each wordrsquo;s SO determines the overall sentiment orientation of the document[4]. Opinion lexicon can either be manually or

978-1-4673-7231-2/15/$31.00 copy;2015 IEEE

automatically created. Machine learning methods consist of supervised and unsupervised learning. Unsupervised learning methods do not require labelled data for classification while supervised learning algorithms require a labelled corpus for training the classifier [5]. There are a number of algorithms that can be used in supervised learning. The challenge with this method is that we do not always have well defined data.

There is quite a number of research on sentiment analysis on the news with most research centred on news articles. Machine learning supervised approach was implemented in Sentiment Classification for Online

剩余内容已隐藏,支付完成后下载完整资料


外文翻译

题 目 对新闻评论进行情绪分析的混合方法

作 者 Addlight Mukwazvurel,K

发表时间_____ 2015年_______

二O 一九 年 四 月 十五 日

摘要:今天,网络承载着大量的信息。其中用户生成的内容,在分析不同的业务方面起着重要的作用。因此,情绪分析成为理解民意的一种有效途径。企业,尤其是电子商务、股市、社交网络以及政治实体,可以利用情绪分析来做出决策。传统的意见收集方法包括使用提问和面谈,这完全取决于面谈者的良好意愿。大多数关于情绪分析的研究都集中在社交网络、产品评论以及股市。对新闻评论分析的研究较少。本研究采用一种混合的方法对新闻评论进行情感分析,包括使用情感词典进行极性检测(极性分为正极性、负极性和中性)。然后将基于情感词典方法的结果,用于训练机器学习。本研究采用的两种算法是支持向量机(SVM)和k近邻(kNN)。实验结果表明,支持向量机在新闻评论方面优于kNN。

关键词:用户生成内容,情绪分析,情绪词典,极性,SVM, kNN

1.介绍

在这个网络时代,寻找挖掘这些内容的方法变得至关重要。其中一种挖掘用户意见的方法称为情绪分析,也称为意见挖掘。这两个术语可以互换使用,但是强调了两者之间的细微差别。意见挖掘可以定义为理解人们对服务或实体的情感、态度和看法的一种手段,而情绪分析则是发现意见,识别文本中表达的情绪,然后对其极性进行分类。因此,情绪分析被定义为一个分类问题。

情绪分析发现,它在许多领域的应用,其中商业和政治是不豁免的。通过了解公众对一个实体的看法和感受,企业可以根据公众需求定制服务。另一方面,消费者更容易做出购买决定。政治家还可以决定他们得到的支持程度,从而衡量他们的政策的有效性。

目前,情绪分析仅限于单个领域,跨领域的情绪分析研究仍在进行中。以往大量的情感分析工作都是围绕产品评论、电影评论、推特数据等高度主观的文本展开的,然而,情感分析也在新闻编辑室中找到了自己的方法。考虑到在产品评论和tweet中,文本的作者是意见的给予者,在处理新闻时,分类在某种程度上是不同的。新闻文章一般都是客观的,决定读者对某篇文章的反应和感受的不是文章本身,而是评论人对文章中所涉及的问题的评论。这些评论可以为新闻机构提供公众如何看待他们的报道的信息。它可以帮助他们了解信息,如他们的工作质量,用户期望的覆盖面,以及编辑问题。因此,自动将评论分类为正面或负面,而不是手动阅读web上的每一条评论,对相关实体来说将是有价值的信息。

2. 相关工作

情绪分析主要有两种方法,即基于词汇的方法和机器学习方法。与机器学习不同,基于词汇的方法不需要存储大量数据。它利用词典或词典来计算文档的语义方向。语义指向(SO)是对文本中主观性和观点的一种度量,它捕捉到词或短语的极性和强度。因此,每个单词都决定了文档的整体情感取向。意见词典可以是手动的,也可以是手动的。

关于新闻情感分析的研究相当多,其中以新闻文章为主。将机器学习监督方法应用于中文新闻在线评论的情感分类。这些评论是使用Ajax技术从新浪网上抓取的。评论中包含噪音数据。他们使用计算技术研究所的中文词汇分析系统(ICTCLAS)工具包进行中文分词。ICTCLAS工具包包括分词、词性标注和未知词识别。在特征选择方面,采用候选特征确定、利用信息增益进行特征滤波、利用Tf-Idf进行特征加权三个步骤。代词也被纳入候选功能。采用支持向量机(SVM)和k近邻(KNN)两种分类器。实验结果表明,支持向量机在春运顶层的准确率为60.96%,优于KNN。

提出了一种利用ConceptNet、SenticNet等常识性知识库对MPQA语料库新闻文章进行情感分析的感知计算方法。本研究的目的是为了实现句子层次的情感分析。该意见引擎由语义分析器、情绪分析器和SenticNet数据库副本组成。语义分析器用于从每个句子中提取常识性概念。然后,语义分析器将这些概念与SenticNet中的感知向量进行匹配。感知向量只描述句子中的情感,而不描述句子的极性。然后使用极性测量将一个感知向量转换成极性分数在-1.0到 1.0之间。每个概念的感知能力向量都是基于情感的沙漏,它将情感分为四类,分别是愉悦感、能力倾向、注意力和敏感度。

监督方法通常倾向于给出更好的结果,但不能忽视标记数据不可用的挑战。因此,已经实现了利用这两种方法的方法。也有一些方法,使用学习方法和情感字典相结合的分类。一项关于从无注释文本中创建主观和客观句子分类器的研究,使用了两个基于规则的分类器生成标记训练数据集,用于后续学习算法。这些数据被分为主观和客观两类。一种基于规则的分类器是主观分类器,用于识别主观句,而客观分类器识别客观句。在标注测试集上,基于规则的主观分类器的主观回忆率为34.2%,主观准确率为90.4%。基于规则的目标分类器实现了30.7%的目标查全率和82.4%的目标精度。然后使用朴素贝叶斯分类器进行分类。他们引入了使用AutoSlog-TS算法学习提取模式的方面,而不仅仅是训练分类器,因为它不需要训练[12]的注释文本。AutoSlog-TS只需要一组“相关的”和“不相关的”文本。他们探索与客观性相关的模式,然后将它们作为机器学习算法的特征。我们的工作紧紧遵循这种,使用两种不同方法进行分类的方法。但是,我们将不使用AutoSlog-TS,而是使用一个情感字典来标记未注释的文本。

3.系统框架

本系统包括三个基本模块:爬行模块、基于词典的模块和机器学习模块。爬行模块主要用于从相关网站(www.theguardian.com)下载新闻及其相关评论。然后对这些评论进行预处理,然后使用意见词典对其进行分析,以确定他们的观点。利用机器学习模块对数据进行训练和测试。我们使用的训练数据是情感词汇标注的数据。

3.1 观点词汇和情感计算

在预处理之后,我们使用一个情感字典来给文本分配极性。使用sentiment lexicon为评论分配情绪标签,而不是手工注释新闻评论。我们使用了AFFIN-111单词列表。AFFIN是由Finn Arup Nielsen开发的情感词汇。单词列表包含2477个单词和短语,情感得分在-5到 5之间。根据词典中各个单词的得分,判断一个评论的情绪如下:

(1)

Sentiment是一条评论的总体情绪,len (comments)是一条评论的总字数和S

(w)为每个单词的情感得分

例如这条评论:“So?”无论如何,这部电影很糟糕。”这条评论的sentiment是句子中每个单词的sentiment score之和,len(句子)= 6。为了得到该文档的情感,在本例中,我们将单个评论的情感得分相加,然后使用该特定文档的评论总数对它们进行权衡,如下所示:

(2)

情绪是一篇文章的整体情绪,S是每条评论的情绪,len (comments)是评论总数

使用下面的算法为分类器分配标签

1:如果情绪gt;1,那么标签是 1

2:如果情绪lt;1,则标签为-1

3:其他

4:标签为0

3.2 特征提取与选择

特征选择是指在数据中,选择与问题中的预测建模问题最相关的属性。考虑到文本的非结构化,预处理起着重要作用。特征识别过程产生了大量的特征。其中一些特征对分类的影响较小,因此我们采用了特征加权。

特征加权方法有存在性、项频(TF)和TF- idf等。

存在:

基本上检查一个特性是否出现在文本中。如果该特性出现在文档中,则值为1,否则值为0。

特遣部队:

TF是一个特性在文档中出现的次数。TF可能会忽略一些低频特性。然而,在某些情况下,这些低频特征对分类有很大的影响,因此需要使用不同的加权方法。

TF-IDF:

TF-IDF是我们在这项工作中使用的方法。它用于度量一个单词对集合或语料库中的文档的重要性。重要性随单词在文档中出现的次数成比例增加,但被单词在语料库中的出现频率所抵消。某一特征的Tf- Idf值计算如下式所示:

(3)

式中:wfd为特征在注释文档中的权重,tffd为特征f在d中的出现频率,d为文档总数,dff为特征f的文档总数。

卡方(chi;sup2;):

在统计chi;sup2;是用来测试独立事件之间。这可以用数学方法表示为:P (A|B) = P (A)和P (B|A) = P (B),其中A和B分别表示一个项的出现和类的出现。而Tf-Idf显示的重量特性,chi;sup2;我们设法选择最好的特征分类模型。我们利用sklearn特征选择模块,我们计算了chi;sup2;统计每个类/功能组合。

3.3 分类

分类是指识别特定数据集中的特定模式,并将这些模式相应地分类到多个类(本例中是三个类)的艺术。它要求分类器,基于一个划分为训练集的数据集进行训练。训练集中的每个模式实例,都有一个与该模式所属的类,相对应的值(这里称为标签)。为了便于分类,采用了支持向量机和K近邻算法。

4.实验评估

在我们的实验评估中,我们对这两种分类模型都使用了300个特征。SVM和kNN的分类结果,其中支持向量机分类得到了最佳分类结果,正类分类精度最高。技术部分的大多数文章更倾向于“评论”性质,评论也很直接。对于文章较多的类,我们观察到更好的预测,例如在商业部分,与正面和中性类相比,我们有更多的负面评论。实验结果表明,消极类的记忆效果较好

5. 结论

新闻评论的分类是一个有点挑战性的,因为存在非正式的语言。实验表明,支持向量机的性能优于k- nn故障,KNN不能识别第三类随着k的增加,可以归结为中性文章数量较少。因此,较小的数据集会导致较差的分类器性能。大多数工作通常集中在两个类,即积极类和消极类,因此引入第三类也会对分类结果产生负面影响。在讨论的三个部分中,技术部分找到了两个分类器的最佳分类结果。我们还观察到使用三个类进行分类对结果有很大的影响。中性类涉及的三个类别的文章和评论,通常较少,因此中性类的分类非常差。

作为未来的研究范围,为了提高分类器的分类结果,我们提出了一个领域特定的情感词典,并包括了一些意见规则,使我们得到更准确的情绪标签。多个表情符号的组合,也可以作为提高表情标签准确性的另一种手段,使用多个表情符号的组合,来迎合一种类型的表情符号中,没有出现的单词,也可以作为情感分类的特征。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[20719],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。