一、外文资料译文:
基于新闻门户网站的商业趋势的K均值聚类分析
Wahyu Hidayat,Informatics, Faculty of Computer Science,Universitas Amikom Yogyakarta
,Jl Ringroad Utara, Condongcatur, Depok, Sleman, Yogyakarta,
Indonesia 55283,wahyu.8947@students.amikom.ac.id
Ainul Yaqin,Informatics, Faculty of Computer Science,Universitas Amikom Yogyakarta
Jl Ringroad Utara, Condongcatur, Depok, Sleman, Yogyakarta,
摘要:进行业务分析以确定在印度尼西亚受欢迎的业务,文本挖掘可以从印度尼西亚的几个新闻门户网站获取数据。文本预处理用于更改新闻上的文本标题和标签,以将其转换为权重。数据的权重将使用K-Means算法进行处理,以分组为聚类,每个聚类将使用单词云进行可视化,以便知道经常作为流行单词识别出现的单词。测试使用轮廓系数来计算集群中每个成员的质量。此外,每个成员将根据测试结果进行解释。2018年每月进行分析,共有995个数据,每月平均6个集群,1月份最受欢迎的业务根据成员数量从64个数据中形成6个集群,最多的成员集群是集群1剪影系数测试结果为强0.00%,中65.22%,弱30.43%,不实质性4.35%,Word Cloud形成的是一个皮包业务。
关键词:数据挖掘;聚类;k-均值算法;轮廓系数;商情分析
一.引言
数据挖掘是一个应用机器学习从各种大的来源中提取和识别信息和知识的过程。聚类是数据挖掘的一个分支,K-Means算法是将数据划分成簇的非层次聚类方法之一,这样具有相同特征的数据被分组到一个簇中,而具有不同特征的同一簇数据被分组到另一个簇中。文本挖掘可以以文本的形式挖掘数据,其中数据源来自新闻门户上的标题文本和新闻标签,因此单词代表新闻标题的含义,并且可以联系起来进行分析。新闻门户上的业务导航有助于对业务新闻的类型进行分类,但在导航中,没有经常讨论的业务类型分组。K-Means算法可以基于从文本挖掘中获得的聚类对新闻门户上的各种业务想法进行分组,从而可以进行分析以找出新闻门户上经常讲述的业务类型。
A.Benny和M. Philip [1]阐述了将文本挖掘从推文转变为现有每个文档的若干权重的概念。文档中某个术语(high TF)出现的次数越多,权重就越大。包含该术语的文档数量越少,IDF值就越大。单词在文档中出现的术语频率乘以该术语在文档集合中广泛分布的反向文档频率。有几种方法可以方便地描述数据相关性的特征,其中之一就是使用Word Cloud。文本挖掘中经常出现的特定词,这个词越来越大,越来越厚[2]。
根据 J. Han, J. Pei and M. Kamber [3],在应用距离计算之前,可用数据的权重被归一化。这包括将数据转换到一个更小或通用的范围内。根据Kodinariya和Makwana [4]利用方程经验法则确定k的个数。在知道数字k之后,进一步随机确定聚类的质心,并使用欧几里德方程计算距离。此外,每个组的质心的确定取自每个聚类中所有数据值的平均值,并重新计算数据到质心之间的距离,直到聚类成员没有变化[5]。
根据I. Yatskiv和L. Gusarova [6]的观点,集群中集群成员的质量测试可以通过计算集群成员与同一个集群成员之间的距离以及计算集群成员与其他集群成员之间的距离,使用剪影系数来计算。
二.相关著作
以前对K-Means算法的研究已经被广泛讨论。关于这一分析的发展,作者考察了以前的研究者进行的分析。M. Robani和A. Widodo [7]讨论了使用文本数据预处理过程阶段的数据进行研究,用TF进行加权。IDF,用K-Means聚类对数据进行分组,为古兰经经文主题中的关键词标记数据。使用K-Means的聚类过程具有在Al Fatihah字母上的轮廓测试结果,正值为0.336,这意味着数据在正确的组中。每组数据的频率为53%,这意味着最终的组具有适度的相似性。而平均精度计算结果为53%,平均召回率计算为100%。测试还表明,轮廓测试的结果将与聚类的数量成正比,与数据的维数成反比。初始质心与簇数和正确列数的组合为0.3744。Surah Al Baqarah. Mihuandayani et al. 等人[8]讨论了使用食品销售数据很难确定某个社区的食品趋势。本文讨论了从社交媒体中提取食物总趋势,并以某一区域感兴趣的推特数据为例,利用4周的数据进行算法研究,将结果与现有数据进行比较,准确率达到72.75 %。
三.实践
本研究使用新闻门户中标题和标签的文本挖掘,然后使用文本预处理和归一化来克服文档之间的权重距离过大的问题。然后使用K-Means算法进行处理以创建聚类,并且将使用单词云对每个聚类中经常出现的单词进行可视化,然后使用剪影系数进行测试以确定聚类上的数据质量。分析过程顺序为:文本预处理→归一化→ K-Means算法→可视化词云→测试轮廓系数→解释。
A.数据和样本
这些研究数据来自几个印度尼西亚新闻门户网站标题文本和标记商业文章,包括cnbcindonesia、seconds opportunities、Legal、cash business opportunities和tempo business。这项研究是在2018年使用标题文本数据和商业文章标签进行的。根据大型印尼语词典(KBBI),文字处理中处理的语言只是标准印尼语。这项研究没有注意到文档上的拼写错误或书写,也没有考虑同义词或同义词。
B.仪器和数据分析
主要数据取自新闻门户网站业务类别中的新闻标题和标签。初级数据采集后再将文本挖掘的结果处理为文本预处理,即Case folding阶段、then化、Stopword removal、词干和TF.IDF,这样文档之间的权重就不会太远,会归一化为每个文档的权重。之后,它将被处理成K-Means算法,该算法将通过使用Word Cloud经常出现的单词进行可视化,这样,来自在集群中主导数据可视化的单词的流行业务将随后用剪影系数进行测试,该系数将被解释。根据轮廓系数值的计算结果。表1显示了分组解释。
表一.表格解释
轮廓系数值 |
解释 |
0.71 – 1.00 |
发现强结构 |
0.51 – 0.70 |
找到中等结构 |
0.26 – 0.50 |
发现薄弱结构 |
le; 0.25 |
结构并不坚固 |
四.结果与讨论
A.受访者数据
从头条和新闻标签文本数据获得的数据发现,有995个数据,1月64个数据,2月76个数据,3月53个数据,4月78个数据,5月85个数据,6月74个数据,7月97个数据,8月78个数据,9月110个数据,10月96个数据,11月101个数据,12月83个数据。
B.描述性分析:发现和讨论
文本挖掘
处理后,标题文本形式的原始数据将被处理,然后被处理成一个折叠盒。在这个阶段,删除html标签和标点符号。外壳折叠过程的结果如表2所示。
表二.结果案例折叠
新闻 |
结果折叠 |
d1 |
Cuan membara dari gerobak aneka varian sate |
d2 |
Mengemas laba cabai giling kemasan |
d3 |
Menjajal kedai penjaja menu negeri sakura |
... |
... |
d83 |
Ada Camilan Kacang Hijau Bisa Hasilkan Jutaan Rupiah Lho |
在案例折叠过程之后,下一步是进行标记化阶段,在此阶段将文本更改为所有小写字母。表3显示了标记化过程的结果。
表三.结果标记化
新闻 |
标记化 |
d1 |
cuan membara dari gerobak aneka varian sate |
d2 |
mengemas laba cabai giling kemasan |
d3 |
menjajal kedai penjaja menu negeri sakura |
... |
... |
d83 |
ada camilan kacang hijau bisa hasilkan jutaan rupiah lho |
在标记化过程之后,下一步是做stopword removal阶段,即删除连词或链接以提高聚类质量,或者这个阶段通常称为过滤阶段。表4显示了停用词删除过程的结果。
表四.结果停止字删除
新闻 |
停止词删除 |
d1 |
cuan membara gerobak aneka varian sate |
d2 |
mengemas laba cabai giling kemasan |
d3 |
menjajal kedai penjaja menu negeri sakura |
... 剩余内容已隐藏,支付完成后下载完整资料
英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料 资料编号:[596251],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。