英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
使用自然语言处理对虚假新闻文章进行分类,以将文章内归因识别为监督学习估计者
抽象
以合法新闻为幌子提供的故意欺骗性内容是一个全球性的信息准确性和完整性问题,会影响意见的形成,决策和投票方式。多数所谓的“假新闻”最初分布在Facebook和Twitter等社交媒体渠道上,后来又进入传统电视和广播新闻等主流媒体平台。最初在社交媒体平台上播撒的虚假新闻故事具有关键的语言特征,例如过度使用未经证实的夸张和未经引用的引用内容。本文提出了伪造新闻识别研究的结果,该研究记录了伪造新闻分类器的性能。Textblob,Natural Language和SciPy工具包用于开发一种新颖的假新闻检测器,该检测器使用贝叶斯机器学习系统中的引用属性作为主要功能来估计新闻是假的可能性。在评估带有引号的文章是假的可能性时,所得的处理精度为63.333%。此过程称为影响挖掘,此新技术作为一种可用于启用假新闻甚至宣传检测的方法而提出。本文介绍了研究过程,技术分析,技术语言学工作以及分类器的性能和结果。本文最后讨论了当前系统将如何演变成影响挖掘系统.
关键词组成; 假新闻,机器学习,自然语言处理,归因分类,影响力挖掘
Ⅰ、介绍
以合法新闻(或俗称“假新闻”)为幌子的故意欺骗性内容是一个全球性的信息准确性和完整性问题,会影响意见形成,决策和投票方式。 大多数虚假新闻最初都是通过社交媒体渠道(如Facebook和Twitter)分发的,后来又进入传统电视和广播新闻等主流媒体平台。 最初在社交媒体平台上播撒的虚假新闻报道具有关键的语言特征,例如过度使用未经证实的夸张内容和未经引用的引用内容。 本文提出并讨论了记录伪造新闻分类器性能的伪造新闻识别研究的结果。
Ⅱ、背景和相关工作
假新闻已被证明有多种问题。 事实证明,它对公众的认知[1]-[3]以及形成区域和国家对话的能力[4]具有真正的影响。 当一个人对骗局做出回应时,它伤害了企业[5]和个人,甚至导致死亡。 这导致一些青少年拒绝媒体客观性的概念[7],许多学生无法可靠地分辨出真假文章之间的区别[8]。 人们甚至认为它影响了2016年美国大选[9]。
假新闻可以由人为故意传播,也可以由机器人大军不加选择地传播[10],而后者则使一条邪恶的文章具有重要的影响力。 不仅物品是伪造的,而且在许多情况下,伪造,贴错标签或具有欺骗性的图像也被用来最大化影响力[11]。 有人认为,假新闻是社会数字基础设施的“瘟疫” [12]。 许多人正在努力与之抗争。 Farajtabar等。 例如,[13]提出了一种基于点数的系统,而Haigh,Haigh和Kozak [14]则建议使用“点对点反宣传”。
本文介绍的工作建立在先前在多个领域的工作之上。 本节继续讨论假新闻的特征。 然后,将审查先前的虚假新闻检测工作。 最后,讨论了假新闻作为一种传播现象(包括归因注意事项)
假新闻的特征
伪新闻已被证明可以通过多种方式检测到。显然,事实检查是识别和揭穿虚假新闻的一种方法。但是,这很慢并且很难自动化。Batchelor[15]建议使用任务库来帮助完成此任务。但是,自动检测可能以传输速度或接近传输速度发生,从而限制了人员在某些操作区域中的参与程度。假新闻在结构和其他方面也被证明与合法新闻有所不同。Horne和Adali[16]指出,假新闻和合法新闻的标题长度以及正文的简单性和重复性都不同。鲁宾等人[17]提出了讽刺线索的分析,而沃尔科娃等人[18]提出了语言模型的使用。
自动伪新闻检测
考虑到假新闻带来的问题,用来自动检测它的多种方法已经被提出[19]。Chen等人[20]提出了自动检测,速度和便利性以及其他可能满足的潜在需求的理由。与众包[21]和使用人工进行审查不同,自动化可以导致近乎即时的决策并提供必要的可伸缩性。例如,Riedel等人[22]提出了一种基于标题立场的检测技术。 Rashkin等[23]使用基于语言分析的方法,而Jin等人[24]提出了一种“分层传播”的方法。Shu等人[25]使用数据挖掘过程。
还正在开发使该过程自动化的工具,这些工具将使对有形技术的研究实现为现实。例如,Saez-Trumper[26]开发了一种工具,可帮助识别在Twitter上宣传假新闻的用户。Jin等[24]已经开发了一种“分级传播”的方法来进行内容可信度评估。
归因与现代传播
多个研究团队开发了使用自然语言例程来识别引用和相关属性的系统。 Pareti等人[27]和Orsquo;Keefe等人[28]开发了机器学习分类器,可以使用机器学习方法正确识别直接和间接引号。Muzny等人[29]还开发了一种使用多阶段词汇筛查系统识别引用属性的方法。尽管还有其他许多研究手工归因检测系统的研究,但本文将集成Pareti和Munzy的归因方法,以便开发一个简单的直接引用归因系统。
Ⅲ、方法
本节回顾了用于研究假新闻现象,开发研究数据库以及将定性模型发展为定量模型的方法。
扎实的工作和理论发展
研究团队采用了一种混合方法来研究虚假新闻文档,开发用于测试的定性模型,并将定性结构转换为定量系统。最初的假新闻观察和手工模式分析是使用Glaser和Strauss的扎根理论[30]方法进行的,以进行理论构建和编码。扎根理论是一种基于归纳法的社会科学研究技术,用于根据现有数据构建理论和框架。当研究人员使用扎根理论构建对所研究现象的理解时,研究团队首先观察数据并寻找模式,趋势和差异。分析得出的趋势和模式分为代码和主题。随着时间的流逝,代码和主题成为类别,并构成新理论的基础。举一个假设的例子,如果一个人注意到所有虚假新闻文件都以该阶段开始,“相信我,我不是在对你说谎”,研究人员观察到这将最终归纳出足够的数据来记录这一趋势,并形成一个假设新闻文件以该词组开头。出现的假设最终将成为要检验的规则。选择“扎根理论”以帮助基于可用数据归纳地构建理论。
初步定性工作的结果发掘了经过审查的伪造新闻文件所特有的技术语言模式。语言模式被用来发展机器学习语法和假设
假新闻鉴定语料库
为了研究假新闻的技术语言模式,并使用本地生成的数据集进行理论测试,开发了一种新的假新闻识别语料库。 研究团队在7个月内构建并验证了用于此工作的语料库版本。
在用于这项工作时,语料库包含来自40多个不同在线来源的218个文档。 它包含带有断言,信念和事实报价的经过验证的伪造和真实新闻文档。 语料库由一个研究团队与10位不同的研究人员共同建立。 研究团队每周审查一次文档的准确性(无论文档是否被视为虚假内容或虚假新闻),并由团队中的其他研究人员评估其语料库的收录和接受程度。 简而言之,在将文档添加到语料库以供将来使用之前,添加到语料库的每个文档都经过了多个研究人员的审查和接受。
在进行这项工作时,语料库包含来自研究团队归类为真实和伪造媒体文件的421份报价单。 语料库最初并不是为引用归因机器学习而设计的,但它包含文档中的所有文本,因此也包含引用。 语料库中的每个文档都细分为标题和正文部分。 可以公开共享的更强大的语料库是未来出版物的主题
Ⅳ、机器学习语法开发
随着扎根理论研究方法中出现的技术语言模式,机器学习语法是归纳式和迭代式构建的。 出现的语法成为假设发展和实验的基础。
归因和主要虚假新闻功能
假新闻文档存在于所有形式的媒体中,并且在社交媒体平台上尤其普遍。 在研究项目开始时,审查了30个虚假内容和30个真实内容文档,以加深对现象的理解并开始构建理论。 在所审查的60份文件中,发现虚假内容文件(占30份经审查的文件中的28份)占多数,这些引文要么缺乏适当的归属,要么被引述给未具名的实体以断言事实。 尽管在整个虚假内容中继续发现趋势,但最主要的初始虚假内容指标是缺乏适当的归因。 审阅并归类为真实新闻文件的文档中的出处通常发生在直接引号的开头或结尾少于50个字符的空格内
考虑到这些趋势和观察结果,构建了一个将归因用作唯一的虚假新闻指标的自定义分类器。 该系统(在第VI节中进行了描述)会测量文档内部的归因数量,并基于可定义的归因容差,将文档标记为真实或伪造
自定义归因特征提取分类器
扩展了多位研究人员最初提出的归因分类器工作和定义,以构建归因分类器和由此产生的一特征假新闻识别系统。 具体来说,最初由Pareti等人提供的定义和构造。 [27]和Orsquo;Keefe等人的文章。 [28]被增强。 先前的两个研究小组都将归因定义为一种语言惯例,其中动词或归因提示将源链接到引用的称为内容的一段文本。 具体来说,报价的属性具有源跨度,提示跨度和内容跨度,如表1所示。
Definition
Source The span of text that includes who put forth the quote or who the
content is attributed to.
Cue A verb or verb phrase that lexically links the source to the quote
or content.
Content The span of text that serves as the quote and is attributed.
为了构建自定义归因机器学习分类器,还实施了Muzny等人[29]著作中的归因构造方面。 Muzny等人的引文→提及,提及→引文和提及→实体链接归因结构有助于扩展Pareti等人的定义,以构建一个简单的技术归因分类器,如图1所示。
图1.对Pareti等人的拟议扩展。 [27]定义。 包括归因跨度,归因跨度绝对距离“ d”和引号长度,就可以进行简单的引语归因搜索分类。
使用以下定义定义报价的属性,以构建自定义特征提取器:令C为需要报价的报价的任意跨度为len(C)的内容跨度。属性范围是字符空间中距离内容范围的开头或结尾的双引号引起的绝对距离“ d”。 因此,对于任何适当归因的报价:
归因跨度分为两个可搜索子跨度,称为前向和尾随归因跨度。 构建分类器工具的目的是在向前和向后的归因空间内进行搜索,并将报价分类为归因或不归因。
生成的二进制分类标签基于归因范围内学习到的来源和提示信息的存在。 为了识别来源,自定义分类器搜索命名实体或可以使用命名实体识别方法引用了报价的个人或组织。 提示识别是基于学习训练集中包含的相关提示动词或提示信息。 大多数信息提示词或短语将添加到动态归因“词袋”模型中。 归因特征提取来自将机器学习算法应用于前后归因范围。
结果假新闻检测伪代码和工具
伪造的新闻检测工具使用归因分类的输出结果为整个文档分配最终标签。 下一部分将介绍一个简单的评分系统,以构造最终的归因分数(称为归因分数或A分数),并为每个包含引号的文档分配一个假分类标签与真实分类标签。
假新闻检测算法
伪新闻检测算法如下。 对于文档集中的每个文档,都会对文档的段落进行计数和标记。 还检查每个段落的引号。 如果段落中有引号,则使用自定义归因分类器(使用A分数算法)对引号进行处理。 正面归因获得 1分,负面归因分类得到-1分。 如果总的A分数(正负总和)大于或等于0,则为文档分配真实标签。 如果A分数小于0,则为文档分配假标签。请注意,因此,A分数阈值是该算法潜在配置的关键区域。
A分数算法用于根据机器学习分类的结果将引号标记为真实还是假。两种算法的伪代码如图2所示。
V、实验设计
为了测试假新闻检测系统,将语料库划分为训练(60%的可用数据),开发(10%的可用数据)和测试(30%的可用数据)集。 训练过程转变为算法识别
算法:具有特征码提取功能的假新闻检测器
算法:FakeRank伪新闻检测器主要
算法:A分数假新闻检测器支持
与真实或假新闻相关联的归因空间内的单词。 训练前的数据准备着重于删除无关的常用词,以防止这些词对关联分数产生影响。 因为不需要普通单词数据来呈现给分类器,所以无需为语料库进行其他数据准备就可以进行测试。 从伪代码和算法描述中可以看出,可以在测试过程中调整属性范围,但为简单起见,决定使用属性空间d = 45进行简单运行。 在实验过程中进行了三种类型的实验验证。 测试了报价属性标识符,自定义报价属性分类器的准确性,最后测试了一种功能的假新闻检测工具的整体性能
VI、初步结果与分析
本节总结了为支持假新闻检测工具而进行的三个测试的结果。
报价归因标识符
用于标识段落中引号的简单Python和Textblob系统效果很好。 因为该工具在字符串中查找双引号,所以引号或内容标识很简单。 该工具确定了训练集中96%的报价。 我们评估了在有限的情况下,该工具被复杂且格式错误的报价所混淆
报价归因分类器
报价属性分类器是系统的核心,运行良好,但性能不令人满意。需要进行几次运行才能正确地校准分类器并解决语言处理问题,例如引号内的引号和双引号内的单引号。分类器还存在文本内彼此之间短距离内处理多个引号的问题。例如,如果一个引号紧接在另一个引号之后,并且源和提示数据在两个引号的联合属性空间内(在引号之前或之后),则系统在处理两个引号时都会遇到挑战。最终的总分类器准确度为0.69,总的分类器误差为0.31。表II中列出了其他分类器性能指标。尽管这些数字低于归因分类工作的水平,但仍在进行研究以提高分类器的性能。调整归因距离并可能开发伪造的新闻归因词典是提高分类器性能的方法
表II中的指标定义如下。 正确率和错误率的正确率和错误率是在相关分类所标识的总数(正数或负数)中正确(正确)或错误(错误)的数字。 例如,真实阳性率是真实阳性的数量除以真实阳性和错误阴性的数量。 精度是正确标记的项目数除以属于肯定类别的元素总数。 阳性类别中的元素总数包括
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[237886],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 为非政府组织OG慈善基金会设计的基于社区的救灾管理系统外文翻译资料
- 基于UML建模的医疗系统电子健康服务软件外文翻译资料
- 开发一种具有增强现实功能的智能手机应用程序, 以支持护理学生对心衰的虚拟学习外文翻译资料
- 在开发 Web 应用程序中应用 Vue.JS 框架外文翻译资料
- 基于MES系统的生产车间信息管理研究外文翻译资料
- 基于Vue.js和MySQL的电子商务平台的设计与实现外文翻译资料
- 详细的Spring配置和SpringBoot外文翻译资料
- 基于NS2的DSR和AODV协议的性能比较研究外文翻译资料
- 不同仿真参数下NS2的TCP吞吐量性能外文翻译资料
- 基于Spring Boot和VUE的车辆管理系统实现外文翻译资料