英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
摘要
我们在论文中试图利用在财务报告中的软信息分析公司的财务风险。具体来说,就是在财务报告的文本信息(也就是所谓的软信息)的基础上,我们应用分析技术去研究文本和金融风险之间的关系。此外,我们通过使用财务特定的情绪词汇去检查金融情绪和金融风险之间的关系来进行一项研究金融情绪分析。我们用大量的上市公司每年发布的财务报告来进行我们的实验,此外,两个分析技术——统计回归和排名方法——将应用于进行这些分析。实验结果表明,在基于词袋的模型中,只使用金融情绪词语的结果与使用整个文本的结果进行绩效比较,证实了金融情绪词对风险预测的重要性。除了这个性能比较,通过学习模型,我们注意到一些强大的和有趣的信息和金融风险之间的相关性。这些有价值的发现让我们更易发现和理解在财务报告中的软信息,这可以广泛地应用于财务会计应用程序。
关键字
财务,风险预测;文本挖掘;情绪分析
1.简介
在今天这样数据大量运用的的环境下,使如何发现有用的见解去改善决策越来越重要。这些发现的见解可能导致抓住机遇,降低风险,控制成本的能力提高。大数据分析是指丰富的数据的环境中探索,发现数据并以此决策的技术。这些技术包括努力使用新的分析方法把新数据或老数据以新的方式组合。
由于大数据分析的流行,近年来研究者开始关注分析新类型的信息。在金融领域,通常有两种类型的信息(彼得森,2004):软信息,通常是指文本,包括意见、想法,和市场评论;和硬信息,也就是说,数字等金融措施和历史价格。相比以前的作品只使用硬信息建模的金融风险,在本文中,我们的目标是应用软信息研究公司财务风险。
财务风险是指一个选择投资工具 (如股票)将有可能导致损失。在金融领域,波动是一种常见的风险实证测量方式。本文的重点是应用情绪分析,预测任务的风险以此发现有用的见解。在这项研究中,我们使用一个财务特定情绪词汇来模拟情绪信息和财务风险的关系;在文本SEC1-mandate的年度财务报告中,特定使用两种分析方法:统计回归和排名方法。对于统计回归的方法中,我们试图通过文本软信息预测股票收益波动。然而,根据Kogan,劳特利奇,Sagi,和史密斯(2009)的研究, 只使用文本信息的情况下这种方法被认为是很难预测实际数量的;这可能是由于在文本中有大量的无用信息。因此,我们建议使用排名技术解决无用信息问题。具体地说,我们首先将公司股票收益的波动切割,在一个给定的年分成几个相对风险水平,然后我们根据其相对风险水平,应用排名技术将公司分级。从实验结果中,我们观察到,当使用财务特定词汇后,较于使用传统原始文本,统计回归和排名模型的结果产量从成千上万减少到只有1500左右,模型结果产量大大减少。这表明财务特定词汇在财务报告是最重要的部分。除此之外,我们也进行合成模型分析;这使得在财务报告的中洞察和理解软信息的效率提高。
除了提出这项技术,这篇论文还提出了一种基于网络的信息系统用于财务报告分析和可视化并以此将技术结果和有用的结论联系起来。2应用该系统和我们的分析结果,学者和从业者可以更容易地获取有用的见解和理解软信息在财务报告的影响。一个分析软信息的潜在应用是帮助银行提高信用风险评估,特别是他们的定性评估方法。3此外,从业者如基金经理可以利用学到的高风险情绪关键词协助设计自己的投资策略。对于会计研究亦如此,了解财务报告中的软信息是一个重要的任务,因为软信息可以提供一个非常有用的背景去理解财务数据和测试有趣的经济假设(李,2010)。因此,可以说,这一研究可以应用于广泛的财务会计应用程序。
本文的其余部分如下。在第2部分中,将讨论我们现在与过去的工作和我们大致的目标。然后我们在第三节中,我们将描述如何实现我们的分析:风险度量的定义,风险水平切割的机制,金融情绪词汇,和问题公式化。在第四节,我们提出我们的实验设置和实验结果的细节。在第五节中,我们提供了讨论和分析,之后,我们得出这样的结论。
2.相关工作
在金融领域中,通常有两种类型的信息:软、硬信息(彼得森,2004)。软信息通常指的是文本信息的意见、想法、和市场评论等,硬信息指的是数字信息,如股票价格的历史时间序列。大多数金融研究相关的风险分析是基于数字信息,特别是时间序列建模(例如2Armano, Marchesi, Murru, 2005, Bodyanskiy, Popov, 2006, Christoffersen, Diebold, 2000, Chu, Santoni, Liu, 1996, Dash, Hanumara, Kajiji, 2003, Fu, 2011 and Hung, 2009; Laih, 2014; Lee, Tong, 2011, Wu, Chen, Olson, 2014, Yuuml;mluuml;, Guuml;rgen, Okay, 2005 and Wong, Xia, Chu, 2010)。在自然语言处理中,一些用统计回归去预测连续量。例如,麦考利夫和布莱(2007) 通过从文本中的潜在的“主题”变量来预测影评和受欢迎程度。而Lavrenko等人(2000)利用语言模型来分析文本和时间序列的财务数据(股票价格)之间的联系。此外,在信息检索方面,近年来也有尝试使用基于机器学习的方法来解决文本排序问题(如 Burges, Shaked, Renshaw, Lazier, Deeds, Hamilton, et al., 2005, Freund, Iyer, Schapire, Singer, 2003 and Joachims, 2006),并随后在信息检索和机器学习领域提出了“学会排名”的话题
一些研究人员专注于矿业财务报告或新闻(如Balakrishnan, Qiu, Srinivasan, 2010, Blasco, Corredor, Del Rio, Santamarıa, 2005, Groth, Muntermann, 2011, Huang, Li, 2011, Kogan, Levin, Routledge, Sagi, Smith, 2009, Leidner, Schilder, 2010, Lin, Lee, Kao, Chen, 2008 and Schumaker, Chen, 2009)。 Lin et al (2008)利用加权方案结合财务报告的定性和定量特征,提出了一种方法来预测短期股价波动。他们使用了以聚类更新的凝聚层次聚类(HAC)方法,提高财务报告原型的纯度,然后使用生成的原型来预测股票价格走势。其他的研究都集中在从财务报告预测风险,例如(Leidner amp; Schilder, 2010),在这项研究中文本挖掘被用来检测一个公司的风险,然后将检测到的风险划分为几种类型。上述两项研究都将被使用来分类我的财务报告。2009年,Kogan等人(2009) 通过公司的财务报告,运用统计回归方法预测公司的股票收益波动;具体来说,将支持向量回归(SVR)模型应用于我的文本信息。同时, Ball, Hoberg, and Maksimovic (2015), Frankel, Jennings, and Lee (2015)正在进行MDamp;A中两个文本信息方面最先进研究的披露;第一项研究指出MDamp;A的内容可以系统地解释了公司的估值,而第二个研究披露了通过SVR预测本年度的公司级的收益。
此外,随着社交网站、博客、在线论坛中情绪信息大爆炸,情绪分析已成为计算语言学的一个热门研究领域 (Mohammad, Turney, 2010 and Narayanan, Liu, Choudhary, 2009)。一般来说,情绪分析试图确定作者对于给定主题的态度:这可能包括作者的判断或评价,作者写作时的情绪状态,或作者的意图以及对读者情感交流。情绪分析应用于金融重要性日益增长,引发了许多研究和问题的实践,诸如“情绪分析为什么重要?”。在金融领域,有几项研究(如Garcia, 2013, Loughran, McDonald, 2011 and Price, Doran, Peterson, Bliss, 2012),使用文本分析检查众多新闻、文章、财务报告和tweets中关于上市公司的情绪。对于大多数情绪分析算法,这种情绪词汇是去提高结果和分析效率的最重要的资源。(Feldman, 2013)。然而,过去的工作通常使用一般情绪词汇进行分析。而Loughran和麦当劳(2011)倾向于将通用情绪词汇分类成在金融文献中常用的词汇;正如他们的工作, 在财务报告中几乎四分之三的负面单词被确认为来自广泛使用的哈佛心理字典,在财务环境中通常不被认为是负面的。
在本文中,我们的目标是统计回归和排名方法的分析技术应用于研究文本和财务风险之间的关系;此外,我们还对情绪进行研究分析使用财务特定情绪词汇。通过实验结果,我们试图确定有趣的文本信息和金融风险之间的相关性,并以此证明软信息在财务报告中提高洞察力与理解能力方面的影响。
3所示方法
3.1 股票收益波动性
在金融领域,波动是一种常见的风险度量,定义为股票的回报率的标准差超过一段时间。可以来源于历史波动时间序列中过去的市场价格。本文运用一个公司的历史股票价格波动作为金融风险的一个代表。
将ST股票定义为当时的股票价格。持有股票的一个周期,从时间tminus;1时间t的结果为一个简单的纯收益
Tsay (2005)。因此,股票回报的波动性时间tminus;n至时间 t可以被定义为
其中注意,在这篇文章中,我们使用的是每日收益的股票价格。
3.2风险水平分割机制
现在我们继续介绍我们归纳的风险水平分割机制n股票的波动2ℓ 1风险水平,其中n,ℓisin;{ 1,2,3,hellip;}。将m定义为样本均值s为样本标准差对数,n波动的股票(表示为ln(v))。在ln(v)分布在公司收益中接近一个钟的形状(Kogan et al .,2009)。因此,给定一个波动v,我们推导出风险水平r为
ℓ-k 当ln(v) isin;(a,m-usk]
r= ℓ 当ln(v) isin;(m-us,m us)
ℓ-k 当ln(v) isin;[m usk,b)
其中当 kisin;{1,hellip;,ℓminus;1} 时a=mminus;us(k 1)时,当k=ℓ,b=m su(k 1)时a=minus;infin;,当kisin;{1,hellip;,ℓminus;1}时,b=infin; 当 k=ℓ, 并且是正实数。例如,与ℓ= 2和u = 1,有5的风险水平(即0,1,2,3,4).
3.3 金融情绪词汇
对于大多数情绪分析算法,这种情绪词汇是最重要的资源。如前所述Loughran和麦当劳(2011)所做的,一个通用的情绪词汇可以在金融文献中分类为常用单词。如他们的论文所示,从1994年到2008年的10-K财务报告中,几乎四分之三的词语被广泛使用的哈佛心理社会词典视为负面词语,但在金融背景下通常不被视为词语。
在本文中,我们使用由Loughran和麦当劳McDonald(2011)提供的六个词列表所组成的财务特定词典来分析这些情绪词和金融风险之间的关系。
1.
Fin-Neg:-业务术语(如赤字、违约)。
2.
Fin-Pos:积极的业务术语(如实现、利润)。
3.
Fin-Unc:单词表示的不确定性,强调不精确的一般概念,而不只是关注(如出现、怀疑)。
4.
Fin-Lit:词反映出法律竞赛或倾向,每我们的标签,好讼(如修改、克制)。
5.
MW-Strong:言语表达强烈的信心水平(如总是、必须)。
6.
MW-Weak:言语表达弱(如或许、可能)。
3.4 问题公式化
在以下两节中,我们制定了两种分析技术 –统计回归和排名 - 用于解决金融风险预测和分析问题。
3.4.1 回归任务
给定财务报告D = {d1,d2,...,dn}的集合,其中每个diisin;Rp(即,每个文档是p维向量)与公司ci相关联,我们试图预测公司的未来风险,其特点是其波动性vi。这样的预测可以由参数化函数f as定义
目标是在给定训练数据T = {(di,vi)|diisin;Rp,viisin;R}的情况下探究p维向量w。
支持向量回归(SVR)(Drucker,Burges,Kaufman,Smola,&Vapnik,1997)是用于训练这种类型的回归模型的流行技术。 SVR通过解决以下优化问题进行训练:
其中C是正则化常数,ε控制训练误差。关于SVR的更多细节可以在Schouml;lkopf和Smola(2001)中找到。
3.4.2排名任务
对于排名任务,在给定每个公司的财务报告的情况下,我们的目标是根据股票收益波动率对进行公司排名。依据上述的分解机制,我们首先将每年的股票回报波动率分成不同的风险水平;这可以被认为是公司之间的相对风险差异。
在将(公司的)股票收益波动率分类到不同的风险水平之后,排序任务可以被定义如下:给定财务报告D的集合,我们旨在通过排序模型f:Rp→R对公司排名,公司集合的排序顺序由模型f所取的实际值指定。具体来说,f(di)gt; f(dj)意味着模型判断ci≻cj,其中ci≻cj意味着ci的排名高于cj;也就是说,公司ci比cj风险更大。
我们对这个排名问题采用排名SVM(Joachims,2006)。SVM排序的目的是最小化不一致对,同时最大化边际对。在给定的一年内,如果地面实况(即由所提出的机制产生的相对风险)判断公司ci比cj风险更大,则SVM排序的约束是lang;w,dirang;gt;lang;w,djrang;,其中w,di,djisin;Rp,di和dj是两个p维字向量。然后,文本排名问题可以表示为以下约束优化问题:
4.实验
在本节中,我们首先描述我们的实验设置的细
全文共6821字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[143583],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。