英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料
基于数据挖掘的信用分析:以信用合作社为例
摘要:寻求合作信用部门的效率已经促使合作社采用新技术和管理知识。在这些提高效率的方法中,数据挖掘近几年显得尤为突出。作为一种精密的方法,它能够发现隐藏在组织数据库背后的信息。发放贷款是信用合作社主要的任务之一,所以一个能支持那个过程的方法是值得拥有的,而且它可能在信贷管理中起到重要作用。为了展现信息发现的过程,这个案例分析所采取的步骤为数据选择,数据预处理和清除,数据转换,数据挖掘和结果的分析与评价。衡量这个结果是通过十组交叉实验,在十组模拟中重复。这个研究的目的是在于通过使用决策树-C4.5算法和人工神经网络多层感知器算法来构建一个模型去分析信用合作社成员履行承诺的能力。实验的结果是,对于手头的问题,模型有统计学上类似的结果,并可能有助于合作决策过程。
关键词:信用联盟; 数据挖掘; 决策树; 人工神经网络
1 介绍
本文介绍了模型的开发,以分析认证联盟的员工履行承诺的能力。 数据挖掘技术用于开发模型。为了构建模型,合作借款人的实际数据库被使用,它来自SICOOB。必须强调的是,这些数据难以获取和收集的。信用合作社或联盟是一个社会,必须以社会目的为指导。 然而,它也是一个金融机构,受巴西国家货币委员会和巴西中央银行规定的规范管制。此外,信用社联盟必须旨在永久留存在市场中,而这要求资源得到有效管理。合作运动可以根据两个概念分类:Rochdale原则,其目的是改造社会和改革人;理论原理,诞生于明斯特大学(德国),使用工商管理科学的工具,并认为合作社作为一个现代企业(Pinho,2004年)。从理论的角度来看,明斯特理论是最好的发展。 它是也被称为合作合作的经济理论,其起源在于德国明斯特大学合作研究所。 为了反对Rochdale原则的教义假设,明斯特大学的教授与拉丁美洲学者一起开发了一个具有方法论基础的“学校”,这追溯到了批判理性主义(Pinho,2004)。
Pinho(1982,p75),Bettcher之后,揭示了以下合作社的概念。基于Muuml;nster理论的公理和假设:“合作社是一群个人,通过他们共同维护的公司来维护他们的个人经济利益”。在这种情况下,Frantz(1985:56)补充说,合作社也可以理解为体现“[...]竞争战略,旨在最大限度地发挥每个生产者的个人经济行动的成果。
这项研究从理论的合作社运动角度看待信用合作社,并根据其假设和公理,发现分析决策信息是一个重要条件。旨在分析管理信息的工具和方法在最近几十年中有了很大的演变。信用联盟管理非常复杂,因为它必须平衡合作成员的渴望和需求,同时在市场上竞争。 信用社作为成员协会的特征,同时也是市场上的公司,必须保持平衡。
合作社成员和工会的数量一直在缓慢增加。根据巴西合作组织(巴西合作组织)(2014年)的数据,目前在巴西有1,047个单一信用合作社和4,529个服务点。 SICOOB是巴西最大的合作信用系统,拥有529个单一合作社和1,949个合作服务点(Portal do Cooperativismo deCreacute;dito,2014)。巴西金融市场的竞争环境随着信贷产品的更新而变化,这需要我们用专业的态度,使信用社采用新技术和管理技巧。Oliveira(2001)指出,合作社成员的专业化和工会是一个相关的趋势。该部门发展迅速,采用了使用中央合作社的一体化战略; 因此,必须调整到最有效的管理工具。
获得帮助预测未来贷款行为的工具是信用管理的基础,它能帮助减少过程主观性,允许更有效的资源分配,并导致对提案的更快响应。尽管人们越来越感兴趣,但是这种工具在合作社中的应用仍然很少。Khatchatourian和Treter(2010)应用模糊逻辑来分析巴西南里奥格兰德州的生产合作社的财务绩效。Zhu,Li,Wu,Wang和Liang(2013)在巴巴多斯的信用合作社的信用分析中使用支持向量机。
目前,有几种数据挖掘技术可用。 因此,这里的意图是检查哪种数据挖掘方法为信用联盟提供最好的信用分析结果。为此,本研究的目的是确定数据挖掘模型是否能够很好地用于分类和预测信用联盟的信用管理。
2 理论框架
决策树是最突出和最受欢迎的数据挖掘方法之一(Wang等人,2012)。 根据Lemos等人 (2005,第229页),决策树是以分层方式提供结果的唯一方法; 即“[...]最相关的属性被放置在树的第一节点中,较不相关的属性被放置在后续节点中”。 因此,决策树是用于通过应用一系列决策规则将大量数据分成连续的较小集合的结构(Berry&Linoff,2004)。决策树的构造在KDD语境中是特别有吸引力的,根据Gehrke(2003),这归因于以下原因:直观和易于理解的结果; 非参数性质,因此适用于探索性治疗; 相对其他方法相对快速构建; 和精度可以与其他模型的精度相比。
人工神经网络(ANN)是基于大脑的数学模型结构,排列成层和连接。 ANN的起源可以追溯到1943年,但是在20世纪80年代,该方法有了更大的兴趣点,其发展主要是由于信息技术的进步(Braga,Carvalho,&Ludermir,2000)。在Goldschmidt和Passos的(2005,第175页)视图中,ANNs可以被观察到“[...]灵感来自生物神经元和大脑结构的工作原理的数学模型。 这些模型,根据那些作者,允许人类能力的模拟,如学习,泛化,关联和抽象。Braga et al(2000,第1页)将ANN定义为“分布式并行系统组成的简单处理单元(节点),其计算一些给定的(通常是非线性的)数学函数[...]被排列成一个或多个层,并通过大量的连接[...]”。因此,ANN的结构由神经元层和加权连接组成。如图1所示,神经元由节点表示并加权连接由箭头表示。
通常,有三个阶段的ANN处理:输入层,其中接收数据; 内层,通常称为隐层,即负责处理数据并且可以由多于一个的实际层组成; 和输出层,提供结(Larose,2005)。应用ANN的第一步是网络的学习阶段,其中参数进行调整。 这种学习可以是两种类型:监督的或无监督。 第一种类型发生在输出(或目标)变量的值提供,第二种类型发生在没有这些值的情况下。Braga et al(2000,第227页)提到了积极的一点,引起了人们的兴趣该方法,学习能力以及以后概括映射多变量函数的可能性,自组织,时间序列的过程,使用大量输入变量的可能性以及使用样本的可能性。因为模型被认为是非参数的,这些作者进一步强调,“[...]没有很大的需要了解过程本身”。 然而,这些作者也认为这最后一个方面构成了对模型的主要批评; 即模型无法明确其结果是如何生成的。 由于这种特性,ANN也被称为“黑盒子”。
3 方法
在这项研究中,我们选择使用案例研究,根据尹(2010),当控制变量对于研究者变得更加困难时,它们足以研究现实生活中的当代事件。 这个案例研究是独一无二的,并且考虑了一个分析单位,其涉及SICOOB系统的一个信用联盟,其结构旨在从理论合作运动的角度考虑对联盟的调查。合作社的数据库用于评估信用分析系统性能。该数据库包括2003年至2007年自然人分析的历史数据。由于信息系统的变化,无法收集此前的数据。数据涉及信用分析是高度保密和战略性的,由于银行保密和竞争对手获取数据的风险,这使得第三方很难获得这样的数据。 因此,研究合作社的选择是由其愿意提供数据。合作社目前使用SICOOB系统的SisBr应用程序作为信用分析工具。本申请包含管理层和董事会用于决定是否授予信贷的信息。
该研究遵循了Fayyad,Piatetsky-Shapiro和Smyth(1996)的知识发现过程:数据选择,数据预处理和清理,数据转换,数据挖掘,数据解释和结果评估。为了达到其目标,本研究是基于开展的活动KDD,如Goldschmidt和Passos(2005)所讨论的。 在可用的数据挖掘技术中,使用神经网络和决策树,这两者在经验研究中是常见的。数据收集和选择对应于捕获的过程,组织和选择可用于建模和数据挖掘阶段的数据,因此需要精确的检查。 Dasu和Johnson(2003)注意到以下有助于分析变量的因素:以前的经验,知识,结果数量和结果质量。
4 结果
本节描述了这篇文章所研究的技术的仿真结果- 即决策树和人工神经网络以及用来比较他们的统计测试。在数据库中找不到缺少的值。 图01显示了构造的数据库的结构及其变量及其可能的值。
输出向量由变量27到39给出,对应于周期从2007年7月到2008年6月。变量02和10不是由合作社进行信用分析的一部分。它们是被加进来以扩大分析的。这些变量从合作社成员的记录中收集的,并代表了合作社提供的数据。变量11到26目前用于信用分析并代表着合作成员的借款历史。代码27至39表示着研究中采用的输出变量,并描述了从2007年7月到2008年6月的时间段。这些是合作社提供的数据。较旧的数据不可用。在分析中使用的变量的数量与其他研究一致。例如,Koh et al (2006)使用了20个变量,Lemos et al (2005)使用了24。
“合作成员代码”的变量被弃置,因为它仅用于在收集数据时识别个人。变量“归因风险”仅用于数据预处理和清理阶段; 它没有在转换和建模阶段使用,因为它指的是合作社使用的模型的输出,因此它代表当前使用的模型的结果。变量“总结果”表示分析期(2007年7月至2008年6月)的结果。根据合作社的业务规则和研究的目标,是模型的目标输出变量。
数据转换旨在帮助执行数据挖掘技术。 如由Goldschmidt和Passos(2005)推荐,数据被分组为单个二维表。数据来自合作社的两个来源:第一,来自信用评定; 第二,靠手工一点一点收集的记录。在本次调查中,使用了来自211个成员的历史数据,其中22个违约,189个良好信誉。 这些数据代表了合作社的所有成员借款人。鉴于违约成员和拥有良好声誉成员之间的数量差异,可能存在偏差和过度拟合的问题(Chawla,2005; Horta,Borges,Carvalho,&Alves,2011)。为了解决这个问题,可以使用一种叫SMOTE(Chawla,2005)的技术来插入违约合作成员的观察值。这种算法是文献中最常用的算法之一(Horta et al,2011)。因此,创建了对少数成员(即违约成员)的110次观察,样本共计321次观察,其中132次违约,189次良好。接下来,数据库被随机化以避免在交叉验证期间将相同值集中到给定数据集中,这将导致过度拟合。对于决策树和神经网络的计算实现技术,同时考虑每个合作成员先前描述的变量,研究中所描述的数据库已经使用了。例如,选择由决策树技术生成的模型,用于在后处理阶段期间转换成决策规则。选择了公共领域计算工具WEKA(用于知识分析的Waikato环境)来执行此任务。
Goldschmidt和Passos(2005,第50页)认为,为了更可靠地评价知识模型,“[...]用于构建模型的数据不应该是与本模型评价中使用的相同“。这些作者进一步指出,应该至少有两个部门:培训和测试。 第一分区包括在构建模型中使用的数据; 第二分区包括用于评估的数据。分割数据集用于简化,汇总和减少数据库的大小和差异性,这也导致了选择更精细和准确的模型(Dasu&Johnson,2003)。
在本研究中,为了增加评估中立性,K-交叉验证用于决策树和人工神经网络。根据Goldschmidt和Passos(2005,第51页),在这种方法中,数据库被随机分成N个元素,分成K个子集:K个子集中的每一个作为测试集,剩余的(K-1 )子集合成训练集。 该过程重复K次,以便生成和评估K模型[...]。数据被分成十组,并在Witten和Frank(2005)提出的十个模拟里交叉重复。交叉验证已在几个关于信用分析的研究中被发现(Akkoccedil;,2012; Chang&Yeh,2012; Han et al,2013)。
对于本研究,使用多层人工神经网络,即多层感知器(MLP)与反向传播学习算法。输入层中的神经元数量为66,中间有两个,输出层有两个。对于所有测试,使用0.01的学习速率,假定该速率改进了在模拟中观察到的分类,并且也被Lemos等人(2005)使用。动量速率不像Lemos et al 使用的那样(2005); 此外,增加这个速率并没有提高分类性能。
在这个人工神经网络中使用了监督学习。Ferreira(2005,第37页)描述了这一点学习类型如下:“[...]通过向网络提供输入来训练网络值和相应的输出值[...]。对于模型的比较分析,总的百分比正确预测值用作双尾校正的重采样t检验中的参数,显着水平为0.05(或5%),具有九个自由度,如Witten和Frank(2005)在方程式1中提出的 下面:
3.1 决策树
在本研究中,选择使用J4.8工具。这是WEKA实施的C4.5决策树算法。根据Goldschmidt和Passos(2005),这被广泛使用和接受。通过决策树技术生成的模型被用来举例说明规则和混淆矩阵。下面的模型生成了41个叶,即if-then类型的决策规则集。 第一组的一些规则如下所示:
- 如果流动性保证=高保证流动性(销售少于6个月),然后结果是默认;
- 如果流动性担保=中度保证流动性(6至12个月销售)和承诺水平高达平均净收入的20%,那么结果是良好的信誉;
- 如果流动性担保=中度保证流动性(6至12个月销售)和承诺水平=平均净收入的20%至30%,那么结果是良好的信誉。
图02显示了由决策树的测试集合生成的混淆矩阵被评估。该矩阵显示了被分类为预测和实际的实例。他们用以评估模型的命中和未命中类型。主对角线包含正确分类的值。 这些值以绝对数字的形式给出。
在这个例
全文共6644字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[142910],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。