阿里巴巴的大数据欺诈风险与管理外文翻译资料

 2022-07-26 14:31:06

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


阿里巴巴的大数据欺诈风险与管理

陈贞东,叶涛,王浩兰,陶晨

摘要:随着移动互联网和金融的发展,欺诈风险呈现出各种形式和规模。本文将介绍欺诈阿里巴巴风险管理大数据。阿里巴巴已经建立了基于实时的欺诈风险监测和管理系统大数据处理和智能风险模型。它直接从大量用户行为数据中捕获欺诈信号网络,使用机器学习实时分析,准确预测坏用户和交易。延长对外部客户的欺诈风险防范能力,阿里巴巴还建立了一个大型数据防诈骗产品蚂蚁—巴克勒,蚂蚁巴克勒旨在通过灵活性和智能来在线识别和防止所有恶意行为的商人和银行。通过结合阿里巴巴和客户的大量数据,蚂蚁巴克勒使用RAIN分数引擎量化欺诈预防的用户或交易的风险级别。它还具有用户友好的可视化UI,具有风险分数,顶部原因和欺诈联系。

关键词:欺诈检测与预防; 风险模型; 恶意行为; 风险评分; 大数据分析。

1 介绍

因此,大数据是一个包含大量,复杂和非结构化数据集合的全面涵盖术语使用传统的数据处理应用程序变得困难。 大数据“大小”是动态的不断增长,截至2012年,从几十兆字节到数千兆字节的数据文章是写的 它也是一套分析,捕获,策划,管理和处理数据在可允许的经过时间内(维基百科)。

大数据有很多不同的目的和欺诈风险管理,网页展示广告,呼叫中心优化,社交媒体分析,智能交通管理等。大多数这些分析解决方案是因为数据技术无法存储这么大的数据或处理技术,所以不可能无法处理大量工作量,或者及时执行解决方案成本太高方式。

图1 阿里巴巴交易量增加

随着业务需求的出现,阿里巴巴利用优化的系统和平台,开发了先进的方法论并处理100亿级日常量。 它从2009年的RAC数据平台通过GP开始(Green Plum,EMC产品,请见EMC2)和Hadoop(见White7),现在正在使用ODPS。 数据处理和分析也从T t 1模式1提高到接近实时模式。

阿里巴巴通过调整大数据技术,突显了欺诈风险管理领域的进步。 它发明了称为CTU(反恐怖主义单位)的实时支付欺诈预防监测系统。 CTU成为一个中国最先进的在线支付欺诈管理系统,可以跟踪和分析账户或用户的行为,识别可疑活动,并可以根据智能应用不同级别的智能仲仲裁。

欺诈风险模型是CTU2(反恐中心)的支撑层之一。 他们使用统计学和工程技术来分析中间人(帐户,用户或设备等)的汇总风险。 详细属性被生成为输入。 不同的算法是评估这些属性和欺诈的相关性活动,并将好的与坏的分开。 验证和调整是确保模型适用于不同的情景。 阿里巴巴的大量数据产生了成千上万的属性,构建了欺诈风险模型与各种欺诈活动。

这些基于大数据的欺诈模式在阿里巴巴几乎每一个程序中被广泛使用来监控欺诈作为开户,身份验证,订单安置,交易前后,退款等建立安全干净的支付环境,阿里巴巴决定将这一能力扩大到外部用户。 用户友好产品被建成,称为AntBuckler。 AntBuckler是帮助商家和银行识别的产品网络犯罪风险和欺诈活动。 并且基于大数据分析和给出产生风险分数(RAIN分数)向商家和银行说明风险级别。

在本文中,我们展示了阿里巴巴应用大数据技术,并将这些技术应用于欺诈风险管理模式和系统。 我们还介绍了大数据欺诈的方法和应用阿里巴巴使用的防虫产品AntBuckler。

本文的剩余部分组织如下。 第2节介绍了大数据应用和基础计算在阿里巴巴进行。 第3部分详细介绍了阿里巴巴的欺诈风险管理和欺诈风险建模。 第4节提供了对AntBuckler的解释。我们在第5节总结。

2 阿里巴巴的大数据应用

阿里巴巴在过去十年中快速增长。 2005年每日交易量不足10万。 到了在2013年11月11日到1.88亿。 图1显示了阿里巴巴的交易量变化2005年至2013年每日。

随着业务呈指数级增长,数据计算,处理系统和数据存储必然会随之变化好。 它从RAC的数据计算平台(Oracle Real Application Clusters)开始(见Oracle白皮书1)2009年,通过GP和Hadoop,目前正在使用ODPS。 数据处理和分析也从T 1模式改进T N模式:T是系统运行时的时间。 N是时间间隔。 Tthorn;1表示系统在第二天运行。2 CTU:支付宝内部风险控制系统,由阿里巴巴全面开发设计。这个名字是受美国电视剧的启发

图2 阿里巴巴的大数据计算进展

到实时模式,特别是在阿里巴巴的风险防范中,每次交易的欺诈检查都可以控制在内100 ms(毫秒)。此外,数据源从单个单元数据扩展到内部组的组合数据和外部局数据。图2说明了阿里巴巴大数据计算过程的进展自2009年以来,阿里巴巴不仅拥有淘宝,天猫和支付宝的数据,还拥有高德地图等合作伙伴的数据其他。来自各种资源的数据构建了一个集成的数据平台,业务场景的平台得到扩展很大程度上也是如此。营销人员使用数据分析准确地定位用户,并亲自为客户提供服务。商家和金融公司需要专业的数据分类来筛选有价值的客户。智能客户服务可以使用综合数据有效,高效地解决用户的请求和投诉平台。而在线支付服务和系统方面,阿里巴巴是线上支付服务提供商的领导者,建立欺诈风险管理平台,确保买卖双方交易快捷安全。阿里巴巴广泛分析信用评分和保险价格以及其他类型业务的大数据。

3 阿里巴巴欺诈风险管理

3.1 欺诈风险框架

阿里巴巴的欺诈风险管理与传统的金融和银行体系现在完全不同大数据。 为了处理实时欺诈行为,逐步开发新的工程方法来处理这种数量数据的。 在硬件系统之上,还建立了风险预防框架,以支持新的方法论和算法。 有几种不同的风险预防框架。

阿里巴巴使用的欺诈风险的一个基本框架称为多层次风险预防框架。图3说明了阿里巴巴在支付宝系统中使用的多层次风险防范框架。 共有五层这个系统。

在阿里巴巴,有5层防止交易诈骗。 五层是(1)帐号检查,(2)设备检查,(3)活动检查,(4)风险策略和(5)手动审查。一名欺诈者可以通过第一层帐户检查,然后仍然有四层阻止欺诈者。 当事务被启动时,第一层是帐户检查,其中包括买家帐户信息和卖家帐户信息。几个检查第一层次帐户检查被设计为问题:买方或卖方帐户之前是否有不良/可课疑活动?买家帐号有没有可能被盗?非常可疑的交易可能会被拒绝保护在这种情况下,正的买家或额外的真实方法可能会触发双重确认。第二层是设备检查,包括同一设备上的IP地址检查和操作检查。同样,检查第二层设备检查是通过几个问题设计的:是否有大量的交易量化从同一台设备?任何交易是从坏的设备?第三层是活动检查,称为行为检查,检查历史记录,买卖双方的行为模式,帐户之间的联系,设备和场景。检查第三层活动检查也是设计的问题:买方是否或卖家帐户链接到已识别的坏帐户?第四层是风险战略,最终判断采取适当的行动。检查第四层风险策略旨在汇总以前的所有结果根据严重程度进行检查。一些交易由于明显的欺诈活动而被发送到自动决定。一些灰色案例被发送到手动审查。一方面,支付宝希望提供更好的服务和经验双方。另一方面,支付宝不想误判任何情况。没有强有力的证据,可疑案件将在最后一层手动审查中手动审查,其中有更多的证据显露和一些电话可能会向买家或卖家核实或提醒或查询。

阿里巴巴欺诈风险管理与传统金融和银行业“欺诈风险管理”的另一个主要区别系统是危险的一方。 客户被评估为银行体系中的主要风险方。 在阿里巴巴,有3个层层的风险派对。 三个层次是(1)客户层面,(2)帐户层面和(3)场景层面。 见图4。对于这两个帐户,阿里巴巴的风险欺诈预防对于两个客户来说都是买方或卖方这些帐户是否对大公司或个人而言都是有名望的,无论是这两种情况活动在开户或退款期间发生。

3.2 CTU e防欺诈监控系统

CTU是一种实时支付欺诈预防监控系统,可以跟踪和分析账户或用户的“行为,识别可疑活动,并根据智能仲裁应用不同程度的治疗。首先版本于2005年8月1日发布。该系统由支付宝的风险控制小组独立开发。 在那个时间,它更多地关注大型交易调查,可疑退款等。现在它延伸到洗钱,营销欺诈,帐户和卡被盗/丢失以及现金货币化。 另外这是一个24小时的监控系统,随时提供整个保护。

当事件发生时,它通过CTU进行判断。 事件被定义为用户登录,更改档案,发起交易,从阿里巴巴撤出其他银行账户等。 有数百各种事件。 一个可疑事件触发CTU背后的模型和规则进行实时计算,并在其内部100ms,CTU返回结果并作出风险决定。 如果这是CTU返回的风险较低,则会将事件传递给继续其操作。 如果这是一个高风险,CTU将指导停止或进一步的挑战步骤来继续这个过程。图5说明了CTU的运行过程。

3.3 欺诈风险建模

支持CTU判断的数据来自历史案例,用户行为,链接关系等。 风险建立模型来分析欺诈者的欺诈模式,欺诈者之间的关系,a之间的不同行为一群好的用户和一群坏的。

在构建风险模型时要考虑几个因素。偏差和差异通常都在一起平衡风险模型的有效性和影响。偏差是衡量模型如何适应风险的因素,如何图4.多层次风险预防框架。图5.阿里巴巴的CTU风险预防系统。J. Chen et al。 /财经与数据科学杂志1(2015)1e10 5找到帐户或交易的风险准确。方差是衡量模型是否稳定,无论是否可以维持相对较长的业务生命周期。负面阳性率也称为错误覆盖率,是衡量模型的准确度如何。高负面利率会给企业带来巨大的商业压力和不良用户经验。此外,解释性是必要的,以向用户解释模型给出这样的风险级别的原因他的账户或交易。在大数据时代,除上述因素外,数据科学家不断争取数据缺陷,数据稀疏和数据偏差。

在阿里巴巴反复审议后,建模过程也相对成熟。白色和黑色样品首先被选中。白色样本是风险良好的方面。黑色样本通常是被判断为不好的危险方。一个好的模型可以在最大程度上区分白色和黑色样本。收集行为数据和活动数据两个样本都从抽象聚合变量生成原始变量。通过测试,一些变量是有效验证。它们可以最终用于建模。从我们的建模经验使用阿里巴巴大数据,决策树C5.0和随机森林具有更好的平衡偏差和差异性能。一明显的原因是它们不假设数据分布,因为它们是算法模型而不是数据模型。当模型能够更好地分离样本中的好坏时,模型基本上适应于处理。但是,为了确保适用于不同的场景,验证也很重要。如果可以启动一个模型对测试和验证数据进行有效和高效的工作。那么,需要欺诈风险预防模式部署在生产环境中,并结合其他策略和规则用于CTU。

3.4 RAIN评分,风险模型

RAIN是一种风险模型。 RAIN代表活动,身份和网络的风险。 基本上有一个风险对象(一个用户,一个帐户,甚至一张卡)被组合成变量,活动,身份和网络的三个维度。图6说明了RAIN评分的三个维度。 首先选择数百个变量来解释状态一个对象的行为。 根据欺诈风险模型的测试,验证和验证,选择变量保持 基于这三个维度内变量的不同重量生成RAIN分数。 变量和变量的权重可能因不同风险情况而异。 例如,对于一个卡片被盗的场景,更多可以选择身份变量并具有较高的权重。 而对于信用投机情景,更多的网络可以选择变量并提供更高的速率。 变量的权重由不同的机器学习进行训练算法,如逻辑回归。

3.5 欺诈风险检测中网络分析的一个例子

图形理论(网络分析),应用数学主题通常应用于社交网络分析(见Wasserman6)。脸书、推特将图形推论应用于他们的社交网络分析。基于网络分析在风险控制中起着新的作用。 欺骗者现在是恶作剧。 他们知道在线风险模型不断检查欺诈帐户是否来自同名,地址,电话和信用卡等。因此,他们尝试新的方式来隐藏连接。 因此,介绍了基于网络的分析来揭示其中的连接区。 例如,如果每个帐户被认为是一个节点,那么基于网络的分析就是将不同的边缘进行定位节点,如果它们是由物理人员拥有的。如果有合理的方法来定义不同节点之间的边缘,一些有趣的小组可以被公开。

在图7中,红色节点表示帐户,绿色节点是这些帐户的详细资料信息,如启用的IP,电话号码,姓名,地址等。如果一个帐户(红色节点)具有详细的配置文件信息(绿色节点),网络分析在这个红色和绿色节点之间绘制一条线,以显示关系,线是一条边缘。 图7说明了两个组都有自己启用的IP的网络分析。 但是有些帐号两组共享相同的绑定电话号码。 这暴露了两组之间的连接。 另一个例子下面。

图8告诉我们另一个故事。 一个帐户与左侧共享相同的注册IP和注册设备足迹组。 它也与正确的组共享相同的名称和信息号。这是证明有力的证据两组帐户之间的连接。

以上两个例子只是一个简单的例子。在现实世界中,连接非常复杂。我们必须使用并行图算法和特殊图形存储来处理巨大的网络连接图。 的中间节点(基于网络分析的概念,参见Freeman5)在寻找连接方面发挥重要作用不同的帐户,其中中间节点是网络分析中使用的中间集中。连接现在被广泛用于判断账户关系,有效防止了欺诈者的建立自己的网络。

蚂蚁巴克勒是一个基于大数据的防欺诈产品为了建立安全干净的工资环境,阿里巴巴决定将其风险防范能力扩大到外部用户 一个大型的数据欺诈管理产品被构建并称为蚂蚁 巴克勒。本产品完全由支付宝开发。

蚂蚁 巴克勒是一个帮助商家和银行识别网络犯罪风险和欺诈活动的产品。 我们发现商人一般处理类似的欺诈模式。 一个例子是营销计划欺诈。 招商经常给现金奖励或凭证证明给新用户扩大用户群。 欺诈者经常借此机会创建数百个不同的帐户。 对于商家来说,营销资源没有给予正确的用户群。 要好用户无法使用现金奖励或凭证凭证。 欺诈者也可以用他们的账户出售优惠券价格更高。 这不仅损害了商人的品牌形象和声誉,而且使市场和商品混淆潜在客户。

蚂蚁 巴克勒使用RAIN模型引擎并生成风险评分(RAIN Score)来量化风险水平。 的

得分范围从0到100越高,风险越高。 它还具有用户友好的可视化。 顶部的原因显示在上面具有更高的重量和更亮的颜色。 连接,通过帐户,电子邮件,电话,卡片等使用基于网络的视图。 见图。 图。 1是一个风险账户的主要接口。 界面给出详细说明

全文共6505字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[144880],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。