金融大数据计算中的关键——延迟外文翻译资料

 2022-08-04 16:46:23

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


摘要:

基于大数据计算的分析可以使当今的银行和金融机构在许多方面受益,并为组织提供更有价值的信息,以实现更智能的交易,从而帮助他们获得巨大的竞争优势。但是,大规模的数据和财务关键分析中的延迟要求对当前的系统架构提出了巨大挑战。在本文中,我们首先分析了金融大数据计算中关键延迟带来的挑战,然后从多层次系统的角度讨论了如何应对这些挑战。我们还提出了关于当前不同系统级别的低延迟的研究。本文中的讨论和结论对于具有大数据分析的关键延迟要求的银行和金融组织非常有用。

关键词:大数据;财务分析;延迟

copy;2015,中国科学出版传媒有限公司由Elsevier代表KeAi Communications Co. Ltd.制作和托管。

这是CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/)

1.简介

作为系统和网络性能的重要因素之一,延迟表示用户在发出请求后获得响应的速度。低延迟,即系统对行动的快速响应,相比长响应时间,它可以使用户感觉更自然,更流畅。1 在金融市场中,随着越来越多的商业交易和银行业务在线执行,更低的延迟现在意味着更多收入,特别是对于采用高频交易来赚取巨额利润的公司。高频交易意味着通过使用自动化金融工具快速交易大量证券,2 贸易延迟减少1毫秒可能会使高频交易公司的收益每年增加约1亿3 ,并有助于公司获得巨大的竞争优势。

传统上来说,金融机构可以通过采用高性能计算机来实现低延迟,这些计算机提供了强大的处理能力,尤其是浮点处理能力。当处理能力不足时,高性能计算机也可以通过两种方法进行扩展,这两种方法是向上扩展(向单个计算机添加更多CPU或内存)和向外扩展(添加更多计算节点,并将它们与高性能计算机互连连接) 。但是,由于过去几年需要分析的数据量急剧增长,主要瓶颈已经转移到存储系统的性能,传统高性能计算中频繁的数据移动对数据处理的延迟影响是巨大的。因此,在这种情况下需要改进用于金融计算的系统架构。

这种数据爆炸问题也可以称为大数据问题,这已经演变成近年来的一个热门趋势。大数据意味着收集的数据集变得过于庞大和复杂以至于无法通过传统的数据处理应用程序进行处理。4 IDC预测我们将创造1.8万亿千兆字节5的数据,并且,世界数据将每两年翻一番,预计到2020年,全球数据量将从130增加到40,000艾字节。6惠普的另一份报告还指出,金融界的数据规模现在非常大。例如,2012年全球每秒执行的支付卡交易超过10,000笔,2014年美国网上银行使用家庭总数约为6600万。7 2012年纽约证券交易所每日也必须处理约2 TB数据,预计到2015年每天超过10 PB。8

这样大规模的数据包含着非常有价值的信息,基于大数据的分析可以为金融机构提供更多商机,并可以更全面地了解市场和客户。大数据分析可以在许多方面使银行和金融市场公司受益,例如准确的客户分析,风险分析和欺诈检测。这些方法能让交易更加智能,这可以帮助组织避免潜在风险,提供更加个性化的服务,从而获得更高程度的竞争优势。

根据SAP的报告3 ,由于近年来盈利能力持续下降,组织现在正在向基于大数据分析的智能交易方向发展。除了设计更复杂的计算模型和系统外,如何实现如此大规模的计算仍然是一个非常重要的问题,需要认真去考虑。实际上,如果不将延迟控制在较低水平,许多大数据分析方法都不会是有益的,特别是对于某些高速分析,例如股票交易的风险管理。另一个事实是,快速增长的数据洪水也使得政治,社会和经济事件现在只需要几分钟就可能影响金融市场 ——在过去这可能需要几天时间。这样的挑战要求金融机构在获得事件时立即处理事件。复杂的计算也可能要求新的数据和一些历史记录一起处理,这些历史记录可能涉及大量的输入数据。例如,纽约泛欧交易所集团采用大数据分析来检测新的非法交易模式,他们需要每天处理大约2TB的数据并近乎实时地获得分析结果。9 因此,这与传统的数据流处理是不同的问题,需要对大数据存储中低延迟、高贯穿数据流处理的问题进行研究。

因此,金融领域的延迟关键大数据分析需要将延迟保持在一个临界水平,这要求系统满足多种不同类型的延迟需求。一个是绝对的终端到终端延迟,它直接决定了市场准入和实时交易的速度。另一个问题是如何比竞争对手更快地处理大量数据的复杂分析以获取交易机会。随着数据量的不断增长,许多组织要求分析延迟接近实时,从而能够提取有价值的信息以获得竞争优势。这种需求对当前的系统结构提出了很大的挑战,存在许多难题。例如,如何为历史分析组织如此大规模的数据,如何立即处理流动数据,以及如何有效地执行具有不同优先级的作业。所有这些问题都是为了实现更智能的交易而必须采取的障碍。在本文中,我们主要讨论如何从多级系统的角度保证第二个的延迟需求。我们首先在第2节中详细讨论了实现低延迟大数据计算的问题与挑战。在第3节中,我们讨论了针对这样挑战给出的一个多层次的系统解决方案。我们还在第4节中讨论了业界和学术界对延迟关键大数据计算的最新研究。

2.挑战

在本节中,我们将讨论并总结实现低延迟金融大数据分析的挑战。第一个问题是如何处理海量数据存储和组织的问题。许多组织需要保留多年的历史数据用于趋势预测和其他复杂的分析,这对存储系统的可靠性提出了巨大挑战。快速增长的数据还要求存储架构提供良好的可扩展性,以支持在数据大小增加到存储边界时继续向外扩展。另一个问题是各种数据类型。今天大多数大数据都是非结构化的,因为数据主要来自各种来源,包括网页,媒体和用户日志等。这种数据没有预先定义的数据模型,因此无法适应现有关系数据库的模式,需要企业转向更合适的解决方案,如NoSQL数据库。

大数据存储问题可以通过开发在数百或数千台计算机上部署的具有有效的容错和数据平衡算法的分布式文件系统来解决。这种存储架构还可以提供很高的I/O带宽,以提高数据负载性能。来自Internet服务的许多成功方法,例如Hadoop分布式文件系统(HDFS)10 都基于这种想法。快速增长的非结构化数据的大小也推动了分布式NoSQL数据库的开发,该数据库不使用固定模式来组织数据。诸如BigTable,11 和Dynamo12 等方法已经开发并广泛用于许多不同的企业。金融和银行组织可以直接为自己的场景采用完善的解决方案,并优化数据加载过程以实现低延迟数据访问。

金融大数据分析的主要目的是有效地提取有价值的信息,因此另一个问题是如何设计一个高效的计算系统来处理分布的历史记录和上传数据。由于频繁的数据移动,传统的以计算为中心的模型不再适用于这种情况。为了减少这种I/O开销,研究人员建议将计算移动到数据所在的服务器,这意味着计算需要分成许多小任务发送到每个数据片。基于这种模式的编程模型,如MapReduce,13 可以显着减少大数据处理引起的巨大网络I/O开销,并充分利用高磁盘带宽。但是,MapReduce的主要目的不是支持低延迟处理。尽管后来的方法如Spark14 和Impala15 试图利用本地内存来加速计算,但对于实时分析来说,这种改进仍然不够。

在该领域仍有许多问题需要研究。例如,如何充分利用GPU和SSD等高性能硬件来精确地对每个节点进行局部计算,从而加快整个计算速度。

但是,对于许多金融机构而言,数据应立即处理,因为它们将被摄取以进行更关键的延迟计算。许多财务分析都需要此功能,例如风险管理和非法交易检测。此外,对即将到来的新数据的分析可能需要获取历史数据,因此可以基于高性能编程模型构建方法。为了实现低延迟数据流分析,如何优化内存使用以将时间数据保存在内存中也是一个重要方面。

数据中心规模不断扩大所造成的另一个问题是尾部延迟问题。16 大数据计算工作总是分成多个阶段,而每个阶段都流水线化以在每个节点上执行。慢节点会导致响应时间显著增加,因为整个作业必须等待此落后者生成的部分结果。这种拖延问题可能导致整体响应时间的变化,从而延长延迟分布的尾部。

另一个挑战是计算系统中并发作业的问题。为了实现高吞吐量,常规是允许大批量作业和小型交互式作业在计算环境中聚合的。如果系统无法有效地调度不同类型的作业,则小作业可能必须等待大作业的执行,这可能导致不可预测的延迟。因此,计算平台应该能够自动专注于工作的优先级。还应该控制调度耗费以确保近乎实时地处理交互式作业。

3.用于延迟关键财务分析的多级系统架构

在本章节中,我们将讨论如何处理上一节中提到的挑战。首先,我们简要介绍一下高性能计算,并讨论其在应用于降低金融大数据分析延迟的优势。

当我们谈论高性能计算时,我们主要是指本文中的超级计算。超级计算更侧重于容量,它试图使用经济高效的计算能力来解决常规计算机难以处理的大小和复杂性的问题。超级计算机的性能由Flops测量,Flops是每秒浮点运算的缩写,Flops / W用于测量功率效率。Linpack基准测试17 是一种广泛使用的系统浮点性能测量,它计算密集的线性方程组。这个基准测试也用于500强排行榜,它显示了世界上500强最强大的超级计算机的排名。

一些供应商已经努力将超级计算的优势带入大数据分析。Nvidia和IBM正在尝试使用GPU进行数据库加速。这个新系统采用了CPU和GPU异构架构,性能可以达到目前的12倍。18 英特尔还为Apache Hadoop软件带来了HPC支持,并为Hadoop构建了HPC发行版。新一代英特尔CPU为开发人员提供了完全本地运行应用程序的能力,而不是将数据装载到协处理器,这可以显著降低编程的复杂性,并减少由内存或其他I/O设备引起的延迟。19 此外,为超级计算开发的网络技术(如InfiniBand,20 )也可以使具有高网络吞吐量的大规模集群基础设施受益。

设计硬件系统时必须考虑的另一个重要因素是电力成本。如果延迟减少带来的利润低于电力成本的增量,供应商和企业将拒绝这种变革。因此,应评估数据中心的计算能力与电力成本的关系。例如,一天内Google搜索的请求数约为39亿。我们假设平均延迟要求是0.1秒。功率小于1 MW时,计算能力应约为5 Gbps/W.

因此,目前对HPC的研究为支持低延迟大数据分析提供了许多强大的功能。随着计算能力的提高,银行和金融机构可以以更低的电力成本运行更复杂的事件处理。

软件系统体系结构的最低级别是单机操作系统(OS),其负责硬件资源管理和调度。资源由在同一台机器上运行的许多并发进程共享,如果OS调度程序无法正常工作,那么资源利用率就不能保持在较高水平,从而浪费了高性能硬件的优势。低资源利用率也会导致尾部延迟并影响单机的可扩展性,因此我们建议应根据硬件资源和应用类型仔细选择和优化OS级别的调度策略。同时,调度策略不应带来额外的开销。

大数据分析的计算依赖于由大量服务器组成的数据中心。许多互联网服务供应商提供了新的并行编程模型,为用户提供简单的编程接口,并隐藏了容错、并行和作业调度的细节。这些模型主要关注如何定义一个强力的数据和抽象工作,它可以呈现不同类型的大数据应用程序并在分布式环境中有效执行。通常,作业被拆分并由较低级别的调度程序分配。该系统层是OS和数据科学家之间的桥梁,并为上层提供了特定的数据视图。因此,该层的系统应考虑有关资源管理和数据抽象的问题。为了有效地进行资源管理,设计人员应该考虑诸如如何在计算过程中有效使用内存,避免不必要的网络开销以及充分利用高磁盘带宽来实现高性能等问题。对于数据抽象,设计人员应该考虑特定应用程序的功能,并提供简单的操作符和良好的资源优化机制。同时,还可以基于对这种“无共享”架构的思考来开发高性能数据流系统。此层上的系统可以作为数据管理系统的摘要,因为大多数设计原则和优化策略都是针对有效的数据管理。

随着数据中心规模的不断扩大,作业调度的耗费变得非常重要。来自工业界的许多研究21,22 建议将调度任务与数据管理系统分开。此外,通过构建较低级别的调度程序,企业可以在一个数据中心上运行不同的数据管理系统,以满足不同的分析要求。这种调度程序可以在数据中心系统级实现,该级别位于单个OS和数据管理系统级之间。可以通过智能调度程序在此层中解决并发作业的挑战。

随着数据中心规模的增加,尾部延迟会变得非常严重,并且会显着影响延迟关键计算。Jeffery Dean16 指出,许多软件级别因素影响了这个问题,涉及服务器之间的资源共享,多层排队和系统维护活动(定期日志压缩和垃圾收集)。Dean还提出“尾部容忍”应该被认为与数据中心的容错一样重要。

通过不同系统级别分级的技术可以减少响应时间的可变性。例如,在高级队列中请求调度而不是使用操作系统的队列,很容易执行基于服务类的优先级策略,这允许系统为交互式和延迟关键请求提供高优先级。而且,系统应该识别不同负载类工作的资源需求,从而选择合适的机制和计算模式来保证高性能。

根据上面的讨论,我们建议在为延迟关键型应用程序构建计算机系统时,应将软件系统拆分为多个级别并独立执行改进。延迟关键系统包括数据管理系统,数据中心系统和单个服务器的操作系统。为了评估这些系统的性能和延迟,不同类型的财务应用程序的基准也是必不可少的。因此,延迟关键型计算机系统应该基于五级架构构建,如图1所示。我们将在下一节讨论不同级别的最新研究。

4.机制降低研究

4.1.基准

随着数据

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[263489],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。