英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
在线与离线云计算技术相结合的视频云平台
Weishan Zhang bull; Liang Xu bull; Pengcheng Duan bull; Wenjuan Gong bull; Qinghua Lu bull; Su Yang
摘要
随着来自安全和运输监控等各种来源的视频数据的快速增长,对在线实时分析和大规模视频数据的精细批量处理提出了要求。现有的视频处理系统不足以解决大规模视频处理中的许多挑战,例如性能,数据存储和容错。新兴的云计算和大数据技术为大规模视频数据的智能处理提供了启发。本文提出了一种通用的基于云的体系结构和平台,该体系结构和平台可为视频数据的智能分析和存储提供鲁棒的解决方案,该体系结构和平台称为BiF(与快速处理集成的批处理)体系结构。我们已经使用Hadoop平台和Storm平台实施了BiF架构,这两个分别是典型的精简批处理云平台和在线实时处理云平台。本文所提出的架构可以有效地处理连续监控视频数据,并且无缝集成了实时分析,批处理,分布式存储和云服务,以满足视频数据处理和管理的需求。据评估表明,所提出的方法在性能,存储和容错方面均是有效的。
关键词:云计算、视频处理、Hadoop、Storm
1 引言
由于来自各种来源的大量视频数据,例如来自智能交通系统,农业监控系统和其他智能城市应用的高分辨率监控视频,视频数据呈爆炸式增长。大量视频数据对视频管理和操作提出了巨大挑战,这要求功能强大的机器来处理这些数据。例如,在交通监控视频中检测并跟踪汽车,当被跟踪的汽车违反交通规则并试图逃跑时,就会发出警报;另一个在线应用示例是在紧急情况或紧急安全问题触发警报的安全监视系统中。此外,由于视频数据量很大,它需要弹性解决方案来存储这些数据,并挖掘视频数据以进行可能的决策,例如预测交通拥堵和交通状况事故,游客在假日期间对风景名胜区的预测等。
监视视频处理有许多研究领域,例如跟踪 [1],行人检测[2]等。通常由特征提取[3],目标识别[4]和跟踪[5]组成的视频处理是很复杂的问题,通常会消耗较高的处理能力并需要较大的存储空间。由于新兴的云计算技术为低成本,快速的计算资源提供了先进的存储体系结构和分布式计算[6]功能,因此在使用云计算缓解传统视频处理问题[7]方面进行了一些工作。例如,可扩展的视频处理框架Apache Hadoop[8]。Hadoop是专为批量处理而设计的,所以不适用于实时处理大数据。相反,可以应用在线云计算平台Storm。在Stormplatform中嵌入相关的视频目标检测和跟踪算法可以实现空时监控,这在之前是无法实现的[9]。
MapReduce[10]是Hadoop和Storm平台背后的关键软件体系结构样式,其模型将大规模数据处理操作分为许多独立运行的Map任务,并将这些任务分配给不同的机器进行处理,然后再分配给中间文件 会以特定格式生成文件,最后几个Reduce任务将合并这些计算出的中间文件以获得最终结果。
智能视频处理算法通常由几个步骤组成:背景减除,阴影去除,特征提取,知识库训练等[11]。其中一些步骤可以并行处理,而其他一些则可能需要在线处理。一个例子是可以立即执行背景减法的GMM(高斯混合模型)[12],最好将这种相对轻量级的算法放在某些内存云计算节点上以获得快速响应。 相反,某些精细算法需要在精细的批处理层中实现。例如,训练SVM分类器通常基于大量的图像,这需要更多的时间,因此最好对其进行处理。
因此,为了有效,高效地处理视频,利用某些云平台的精细批处理能力以及其他平台的在线实时内存处理能力是有利的。这实际上是当前视频处理研究中的重点[1,8]。因此,在本文中,我们介绍了与快速处理体系结构集成的批处理的工作,该体系结构受Lambda体系结构路线图的启发而被命名为BiF体系结构样式[13]。我们已经为视频处理实现了BiF架构风格,对其性能进行了评估并显示了其有效性。
本文的贡献主要包括:
(1)BiF架构样式在大型视频数据处理领域已正式化。 BiF结合了以下优点:两种不同的云计算技术,即在线流处理和正式批处理。
(2)设计和实现BiF体系结构样式以显示其有效性。 我们的工作可以作为视频处理的参考体系结构,因为视频数据是大数据的主要形式,因此它非常重要。
(3)视频数据的批处理云处理和内存云处理的集成提供了可扩展性,可靠性和容错能力,以及以前无法实现的性能潜力。
(4)我们对工作进行了评估,以显示其在解决存储,性能和容错问题方面的实际用法。
本文的其余部分安排如下:相关工作在章节2中进行描述;章节3描述了BiF如何设计和实现来处理视频数据;章节4评估实现并显示我们的方法可以很好地执行;结论和未来的工作将在章节5中介绍。
2相关工作
关于使用Hadoop,Storm管理大量视频数据要有一些工作。在论文[14]中,提出了一种在云计算环境中基于Hadoop的分布式视频转码系统,该系统将各种视频编解码器格式转码为MPEG-4视频格式。他们的系统向异构设备(例如智能手机,个人计算机,电视和平板电脑)提供各种类型的视频内容。作者使用MapReduce框架设计和实现该系统,该框架在Hadoop分布式文件系统平台上运行。为了增加适应性,可以通过添加视频转码功能来扩展BiF体系结构。
在论文[8]中,他们的演示提出了Apache Hadoop中可扩展的视频处理框架,以并行化云环境中的视频处理任务。他们的框架将FFmpeg用于视频编码器,将OpenCV用于图像处理引擎。为了优化性能,作者利用MapReduce实现细节来最小化视频图像副本。论文[15]中的作者对混合体系结构进行了评估,其中HDFS包含非文本数据(如图像),并且此类数据的位置存储在HBase(基于列存储数据记录的功能强大的分布式数据存储系统)中。 这种混合体系结构使数据的搜索和检索速度更快,这在任何充斥数据的组织中都日益增长。 为了优化视频管理,可以通过添加HBase和Hive来挖掘视频数据来扩展BiF体系结构。 BiF架构的优点是将实时云平台与批处理云平台相结合。
关于视频数据挖掘和视频摘要有一些工作。论文[16]中的作者首先提出了一个针对领域特定视频的基于知识的视频索引和内容管理框架(以篮球视频为例)。他们提供了一种通过从视频数据中挖掘关联来探索视频知识的解决方案。论文[17]中的作者将电影分为主题。每个主题对应一个有意义的角色情节。通过研究这些主题,他们发现了由其语义特征支持的有用的角色节奏编辑模式。论文[18]中的作者设计了如何将传入的原始视频流分割为有意义的片段,以及如何提取和表示用于表征分割片段的运动特征。BiF体系结构的批处理层适用于此类工作,在这里我们将研究此体系结构的挖掘组件以扩展当前的工作。
相关工作的另一部分是Storm和Hadoop的优化。论文[19]在有效的负载平衡,负载分配,最佳的资源利用,最小的开销和最小的延迟方面实现了一种更高性能的最佳方法,这一直是云基础架构的关键问题。我们在BiF架构中使用了这些技术来优化Hadoop,并且还将这些想法用于Storm集群优化。
3 BiF架构风格
如章节1所述,我们采取结合批量批处理和在线快速处理云平台的技术优点。在BiF架构样式的设计和实现中,我们首先概述了其质量属性和约束条件。我们遵循菲尔德(Fielding)和泰勒(Taylor)(论文)[20]的定义,将其定义为“一组协调的建筑约束,这些约束限制角色和建筑元素,并允许所有符合该样式的建筑中的元素之间存在关系”。在制定BiF建筑风格时,我们很大程度上遵循了Bass等人提出的质量建筑框架[21]和我们先前在中的工作[22]。
3.1建筑特性
以下建筑属性主要集中在样式要实现的非功能属性上,这是塑造建筑样式的主要因素[21]。
3.1.1可用性
用户不应该过多关注哪种云平台背后的云平台,哪些应该隐藏潜在的技术复杂性。他们应该能够快速使用从BiF风格构建的视频云。用户可以从底层BiF架构访问视频监视服务,而无需了解BiF架构的特定实现机制,例如存储和查询机制。
3.1.2可扩展性
从BiF架构风格构建的视频处理系统应统一管理视频设备和视频监视数据。许多用户可以共享资源,并且无需更改体系结构即可轻松向视频平台添加新设备。这意味着可以动态扩展“云”的规模,并支持动态添加设备和计算节点。
3.1.3可靠性
视频云应该稳定以便提供可靠的服务。底层的云计算平台可以提供一些方法来保证服务的高可靠性,例如计算节点损坏和数据复制以实现容错能力。
3.2约束
BiF架构样式应遵循某些约束条件,以便为视频处理和管理提供高效的全面支持。
3.2.1容错
数据可能会丢失或损坏;因此,该架构应支持数据复制以提供容错存储。
3.2.2数据不变性
在挖掘视频数据以进行可能的决策之前,视频数据将以其原始格式持久存储,可能在预处理(例如解码)并通过快速存储流处理进行标记之后。
3.2.3重新计算
由于上述两个约束,可以再次运行该函数以重新计算一些数据,以便进行一些挖掘工作。
3.2.4存放大型文件
由于有许多视频数据要存储在视频处理系统中,因此BiF体系结构样式应能够应付大量视频数据,以便处理例如来自监视摄像机的连续视频数据。
3.2.5批处理功能
BiF体系结构样式应提供高速脱机数据处理功能,以便有效地处理大数据。此功能的重点是数据吞吐量,而不是数据访问的响应时间。
3.2.6流数据访问
为了从连续的视频流中获得近乎实时的响应,BiF架构样式应支持MapReduce架构样式的内存中处理,以支持在线任务,例如视频中的实时对象检测。
3.2.7简单性和一致性
用于文件操作的大多数HDFS程序应一次写入,多次读取。创建,写入和关闭文件后,无需修改。该假设简化了数据一致性问题,并确保了高吞吐量数据访问。
3.3体系结构概述
3.3.1 Storm简短概述
在介绍BiF架构样式的设计之前,我们首先简要介绍一下称为Storm的流处理平台。 尽管Hadoop主要用于批处理,但Storm专注于实时流处理。Storm可以集成许多称为群集节点的计算机,从而由一个可扩展,并发和快速的平台组成。
图1:storm拓扑结构
拓扑主要由喷嘴,螺栓,元组,流和分组规范组成,如图1所示。数据是在此提出的应用程序中来自摄像机的帧流,并按元组序列进行构造和存储。对于一种拓扑,喷口收集数据并将元组序列发射到拓扑的其余部分。有几种获取数据的方法。一种是直接从通常提供其API的设备(例如Twitter的Streaming API,Java OpenCV的API和Apache的HttpClient)收集数据。另一种方法是构建一个消息队列(例如Apache Kafka2)作为中间件在一个设计和您的拓扑之间。这种方法的优点是我们不需要了解有关前置设备的详细信息。螺栓消耗输入的元组,进行一些处理,并可能发出新的流。为了使元组得到可靠的处理,Storm还提供了“成功与失败”范式来确保元组成功,特别是对于一些重要的交易消息(例如银行存款)。
集群平台可以容纳几种拓扑。一种拓扑可能具有多个JVM工作进程。 每个工作流程通常包含几个执行程序。每个执行器运行一个或多个任务,事实上,它们运行一个喷嘴或螺栓的实例。这里的任务是处理元组的单元。流的消耗方式由Storm的分组模式指定,可以是shuffle分组,字段分组,所有分组,直接分组,全局分组和自定义分组。应该使用哪个流分组取决于螺栓中的业务逻辑。
3.3.2 Hadoop,ZooKeeper,Kafka,DRPC和Splout SQL的基本介绍
Apache Hadoop是一个框架,可用于跨计算机群集分布式处理大数据集。Hadoo
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[235586],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。