大数据和可视化:方法、挑战和技术进展外文翻译资料

 2022-10-31 14:44:04

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


大数据和可视化:方法、挑战和技术进展

Lidong Wang, Guanghui Wang, Cheryl Ann Alexander

摘要:大数据分析通过减少数据的大小和复杂性在大数据应用程序中的发挥关键作用。可视化是一种帮助对大数据获取数据的完整视图和发现数据价值的重要方法。大数据分析和可视化应该无缝集成,以便它们在大数据应用程序中能够以最好的方式工作。本文介绍了传统的数据可视化方法以及一些常规方法对大数据应用的扩展,讨论了大数据可视化的挑战,介绍了大数据可视化的新方法、应用和技术进展。

关键字:大数据 可视化 交互式可视化 虚拟现实 网络 云计算 信息技术 电信系统

引言

数据可视化以某种有条理的形式表示数据,包括信息单元的属性和值[1]。基于可视化的数据发现方法允许业务用户混合不同的数据源来创建自定义分析视图。高级分析可以集成在方法中,以支持在台式机,笔记本电脑或移动设备(如平板电脑和智能手机)上创建交互式和动画图形[2]。表1 [3]显示了一项调查中受访者认为数据可视化好处的百分比。

表1 数据可视化的好处

好处

百分比(%)

强化决策功能

77

更好的自组织数据分析

43

协作增强/信息共享

41

向最终用户提供自助功能

36

增加投资回报(ROI)

34

省时

20

降低IT的负担

15

对于可视化有一些建议[4]:(1)不要忘记元数据,描述数据的数据也可以有非常好的启迪作用。(2)注重参与。可视化工具应该是交互式的,而且用户参与非常重要。(3)提倡交互式,静态的数据工具往往不能像交互式的工具那样更容易引导发现。

大数据是大量的、高速度的或多种类型的数据集,需要一些新形式的处理方式以实现增强的过程优化、知识发现以及决策。大数据的挑战在于数据捕获、存储、分析、共享、搜索和可视化[5],可以认为可视化是大数据的“前端”。以下是对数据可视化的误解[4]:

bull; 所有的数据都必须可视化:重要的是不要过分依赖可视化,一些数据不需要可视化方法就能发现其表明的信息。

bull; 只有良好的数据应该可视化:简单和快速的可视化可以突出数据中的错误,正如它有助于发现有趣的东西一样。

bull; 可视化将始终表现出正确的决策或行动:可视化不能取代批判性思维。

bull; 可视化将导致确定性:数据可视化并不意味着它显示了什么是重要的准确图片,可视化可以用不同的效果来操纵。

可视化方法用于创建表、图、图像和其他直观的显示方式来表示数据。大数据可视化不像传统的小数据集那么容易,传统的可视化方法的扩展已经出现,但还远远不够。在大规模数据可视化中,许多研究人员在实际数据渲染之前使用特征提取和几何建模来大大减少数据大小,选择适当的数据表示形式在可视化大数据时也是非常重要的[5]。

本文的目标是通过引入传统的可视化方法和其中一些用来处理大数据的扩展来说明一些新的方法和大数据可视化的发展,讨论大数据可视化的挑战和分析大数据的技术进展。

在这项研究中,作者首先通过大学图书馆系统搜索近年来出版的与数据可视化相关的论文。在这个阶段,作者主要总结了传统的数据可视化方法和这一领域的新进展。接下来,作者搜索与大数据可视化相关的论文。这些论文中的大多数在过去三年发表,因为大数据是一个新的领域。在这个阶段,作者发现大多数常规数据的可视化方法不适用于大数据。一些传统的可视化方法对于处理大数据的扩展在功能上是远远不够的。作者主要关注大数据可视化的挑战,以及新的方法,技术进展和大数据可视化的开发工具。

传统的数据可视化方法

很多传统的数据可视化方法会被经常用到,它们分别是:表,直方图,散点图,折线图,条形图,饼图,面积图,流程图,气泡图,多数据系列或多图组合,时间线,韦恩图,数据流图和实体关系图等等。此外,一些数据可视化方法已经被使用,但是与上述方法相比它们不那么名不经传的。其他方法有:并行坐标,树形图,锥形树和语义网络等[1]。

平行坐标用于在多个维度上绘制单个数据元素,平行坐标在显示多维数据时非常有用,图1显示了平行坐标。 Treemap是一种可视化层次结构的有效方法,每个子矩形的大小表示一个度量,而颜色常常用于表示另一个数据度量,图2示出了社交网络社区中的流音乐和视频轨道的选择集合的树形图。锥形树是显示诸如三维的组织主体之类的分层数据的另一种方法。枝条以锥形的形式生长。语义网络是不同概念之间的逻辑关系的图形表示,它生成有向图,节点或顶点,边或弧的组合,并在每个边缘上标记[1]。

图1 平行坐标系[6]

图2社交网络的轨道选择的树图视图(来自一个流媒体服务)[7]

可视化不仅是静态的;它们可以是交互的。交互式可视化可以通过诸如缩放(放大和缩小)、概览和细节、缩放和平移以及焦点和上下文或鱼眼等方法来表现[1]。交互式可视化的步骤如下[1]:

1.选择:根据用户兴趣交互选择数据实体或整个数据或整个数据集的子集或部分。

2.联系:描述多个视图之间相关信息时是有用的,如图3所示的例子。

3.过滤:帮助用户调整显示的信息量,它减少信息量并集中于感兴趣的信息。

4.重新布置或重新映射:由于空间布局是最重要的视觉映射,重新布置信息的空间布局对于产生不同的见解是非常有效的。

图3 在数据集的直方图(顶部)和地理地图(底部)之间进行交互式刷涂和联系

新的数据库技术和有希望的基于Web的可视化方法可能对降低可视化生成的成本和允许其帮助改进科学过程来说至关重要。由于基于Web的连接技术,可视化随着数据更改而改变,这大大降低了保持可视化及时且最新所要付出的努力。这些“低端”可视化经常用于业务分析和开放的政府数据系统,但它们通常不用于科学过程。科学家许多可用的可视化工具不允许像这些基于Web的工具一样实时连接[8]。

大数据可视化的挑战

可扩展性和动态是视觉分析中的两个主要挑战,表2显示了根据数据大小的静态数据和动态数据的研究状态。对于大型动态数据,A类问题或B类问题的解决方案通常不适用于A和B同时存在的问题[9]。

表2 可视化分析研究的状况和挑战

数据类型

中小型

大型

静态数据

能被很好地学习

出现A问题

动态数据

出现B问题

高挑战性(A和B)gt;gt; A B

基于可视化的方法应对大数据带来的“四V”挑战,并将其转化为以下机会[2]。

bull; 量大:开发用于处理大量数据集,并能够从大量数据中得出价值的方法。

bull; 多样:开发以根据需要组合尽可能多的数据源的方法。

bull; 速度:通过这些方法,业务可以使用实时流处理替换批处理。

bull; 价值:这些方法不仅使用户能够创建有吸引力的信息图和热图,而且可以从大数据获得洞察力以创造商业价值。

大数据可视化的多样性和异质性(结构化,半结构化和非结构化)是一个大问题。速度是大数据分析的理想因素,在大数据中设计一个具有高效索引的新可视化工具并不容易。云计算和高级图形用户界面可以与大数据合并,以更好地管理大数据可扩展性[3]。

可视化系统必须能够处理非结构化形式的数据,例如图形,表格,文本,树和其他元数据,大数据通常具有非结构化格式。由于带宽限制和功率要求,可视化应该更接近数据以有效地提取有意义的信息,可视化软件应以原位方式运行。由于大数据量,对大规模并行化的需求是可视化的一个挑战。并行可视化算法的挑战是将问题分解为可以并发运行的独立任务[10]。

有效的数据可视化是大数据时代发现过程的关键部分。对于大数据中的高复杂性和高维度的挑战,存在不同的降维方法。然而,它们可能不总是适用。有效的可视化的维度越多,识别潜在有趣的模式、相关性或异常值的机会越高[11]。

大数据可视化还存在以下问题:

bull; 视觉噪声:数据集中的大多数对象彼此十分相近,用户不足以在屏幕上将它们作为单独的对象。

bull; 信息丢失:使用可见数据集的删减版,但会导致信息丢失。

bull; 大图像感知:数据可视化方法不仅受设备的宽高比和分辨率的限制,还受物理感知限制的限制。

bull; 高图像变化率:用户观察数据,不能对显示的数据变化次数或其强度作出反应。

bull; 高性能要求:在静态可视化中可能不会注意到这个问题,因为与高性能要求不同,低速的可视化要求就能够满足。

感知和交互的可伸缩性也是大数据可视化的挑战。可视化每一个数据点可能导致过度绘图并可能淹没用户的感知和认知能力; 通过采样或过滤的方式减少数据可能淘汰有趣结构或异常值。查询大型数据存储会导致高延迟以及破坏流利的互动[13]。

在大数据应用中,由于大数据的大尺寸和高维度,难以进行数据可视化。当前的大多数大数据可视化工具在可扩展性、功能和响应时间方面表现不佳。可能会对有效的不确定性感知可视化产生巨大挑战,并在可视化分析过程中出现问题[5]。

关于可视化和大数据的一些挑战或问题的潜在解决方案如下面所描述的[14]:

1.满足速度的需要:一个可能的解决方案是硬件。可以使用增加的存储器和强大的并行处理。另一种方法是将数据放入内存,但使用网格计算方法(使用许多机器)。

2.了解数据:一个解决方案是具备适当的领域专业知识。

3.解决数据质量:有必要通过数据治理或信息管理过程确保数据清洁。

4.显示有意义的结果:一种方法是将数据聚集到更高级别的视图,其中较小的数据组可见,并且数据可以有效地可视化。

5.处理异常值:可能的解决方案是从数据中删除异常值或为异常值创建单独的图表。

大数据可视化的一些进展

至于如何在大数据时代设计可视化,可视化方法应首先提供概述,然后允许缩放和过滤,并提供需求的深层细节[15]。可视化在使用大数据获得客户的完整视图中可以发挥重要作用。关系是许多大数据场景的一个重要方面。社交网络可能是最突出的例子,在文本或表格格式中很难理解;然而,可视化可以使新兴网络的趋势和模式显而易见[7]。基于云的可视化方法被提出来可视化用户在社交网络上的不变性关系,该方法可以基于相关矩阵直观地呈现用户的社交关系,以表示社交网络的用户节点的层级关系。另外,该方法使用基于云的Hadoop进行可视化的分布式并行处理,这有助于加快社交网络的大数据处理[16]。

大数据可视化可以通过多种方法来展示,例如多于一个视图的表示、因素数量的动态变化和过滤(动态查询过滤器、星域显示和紧耦合)等。[12]根据数据的标准 [12]:(1)大数据量,(2)数据变量和(3)数据动态对一些可视化方法进行了分析和分类。

Treemap:它是基于分层数据空间填充的可视化方法。

Circle Packing:它是树形图的直接替代。除了作为原始形状它使用圆圈的事实,圆圈也可以包括在来自较高层级的圆圈中。

Sunburst:它使用Treemap可视化,并转换为极坐标系。主要区别是可变参数不是宽度和高度,而是半径和弧长。

Parallel Coordinates:它允许使用用于不同对象的多个数据因子来扩展视觉分析。

Streamgraph:这是一种堆叠区域图,围绕中心轴移动,导致流动和有机形状。

Circular:数据对象围绕一个圆放置,并根据它们的相对性的比率通过曲线链接。不同的线宽或颜色饱和度通常用于测量对象相对性。

表3和表4 [12]显示对可视化方法的分类。表3指示哪种方法可以处理大量数据、多种类数据和动态数据。根据表4,可视化方法可以根据适用的大数据类别进行分类。

Table3 可视化方法的特性

<t

剩余内容已隐藏,支付完成后下载完整资料</t


资料编号:[141664],资料为PDF文档或Word文档,PDF文档可免费转换为Word

方法名称

大数据量

多种数据

数据动态

Treemap

-

-

Circle Packing

-

-

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。