本文是对于大数据相关的报告外文翻译资料

 2022-11-27 15:00:05

This article is about large collections of data.

Big data is a term for data sets that are so large or complex that traditional data processing application software is inadequate to deal with them. Challenges include capture, storage, analysis, data curation, search, sharing, transfer, visualization, querying, updating and information privacy. The term 'big data' often refers simply to the use of predictive analytics, user behavior analytics, or certain other advanced data analytics methods that extract value from data, and seldom to a particular size of data set. 'There is little doubt that the quantities of data now available are indeed large, but thatrsquo;s not the most relevant characteristic of this new data ecosystem.'Analysis of data sets can find new correlations to 'spot business trends, prevent diseases, combat crime and so on.' Scientists, business executives, practitioners of medicine, advertising and governments alike regularly meet difficulties with large data-sets in areas including Internet search, fintech, urban informatics, and business informatics. Scientists encounter limitations in e-Science work, including meteorology, genomics, connectomics, complex physics simulations, biology and environmental research.

Data sets grow rapidly - in part because they are increasingly gathered by cheap and numerous information-sensing Internet of things devices such as mobile devices, aerial (remote sensing), software logs, cameras, microphones, radio-frequency identification (RFID) readers and wireless sensor networks. The worlds technological per-capita capacity to store information has roughly doubled every 40 months since the 1980s; as of 2012, every day 2.5 exabytes (2.5times;1018) of data are generated. One question for large enterprises is determining who should own big-data initiatives that affect the entire organization.

Relational database management systems and desktop statistics- and visualization-packages often have difficulty handling big data. The work may require 'massively parallel software running on tens, hundreds, or even thousands of servers'. What counts as 'big data' varies depending on the capabilities of the users and their tools, and expanding capabilities make big data a moving target. 'For some organizations, facing hundreds of gigabytes of data for the first time may trigger a need to reconsider data management options. For others, it may take tens or hundreds of terabytes before data size becomes a significant consideration.'

International development

Research on the effective usage of information and communication technologies for development (also known as ICT4D) suggests that big data technology can make important contributions but also present unique challenges to International development.Advancements in big data analysis offer cost-effective opportunities to improve decision-making in critical development areas such as health care, employment, economic productivity, crime, security, and natural disaster and resource management.Additionally, user-generated data offers new opportunities to give the unheard a voice. However, longstanding challenges for developing regions such as inadequate technological infrastructure and economic and human resource scarcity exacerbate existing concerns with big data such as privacy, imperfect methodology, and interoperability issues.

Technologies

A 2011 McKinsey Global Institute report characterizes the main components and ecosystem of big data as follows:

Techniques for analyzing data, such as A/B testing, machine learning and natural language processing

Big data technologies, like business intelligence, cloud computing and databases

Visualization, such as charts, graphs and other displays of the data

Multidimensional big data can also be represented as tensors, which can be more efficiently handled by tensor-based computation,such as multilinear subspace learning. Additional technologies being applied to big data include massively parallel-processing (MPP) databases, search-based applications, data mining, distributed file systems, distributed databases, cloud and HPC-based infrastructure (applications, storage and computing resources) and the Internet.[citation needed]

Some but not all MPP relational databases have the ability to store and manage petabytes of data. Implicit is the ability to load, monitor, back up, and optimize the use of the large data tables in the RDBMS.

DARPAs Topological Data Analysis program seeks the fundamental structure of massive data sets and in 2008 the technology went public with the launch of a company called Ayasdi.

The practitioners of big data analytics processes are generally hostile to slower shared storage, preferring direct-attached storage (DAS) in its various forms from solid state drive (Ssd) to high capacity SATA disk buried inside parallel processing nodes. The perception of shared storage architectures—Storage area network (SAN) and Network-attached storage (NAS) —is that they are relatively slow, complex, and expensive. These qualities are not consistent with big data analytics systems that thrive on system performance, commodity infrastructure, and low cost.

Real or near-real time information delivery is one of the defining characteristics of big data analytics. Latency is therefore avoided whenever and wherever possible. Data in memory is good—data on spinning disk at the other end of a FC SAN connection is not. The cost of a SAN at the scale needed for analytics applications is very much higher than other storage techniques.

There are advantages as well as disadvantages to shared storage in big data analytics, but big data analytics practitioners as of 2011 did not favour it.

Cyber-physical models

Current PHM implementations mostly use data during the actual usage while analytical algorithms can perform more accurately when more information throug

剩余内容已隐藏,支付完成后下载完整资料


本文是对于大数据相关的报告

大数据是数据集的术语,其数据集非常大或复杂,传统的数据处理应用软件不足以处理它们。挑战包括捕获,存储,分析,数据策划,搜索,共享,传输,可视化,查询,更新和信息隐私。术语“大数据”通常仅仅指使用预测分析,用户行为分析或某些其他高级数据分析方法,这些数据分析方法从数据中提取价值,很少涉及数据集的特定大小。 “毫无疑问,现在可用的数据量确实很大,但这并不是这个新数据生态系统最相关的特征。”数据集的分析可以找到与现货业务趋势,预防疾病,打击犯罪和等等。科学家,企业高管,医学从业者,广告业和政府都经常面临互联网搜索,金融技术,城市信息学和商业信息学等领域的大量数据集的困难。科学家在电子科学工作中遇到限制,包括气象学,基因组学,连通学,复杂物理学模拟,生物学和环境研究。

数据集快速增长 - 部分原因是它们越来越多地通过廉价和大量的信息感应互联网的诸如移动设备,空中(遥感),软件日志,摄像机,麦克风,射频识别(RFID)读取器等物品设备来收集。无线传感器网络。 20世纪80年代以来,世界技术人力资源存储量大约翻了一番,截至2012年,每天生成2.5亿字节(2.5times;1018)的数据。大企业的一个问题是确定谁应该拥有影响整个组织的大数据举措。

关系数据库管理系统和桌面统计数据和可视化包通常难以处理大数据。这项工作可能需要“大规模并行软件在数十台,甚至数千台服务器上运行”。 “大数据”根据用户及其工具的功能而变化,扩展功能使大数据成为移动目标。 “对于一些组织来说,首次面对数百GB的数据可能会引发重新考虑数据管理选项的需求,对于其他组织来说,在数据大小成为重要考虑因素之前,可能需要几十或几百TB的数据。

国际发展

研究有效利用信息和通信技术促进发展(也称为ICT4D)表明,大数据技术可以做出重要贡献,但也对国际发展提出了独特的挑战。大数据分析中的参与提供了具有成本效益的机会, 在医疗保健,就业,经济生产力,犯罪,安全,自然灾害和资源管理等关键发展领域。此外,用户生成的数据提供了新的机会,让人耳目一新。 然而,发展中地区的长期以来的挑战,如技术基础设施不足,经济和人力资源短缺,加剧了诸如隐私,方法论和互操作性问题等大数据的担忧。

技术

2011年麦肯锡全球研究所报告描述了大数据的主要组成部分和生态系统如下:

分析数据的技术,如A / B测试,机器学习和自然语言处理

大数据技术,如商业智能,云计算和数据库

可视化,如图表,图形和其他数据显示

多维大数据也可以表示为张量,其可以通过基于张量的计算来更有效地处理,诸如多线性子空间学习。应用于大数据的其他技术包括大规模并行处理(MPP)数据库,基于搜索的应用程序,数据挖掘,分布式文件系统,分布式数据库,云和基于HPC的基础设施(应用程序,存储和计算资源)和互联网。 [需要引用]

一些但不是全部的MPP关系数据库具有存储和管理PB级数据的能力。隐式是加载,监视,备份和优化RDBMS中大型数据表的使用的能力。

DARPA的拓扑数据分析程序寻求大规模数据集的基本结构,并在2008年推出名为Ayasdi的公司时,该技术上市。

大数据分析过程的实践者通常对较慢的共享存储具有敌意,更倾向于从固态驱动器(Ssd)到并行处理节点内的高容量SATA磁盘的各种形式的直接连接存储(DAS)。共享存储架构 - 存储区域网络(SAN)和网络附加存储(NAS)的感觉 - 它们相对较慢,复杂且昂贵。这些质量与在系统性能,商品基础设施和低成本方面蓬勃发展的大数据分析系统不一致。

实时或近实时信息传递是大数据分析的定义特征之一。因此,无论何时何地都可以避免延迟。内存中的数据是旋转磁盘上的数据,在FC SAN的另一端连接不是。分析应用所需规模的SAN的成本远高于其他存储技术。

在大数据分析中共享存储具有优势和缺点,但2011年以前的大数据分析从业人员并不乐意。

网络物理模型

目前的PHM实现主要在实际使用期间使用数据,而分析算法可以更准确地执行整个机器生命周期中的更多信息(如系统配置,物理知识和工作原理)。需要在机器生命周期的不同阶段系统地整合,管理和分析机械或过程数据,以更有效地处理数据/信息,进一步实现制造业机器健康状况的更好的透明度。

通过这种动机,已经开发了一种网络物理(耦合)模型方案。耦合模型是在云平台中运行的真实机器的数字双胞胎,并利用来自数据驱动分析算法以及其他可用物理知识的综合知识来模拟健康状况。它也可以被描述为由感测,存储,同步,综合和服务组成的5S系统方法。耦合模型首先从早期设计阶段构建数字图像。在产品设计期间记录系统信息和物理知识,基于此建立模拟模型作为未来分析的参考。初始参数可以是统计学的,并且可以使用参数估计的来自测试或制造过程的数据进行调整。在此步骤之后,仿真模型可以被认为是真实机器的镜像,可以在后期利用阶段连续记录和跟踪机器状况。最后,随着云计算技术提供的连接性的提高,耦合模型还能够在对实际设备或机器数据进行物理访问有限的情况下,为工厂经理提供更好的机器状态可访问性。

应用

公共汽车包裹在SAP大数据停放在IDF13之外。

大数据增加了信息管理专家的需求,使得软件公司,Oracle公司,IBM,微软,SAP,EMC,惠普和戴尔在专门从事数据管理和分析的软件公司投入了超过15亿美元。 2010年,该行业价值超过100亿美元,每年增长近10%,是软件业务的两倍。

发达经济体越来越多地使用数据密集型技术。世界各地的手机用户达到4.6亿,互联网接近1亿和2亿人。在1990年至2005年间,全球有超过1亿人进入中产阶级,这意味着更多的人变得更加文明,这又导致信息增长。世界通过电信网络交换信息的有效能力是1986年为281兆字节,1993年为471兆字节,2000年为2.2亿字节,2007年为65亿字节,预测到2014年每年的互联网流量将达到667亿字节。据估计,全球存储信息的三分之一是字母数字文本和静止图像数据的形式,这是大多数大数据应用程序最有用的格式。这也显示了未使用的数据(即以视频和音频内容的形式)的潜力。

虽然许多供应商为大数据提供了现成的解决方案,但专家们建议开发定制的内部解决方案,以解决公司的问题,如果公司有足够的技术能力。

物联网(IoT)

主要文章:物联网

大数据和IoT协同工作。从IoT设备提取的数据提供了设备互连性的映射。媒体行业,公司和政府已经使用这种映射来更准确地针对观众并提高媒体效率。物联网也越来越多地被用作收集感官数据的手段,这种感官数据已被用于医疗和制造领域。

技术

eBay.com使用7.5 PB和40PB两个数据仓库以及40PB Hadoop集群进行搜索,消费者推荐和商品销售。

Amazon.com每天处理数百万的后端操作,以及来自五百多万第三方卖家的查询。保持亚马逊运营的核心技术是基于Linux的,截至2005年,它们拥有世界三大Linux数据库,容量为7.8 TB,18.5 TB和24.7 TB。

Facebook从用户群处理了500亿张照片。

截至2012年8月,Google正在处理每月大约1000亿次搜索。

Oracle NoSQL数据库已经通过8个分片测试过1M的操作/秒标记,并以10个分片进行到1.2M的操作/秒。

信息技术

特别是自2015年以来,业务运营中的大数据已经突出,成为帮助员工更有效工作并简化信息技术(IT)收集和分发的工具。使用大数据解决企业内部的IT和数据收集问题称为IT Operations Analytics(ITOA)。通过将大数据原理应用于机器智能和深度计算的概念,IT部门可以预测潜在问题并提供解决方案在此之前,ITOA企业也开始在系统管理中发挥主要作用,提供将个人数据孤岛一起提供的平台,并从整个系统中获取洞察力,而不是从孤立的数据库中获取洞察力。

零售

Walmart每小时处理超过一百万个客户交易,这些交易被导入到估计包含超过2.5 PB(2560 TB)数据的数据库中,相当于美国国会图书馆所有图书中所载信息的167倍。

零售银行

FICO卡检测系统保护全球的帐户。

据估计,全球所有公司的业务数据量每1.2年翻一番。

房地产

Windermere房地产使用来自近1亿名驾驶员的匿名GPS信号来帮助新的购房者在一天的不同时间内确定他们在工作中的典型时间。

科学

大型强子对撞机实验代表了大约1.5亿个传感器,每秒传输4000万次数据。每秒有近6亿次碰撞。过滤和避免记录超过99.99995%的这些流,每秒有100次感兴趣的冲突。

因此,仅使用传感器流数据的不到0.001%,来自所有四个LHC实验的数据流量将在复制前代表25 PB的年率(截至2012年)。这在复制后变成近200 PB。

如果所有传感器数据都记录在LHC中,数据流将非常难以使用。在复制之前,数据流将每年超过1.5亿PB,或者每天接近500埃字节。从数字上看,这相当于每天500万(5times;1020)个字节,是世界上所有其他资源的近200倍。

平方公里阵列是由数千个天线构成的无线电望远镜。预计到2024年将投入运行。总的来说,这些天线预计每天收集14英里,并存储一兆字节。它被认为是曾经进行过的最雄心勃勃的科学项目之一。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[25992],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。