英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
商学界大数据增长的实证研究
Julie Frizzo-Barker,Peter A.Chow-White,Maryam Mozafari,Dung Ha
摘要
在过去的五年里,大数据已经引起了多个领域的学者们的兴趣。金融学家已经逐渐把他们的注意力转向了这个新兴现象所带来的影响上。尽管人们对大数据的兴趣提高了,但我们对大数据的理解,和大数据对组织及制度下的参与者到底意味着什么,仍旧是未解之谜。
在这次研究中,我们对过去六年(2009-2014)商业领域的大数据进行了一次系统的回顾。
我们从最权威的商业文献数据库中,选取了分别来自152部期刊的219篇经过同行评议的学术报告。我们在研究时利用了数据分析软件NVivo10,分别从数量和质量两方面进行了系统的整理。我们的研究揭示了数个有关大数据的学术研究方面的关键结论,包括揭示大数据最大的益处和挑战是什么。简言之,我们发现大数据仍是一门分裂的、早期的研究停留在理论基础上的、方法多样且需要经验的学科。这些挑战要求我们在当代的研究中,增进对大数据的理解,并进一步促使学者和决策者以最有生产力的方式推进未来的研究。
关键字:大数据 系统综述 数据实践 颠覆性创新
- 介绍
过去的五年内,多个领域的学者—包括管理、商业和信息系统—都对大数据产生了极大的兴趣。当大数据科技在我们的网络时代活跃之时,一个新的实时、由用户主导的信息和交流,为商业、政府、教育和社会制度都提供了一个全新的视角去发掘内在的潜力。重视数据的组织者已经利用多种策略使用了大数据:改进他们的工作成果;尝试新方法做旧事;甚至尝试全新的方式;和顾客一同创造价值,或是利用数据赚钱(Petteramp;Peppard,2013)。但是大多数人和中产阶级仍在奋力把大数据整合进他们的组织文化。大数据代表着,人们在思考有关数据结构、商业智慧及数据信息科技策略上一个质的飞跃,这些领域都是对商业和管理学家来说都是极其关键的。(Bharadwaj,El Sawy,Pavlou,amp;Venkatraman,2013;Chen,Chiang,amp;Storey,2012).
Mayer-Schonberger and Cukier(2013)认为大数据都是有关预测、联系和广阔的数据设置之间的关系。然而在更大更好的网络信息之上,大数据简介的被它的新应用所定义。在商业期刊、工业杂志和金融媒体上,有大量的相关举例。推特发文的观点追踪,是预测股票市场的风向标 (Bollen, Mao, amp; Zeng 2011)。智能手机的数据被用于为联营企业决定供应链的管理和高速交通的提醒(Demirkanamp;Delen,2013)。通过谷歌的信息流,人们搜索问题的踪迹被用于预测疾病的患病率(Lazer, Kennedy, King, amp;Vespignani 2014)。
当大数据这个词被合并进了工业、数学、科学和医学的词典,它仍旧是不确定的,从学术和实践上看也是一个模糊的概念。
大数据是个含义丰富的流行词。有些人提起大数据指的是数量极多、不能被手工或者传统方法分析的数据,例如电子表格。大量的数据来自不同的源头,例如基因学、社会媒体、专业体育和天气传感,这只是举出的很少一部分来源。数据也是不断变化的,分析和利用数据也走向越来越快的趋势。流行的定义叫做3 Vs:大数据的数量、种类和速度(Lanney,2001;McAfee,Brynjolfsson,Davenport,Patil,amp;Barton,2012)。其他的观点也指出大数据不仅是它各部分的组合,它也代表着一种在数据推动决策制定上的社会性变动或是文化性的飞跃(Chow-Whiteamp;Green,2013)。尽管这些观点的曝光和定义仍存在不确定性,但是大数据的应用确是兼具广度和多样性的。
根据Gartner(2015)的炒作周期方法论,一旦一个重要的新科技被介绍,它的进程将达到一个可见的顶点,得到过高的期望值,紧随其后的就是一个带来幻灭的下降斜率,并在经历启蒙和广泛传播后,最终停留在一个回升的上升区间。大数据的概念从通过最初的宣传,从一个幻灭的状态进入了公众的讨论。不过在大部分的领域,学术上大数据仍处于初步的幻灭阶段。这是一个基于学术回顾的、在发生前即可预测的趋势。
我们在探索研究现状时发现商业学者正在研究如何定义大数据,关于他们在何处调研大数据,并且至今取得了多少研究成果。大数据是“颠覆性创新”的一个最新例证(Christensen, 1997, 2016; Christensen amp; Raynor, 2003; Hwang amp;Christensen, 2008)。横跨了多个领域并且引起了大量的讨论。学术文献是把学术信号从当代争论中分离,并帮助我们理解大数据到底是什么,谁在使用它,收益的对象,给组织和公司带来的机会和风险分别是什么?在研究中,我们阐述了这个过程,及通过2009-2014年间的商业文献中对大数据的系统性回顾所得的研究结果。系统性回顾是荟萃分析的一种形式,其目的是“对一个精确的与实践相关的问题,用直接的方式总结其已知和未知。”(Briner, Denyer, amp; Rousseau, 2009, p. 19)该领域是利用大数据科技和技术的领头羊,并且此研究可以帮助领导者、学者和决策者,利用我们当前的知识思考大数据所带来的利弊风险。
1.1系统性回顾的必要性
大数据在商业方面开始并扩散的研究是以调查为基础的。但是,每个研究在迅速的发展进程中会遇到不可见的限制,并且与许多发现有相关性。这让商业领袖和学者的知识统计和发现整合冒了一定的风险(Briner et al., 2009),除了一些少数的数据丰富的大公司,比如领英、脸书和谷歌,大部分大型和中型公司的领导仍旧在大数据领域有很大欠缺 (Goes, 2014)。系统性回顾是一种有效的方式,“在分析和解释所有的有效研究,与一特定研究或是话题或是现象都相关”(Kitchenham,2004,p.iv)。系统性回顾在医学领域是最常被使用的。不过,学者最近也开始把它们运用于商业、营销和管理学上,作为一道“跨越理论到实践”的桥梁(Rousseau,2006)。我们严谨地收集、评测和分析,与大数据相关的众多实证研究,为了保证结果的客观性,一个也许会被专业的实践所采纳的结果(Sackett et al.,2000)。我们研究发现过去六年有关大数据的文献数目飞速增长。我们回顾的文章系统地收集了之前的研究。我们随后对这些文字进行的分析是一次非常宝贵的二次研究,它提供了一个更佳的全盘视角和大数据技术在商业领域的最新发现。
- 理论
我们总结一个系统且深度的调查,针对已知的商业文献中有关大数据的研究。在系统性回顾中有以下几个步骤:(1)设计研究,(2)数据收集和(3)编码和分析。
图1.每年关于大数据的文献出版数(共219篇)
在阶段一(研究设计)中我们提出了10个研究问题来引导我们的分析(见图1)。这些问题包括:这些文献是如何(或没有)定义大数据的?概念主义和经验主义的文献比例是多少?此次研究中大数据工具是以什么为代表?此次研究中为代表的是何种类型的组织、工厂、商业区分和国家?大数据为企业能够带来那些主要利益和挑战?
在阶段二(数据收集)中,我们访问了几位商业学者和图书馆学专家,以便于分辨出最顶级的商业数据。我们的搜索词是简单的“大数据”,首先我们总结了一个来自商业资源数据库(BSC)的先进研究,这让我们把研究范围缩小到2009-2014年间的期刊文献,总共是552部期刊。BSC被认为是最全面的数据库,收录并摘要了5117部期刊和杂志。随后我们咨询了期刊引证报告(JCR)下2013年的顶级商业期刊,作为交叉检索以确保我们以影响力因素将检索结果排序。JCR中共有我们分别研究的111部期刊,我们以2009年一月作为起始点,因为彼时首次出现了少见的有关大数据的学术文献。我们收集了经过同行评议的英文语言的商业学术期刊文章。我们最终的数据包括了来自152部不同期刊的219篇论文,时间是2009-2014年之间(见图2,图3)。我们收集了2009年至2013年直到2014年九月和十月的数据,并且对2014年至2015年五月的数据进行了二次检索,以确保我们收集了所有2014年12月之前出版的文献。
在进行编录和多重分析之前,四位研究者,包括一位副教授,一位博士候选人和两位硕士生,我们进行了广泛的搜索结果和并对相关论文进行了人工评估(编码者可信度得分:96.9%)。我们对所有不同的意见都进行了讨论和调查分析。任何我们无法达成一致的文章,都被分别从样本中移除。此外我们判断的主要标准,是该篇文献是否使用了“大数据”作为分析的核心技术或至少部分的核心论点,尤其着重在它的标题、摘要和关键词。在一些特殊情况下;论文没有明确在这些领域提到大数据,但是包括在本文的话题本身的实质性讨论;这种也被统计在样本中。从BSC我们确定了184篇符合我们的标准的文献;并且在对数据进行交叉检索时,另外确定了35篇来自JCR的文献。我们发现总计184个独家的文件和额外的35篇文献,也就是共有219篇论文在我国人口数据库里。
表1
研究问题.
研究问题1:文献是怎样定义(或不确定)的大数据?
研究问题2:概念和实证论文的相对比例是多少?
研究问题3:定量、定性和混合方法的研究方法各占的比例是多少?
研究问题4:研究中具有代表性的是什么类型的大数据工具?
研究问题5:在研究中何种类型的组织具有代表性的?
研究问题6:研究中具有代表性的行业类型是什么?
研究问题7:哪些国家是研究的代表?
研究问题8:每个研究的综合观点是什么?
研究问题9:大数据为商业能带来的最大收益是哪些?
研究问题10:商业应用中大数据面临的最大挑战是什么?
我们参考:JJIM 1481.
参考文章:IJIM_2016_57。
文章标题:商业奖学金大数据上升的实证研究。
发表于:国际信息管理杂志。
图2.每年有关大数据的文献及期刊的出版数量
图3.定义了大数据的文献占比
值得注意的是,我们尝试在搜索过程使用大数据的方法,以应对对大数据进行系统评估这一新挑战。但类似谷歌等数据仓库的出现,使得学者们对获得数据也产生了问题问题。首先,我们发现通过交叉引用的两篇学术成果,可以分布在多个新的数据库。其次,搜索所有的数据库如谷歌,我们会发现产生的结果太大,并且不能得到人工计数那样切实的正确评估。
第三,我们发现的问题之一,是咨询谷歌学者时,它为我们搜索试运行时的问题整理出大量的“脏数据”。在这种情况下,最终多亏传统数据库的建立,让我们对业务来源的引文报告完整的期刊提供了严格的审查,和全面的收集,我们可以寻找到系统的综述。
在第3阶段(编码),我们对文章进行编码和分析。我们使用数据分析软件nvivo10创建文章和数据库代码,并对其进行分析。我们按照每一个研究问题,创建了一个用于分类的编码方案。接下来,我们进行了迭代轮的定量,和每一个结果的定性分析。例如,在计算了共有多少论文定义大数据后,我们对随时间推移,对定义大数据和分类定义的类型,都在图中描绘出了趋势。对nvivo10使用大数据工具,扩展了其本身的容量。从而在确定关键的转折,趋势和数据之间的关系上得到了更严格的系统评价。
- 成果
3.1问题一:文献是怎样定义(或不确定)的大数据?
在整个时间(2009 - 2014)内的分析中,41%的论文定义了大数据,而其余59%没有(图3)。此外,随着时间推移,我们发现了越来越多的论文定义了大数据(图4)。学者倾向于使用新的术语定义,因为它在文献中的首次出现随时间的推移而减少。由于对大数据的定义具有多样性,明确和传播成了共同的属性。例如在十年前,社交媒体领域的文献,是很少定义或提到大数据的。我们发现,在研究期间,许多文件仍在对大数据进行不同定义,
这证实了我们的预估:对大数据的共同理解,仍然是处在最早的通量中研究阶段。随着时间的推移,这些变化会变得更加统一,不需要定义它们。
表4.各年定义了大数据的出版数.
在流行话语与学术研究中,大数据已迅速成为一个拥有多种定义的模糊术语。大多数(59%)的文件没有定义大数据,但在上下文中简单地使用了术语。我们发现了一系列定义了的占41%的文章(见表2)。最著名的定义是“3Vs”,即大数据的量、种类和速度:(兰尼,2001)。大量是大数据最明显的属性。多样性是指可收集的结构化和非结构化数据。速度指的是如何快速找到可供分析的数据。在我国资源中其他论文还引用了“4Vs”的定义,即还包括数据的准确性,或数据的质量。一文中引用了”5vs”定义,这是这也增加了价值的定义,意指考虑大数据中衡量用于预期数据的有用性。
表2也展示了我们在文献中找到的对大数据进行定义的八种类型。除了上述V型定义外,我们发现大数据也被描述为一个商务话题,一种信息技术工具,一种建筑领域的新转变或是收集和使用数据的新方式,或者就是指大量数据。最后,一个小组文件确定的大数据在文化或社会方面的影响,是从科技、分析学和神话学的方面。
3.2 问题2:概念与实证论文的相对比例是多少?
我们分析了概念和经验的相对比例,在有关大数据的论文研究和研究设计中。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[151836],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。