Data mining
Data mining, a branch of computer science,[1] is the process of extracting patterns from large data sets by combining methods from statistics and artificial intelligence with database management. Data mining is seen as an increasingly important tool by modern business to transform data into business intelligence giving an informational advantage. It is currently used in a wide range of profiling practices, such as marketing, surveillance, fraud detection, and scientific discovery.
The related terms data dredging, data fishing and data snooping refer to the use of data mining techniques to sample portions of the larger population data set that are (or may be) too small for reliable statistical inferences to be made about the validity of any patterns discovered. These techniques can, however, be used in the creation of new hypotheses to test against the larger data populations.
Background
The manual extraction of patterns from data has occurred for centuries. Early methods of identifying patterns in data include Bayes theorem (1700s) and regression analysis (1800s). The proliferation, ubiquity and increasing power of computer technology has increased data collection, storage and manipulations. As data sets have grown in size and complexity, direct hands-on data analysis has increasingly been augmented with indirect, automatic data processing. This has been aided by other discoveries in computer science, such as neural networks, clustering, genetic algorithms (1950s), decision trees (1960s) and support vector machines (1980s). Data mining is the process of applying these methods to data with the intention of uncovering hidden patterns.[2] It has been used for many years by businesses, scientists and governments to sift through volumes of data such as airline passenger trip records, census data and supermarket scanner data to produce market research reports. (Note, however, that reporting is not always considered to be data mining.)
A primary reason for using data mining is to assist in the analysis of collections of observations of behaviour. Such data are vulnerable to collinearity because of unknown interrelations. An unavoidable fact of data mining is that the (sub-)set(s) of data being analysed may not be representative of the whole domain, and therefore may not contain examples of certain critical relationships and behaviours that exist across other parts of the domain. To address this sort of issue, the analysis may be augmented using experiment-based and other approaches, such as Choice Modelling for human-generated data. In these situations, inherent correlations can be either controlled for, or removed altogether, during the construction of the experimental design.
There have been some efforts to define standards for data mining, for example the 1999 European Cross Industry Standard Process for Data Mining (CRISP-DM 1.0) and the 2004 Java Data Mining standard (JDM 1.0). These are evolving standards; later versions of these standards are under development. Independent of these standardization efforts, freely available open-source software systems like the R Project, Weka, KNIME, RapidMiner, jHepWork and others have become an informal standard for defining data-mining processes. Notably, all these systems are able to import and export models in PMML (Predictive Model Markup Language) which provides a standard way to represent data mining models so that these can be shared between different statistical applications.[3] PMML is an XML-based language developed by the Data Mining Group (DMG),[4] an independent group composed of many
剩余内容已隐藏,支付完成后下载完整资料
数据挖掘
作为计算机技术的一个分支,数据挖掘是结合统计学与利用数据库管理的人工智能两种方法,从大数据集中提取模式的过程。现代企业通过数据挖掘把数据转换成商业智能,提供信息优势,使其成为了一个日益重要的工具。它目前使用了广泛的分析方法,如市场营销,监视,欺诈检测,和科学发现等。
相关术语的数据挖掘、数据捕捉和数据探测,参考对较大人口数据样本使用数据挖掘技术,发现任何有效模式的可靠统计推论太少。然而,这些技术可以被用于创建新的假设来测试数量较大的数据群。
产生背景
手工提取数据模式的方式已经有几个世纪的历史。早期的识别数据模式的方法包括贝叶斯定理(18世纪)和回归分析(19世纪)。计算机技术的扩散,普及和性能提升加快了数据收集、存储和处理。随着数据集规模和复杂性的增长,直接动手的数据分析日益增广为间接、自动的数据处理。这些得益于计算机科学的其他发现,如神经网络,聚类,遗传算法(20世纪50年代),决策树(20世纪60年代)和支持向量机(20世纪80年代)。数据挖掘就是将这些方法应用于数据的过程,目的是发现隐藏的模式。它已多年被用于企业,科学家和政府筛选大量的数据,如航空客运记录,人口普查数据和超市扫描仪数据,以产生市场研究报告。(注释:但是,报告并不总是被认为数据挖掘。)
使用数据挖掘的一个主要原因是协助分析行为观察的集合。这些数据很容易因为未知的相互关系而共线性。数据挖掘的一个不可回避的事实是,被分析的数据(可能不代表整个域,因此可能不包含存在于域的其他部分的某些关键的关系和行为。为了解决这种问题,分析可能会扩充基于实验的和其他的方法,如人工数据的选择建模。在这些情况下,内在的相关性在建设过程的实验设计中可以被控制或抹除。
在定义数据挖掘标准方面已经做出了一些努力,例如1999年的欧洲交叉行业对数据挖掘标准过程(CRISP-DM 1.0)和2004年的Java数据挖掘标准(JDM 1.0)。这些都是不断发展的标准,这些标准的新版本正在开发中。独立于这些标准化工作,免费的开源软件系统像R Project, Weka, KNIME, RapidMiner, jHepWork和其余的已成为定义数据挖掘过程的一个非正式的标准。值得注意的是,所有这些系统都能够导入和导出PMML(预测模型标记语言,一种表示数据挖掘模型的标准方法)模型,让这些在不同的统计应用程序之间可以共享。PMML是数据挖掘集团(DMG,由许多数据挖掘公司组成的独立集团)开发的一种基于XML的语言。PMML 4.0版本发布于2009年6月。
研究进展
除了行业标准和互操作性驱动的需求,专业和学术活动也对方法和模型的发展和严谨性做出了巨大的贡献;一篇发表在2008年一期《国际信息技术和决策》的文章总结了追溯和分析这一演变的文献调查的结果。
在该领域首屈一指的专业机构是计算机协会在知识发现和数据挖掘上的特别兴趣小组(SIGKDD)。自1989年以来,他们每年举办国际会议,并发表了过程,并从1999年起发表题为“SIGKDD探索”的半年度学术期刊。其他关于数据挖掘的计算机科学研讨会包括:
- DMIN – 数据挖掘国际会议
- DMKD – 数据挖掘与知识发现问题研究
- ECDM – 欧洲数据挖掘会议
- ECML-PKDD – 欧洲机器学习与数据库知识发现的原则与实践研究
- EDM – 教学性数据挖掘国际会议
- ICDM – IEEE 数据挖掘国际会议
- MLDM – 机器学习与模式识别中的数据挖掘
- PAKDD – 一年一度的知识发现和数据挖掘亚太会议
- PAW – 预测分析世界
- SDM – SIAM 数据挖掘国际会议
流程
预处理
在数据挖掘算法使用之前,目标数据集必须组装。由于数据挖掘只能发现数据中已经存在的模式,目标数据集必须足够大,以包含这些模式,同时保持足够简洁,可以在一个可以接受的时间内挖掘。常见的数据源是一个数据集市或数据仓库。预处理是必要的,在聚类或数据挖掘之前对多元数据集进行分析。
预处理之后,目标集被清洗,消除有噪音和数据丢失的观测值。
清洁数据被还原为特征向量,每个观测值一个向量。一个特征向量是原始数据观察的一个总结版本。一个100x100像素的黑白人脸图像可能包含10kb原始数据。通过定位图像中的眼睛和嘴巴,这可以变成一个特征向量。这样做将减少每个矢量的数据从10kb到三个坐标的代码,大大减少了需要挖掘的数据集的大小,从而减少了处理工作。所选择的特征向量将取决于目标是什么,显然,选择“正确的”特征向量是成功的数据挖掘的基础。
特征向量分为两组,“训练集”和“测试集”。训练集被用来“训练”数据挖掘算法,而测试集是用来验证任何模式的准确性。
数据挖掘
数据挖掘一般涉及四类工作:
- 聚类 – 是在某些程度上或其它“类似”的情况,不在数据中使用已知结构的条件下,发现数据中组织和结构。
- 分类 – 是将已知结构应用于新的数据。例如,一个电子邮件程序可能会尝试把一封电子邮件归类为合法或垃圾邮件。常用的算法包括决策树学习,最近邻法,朴素贝叶斯分类,神经网络和支持向量机。
- 回归 – 试图找到一个函数,用最小误差模型对数据进行建模。
- 关联规则学习 – 搜索变量间的关系。例如,一家超市可能收集客户购买习惯的数据。使用关联规则学习,超市可以确定哪些产品是经常被一起购买的,并使用此信息用于营销目的。这有时也被称为市场购物篮分析。
结果验证
从数据中知识发现的最后一步是验证数据挖掘算法所产生的模式发生在更广泛的数据集。不是数据挖掘算法发现的所有模式都是一定有效的。对于数据挖掘算法在训练集中发现的模式在一般数据集中不存在是很常见的,这就是所谓的过拟合。为了克服这一点,评估使用的测试集的数据,数据挖掘算法没有受过训练。把得到的模式应用于测试集,结果的输出与期望的输出做比较。例如,一个试图区分垃圾邮件与合法邮件的数据挖掘算法,将接受样本邮件训练集的训练。训练之后,得到的模式将应用于没有训练过的测试集的电子邮件,这些模式的准确性可以从正确分类了多少电子邮件测量。许多统计方法可以用来评估算法,如ROC曲线。
如果得到的模式不符合预期的标准,那么有必要重新审视和改变预处理与数据挖掘。如果得到的模式符合预期的标准,那么最后一步是解释学习的模式,并把它们转化为知识。
主要用途
游戏
自上世纪六十年代初以来,随着对某些组合游戏预知的可用性,如任意开局的桌棋(如3X3格棋),点框组成额小棋盘,六角小棋盘,固定残局的国际象棋,点框棋,六角棋等,数据挖掘的新领域开启了。人类使用的策略可以从这些预知中提取。目前的模式识别方法似乎并没有完全满足需求的高层次的抽象,以便成功地应用。相反,桌棋的大量实验,结合对桌棋精心设计问题的答案的深入研究与现有知识,即桌棋预测知识,被用来产生具有洞察力的模式。研究点盒游戏的Berlekamp和研究国际象棋残局的John Nunn是这个研究的著名人员,尽管他们不介入桌棋世代。
商业
数据挖掘在客户关系管理应用程序中可以为底线做出重大贡献。并非通过呼叫中心或发送邮件随机接触潜在顾客或客户,公司可以集中精力发展预计回应邀约可能性高的潜在顾客。更先进的用法是善用宣传活动资源,从而预测所有可能的招聘计划中那些营销渠道或者个人招聘最可能得到回应。此外,成熟的应用程序可以用来自动发送邮件。一旦数据挖掘(潜在的顾客/客户和营销渠道/个人招聘)的结果被确定,这个“成熟的应用程序”可以自动发送电子邮件或一般邮件。最后,以防许多人自发应聘,上升模型可以用来确认哪些人得到录取通知后最有可能接受。数据聚类也可用于自动发现客户数据集内的阶层或群体。
采用数据挖掘的企业可以看到投资回报,但他们也认识到,预测模型的数量会很快变得非常大。企业可以为每个区域和客户类型建立一个单独的模型,而不是只用一个模型来预测有多少客户会流失。然后,不是给所有可能会流失的人发送邀请,它可能只想发送给客户。最后,它可能还想确定哪些客户将在一个时间窗口中盈利,并且只邀请那些有可能盈利的人。为了维持这些大量模型,他们需要管理模板并运用到自动数据挖掘。
数据挖掘也有助于人力资源部门确定其最成功的员工的特点。获得的信息,如成功员工都上过大学,可以帮助人力资源部门相应地集中招聘工作。此外,企业战略管理应用程序帮助公司将企业层面的目标(如利润和利润率的目标)纳入经营决策(如生产计划和劳动力水平)。
数据挖掘的另一个例子,通常被称为市场篮分析,涉及其在零售销售中的应用。如果一家服装店记录了顾客的购物单,数据挖掘系统可以识别那些比起棉质衬衫更喜欢丝绸衬衫的顾客。虽然关系的一些解释可能是困难的,利用它很容易。这个实例涉及了基于交易数据的关联规则。不是所有数据都是基于事务的,逻辑的或不精确的交易规则也存在于数据库中。在一个生产应用程序中,一个不精确的规则表明,73%有特定缺陷或问题的产品,在未来六个月内会发生二次问题。
市场购物篮分析也被用来确定阿尔法消费者的购买模式。阿尔法消费者在连接产品背后的概念中起到了重要作用,认可这个产品,并为社会上其他人验证该产品。分析这类用户收集到的数据让公司可以预测未来的购买趋势和预测供应需求。
数据挖掘在邮购营销行业是一种非常有效的工具。邮购员早在若干年前就有和上百万客户交易的丰富客户历史。数据挖掘工具可以识别客户的模式,帮助确定最有可能的客户,以应对即将到来的邮件活动。针对集成电路生产线,《挖掘集成电路测试数据以优化超大规模集成电路测试》介绍了一个数据挖掘的实例。这篇文章对数据挖掘与决策分析在模具级功能测试中的应用进行了阐述。在这篇文章中提到的实验证明了挖掘历史模具测试数据的应用系统的能力,创建一个模具故障模式的概率模型,然后利用这个以实时确定下一次故障和何时停止测试。该系统已被证明,基于历史测试数据的实验,有可能提高集成电路产品的利润。
科学与工程
近年来,数据挖掘技术已广泛应用于生物信息学、遗传学、医学、教育、电力工程等科学与工程领域。
在人类遗传学研究领域中,一个重要的目标是了解人类基因组序列变异与疾病易感性的变异性之间的映射关系。用通俗的话来说,它是要找出个人的基因序列的变化如何影响产生常见的疾病(如癌症)的风险。这对于提高疾病的诊断、预防和治疗是非常重要的。用于执行此任务的数据挖掘技术被称为多因子降维。
在电力工程领域中,数据挖掘技术已被广泛应用于高压电气设备的状态监测。状态监测的目的,是对设备的绝缘状态的健康状况获得有价值的信息。数据聚类,如自组织映射(SOM)已被应用在对有载调压变压器(OLTC)振动监测与分析。使用振动监测,可以观察到每一个调压操作产生一个信号,它包含调压变压器的接触和驱动机制的条件。显然,不同的阀门位置会产生不同的信号。然而,几乎完全相同的阀门位置的正常状态的信号之间有相当大的变化。SOM已应用于检测异常情况和估计的异常的性质。
数据挖掘技术也被应用于对电力变压器油中溶解气体分析(DGA)。DGA,用于诊断电力变压器,已经很多年了。数据挖掘技术,如SOM已应用于分析数据,来确定标准的DGA技术(如杜瓦尔三角比)所不能显现的趋势。
科学/工程中的数据挖掘应用的四分之一个领域是教育研究,数据挖掘已被用来研究影响学生的因素,来确定什么行为减少他们的学习,了解影响大学生记忆力的因素。类似的数据挖掘技术的社会应用实例是它在知识发现系统中的应用,对人类专长的描述由此提取,标准化和分类,以促进对专业人才的发现,特别是在科学和技术领域。通过这种方式,数据挖掘可以促进机构记忆。
数据挖掘技术应用的另一个例子是领域本体提供的生物医学数据,临床试验数据挖掘,SOM流量分析,等等。
在药物不良反应监测方面,乌普萨拉监测中心,自1998以来,采用数据挖掘的方法定期筛
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[150723],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。