英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
面向多元化进程的统计数据控制处理方法
摘要:随着使用电子计算机进程来代替老旧的手段去收集与测量巨量的,需要多种多样处理方式并进行加工,并且需要采用多种统计数据的形式来分析,检测,诊断并且得出结论从而用于进程操作与演示的应用数据,面向多元化进程的统计数据控制处理方法受到了来自各界的广泛关注。休哈特(1)的传统的单变量理论已经得到了扩充,应用了累积和控制图(CUSUM)以及工程辅助工作控制表(EWMA)的多元化的质量控制状况是基于霍特灵的“T”型统计数据模型而存在的。最近的关于多元化进程的统计数据控制处理方法的研究,不仅仅是利用了产品质量数据(Y轴),也利用了所有可以获得的多样化进程数据(X轴),而这些方法都是基于多元化进程处理方式的(比如主要成分分析(PCA)和局部最小平面分析(PLS))。在本论文中,我们提供了这些基本的统计数据处理方法的概览,以及它们被应用在连续性的以及一批性质的多元化进程中。我们也提供了在一个矿物处理过程中的分析与操作的实际例子,这个平台包括了在线监测以及错误诊断,对于一个连续性聚合的任务流程,也提供了一个工业生产中,堆状聚集的反应器生产实际案例。
关键词:堆片状组合生产流程,控制表格,错误检测,多元化进程,主要成分分析,进程监控,统计数据流程控制。
- 概述
统计过程控制(SPC)概念和方法在制造和过程工业中已变得非常重要。 他们的目标是监控一个过程随时间的性能,以验证该过程是否仍然处于“统计控制状态”。 如果某些过程或产品变量保持接近它们的期望值,并且唯一的变化源是“共同原因”变化,即,影响当前过程并且在当前过程中不可避免的过程的变化,则称这种控制状态存在。 诸如Sbewhart,CUSUM和EWMA字符的SIC图表用于监视关键产品变量,以便检测具有“特殊”或“可分配”原因的任何事件的发生。 通过发现可归因的原因,可以通过消除原因或改进过程或其操作程序来实现过程和产品质量方面的长期改进。
重要的是要注意,SPC的概念和方法与自动反馈过程控制的概念和方法完全不同。 一般来说,这两种方法是完全互补的。 应尽可能采用自动反馈控制,以减少重要过程和产品变量的变异。 反馈控制器通过调整其他过程变量来补偿重要变量扰动的可预测分量,从而将变量转换为无关重要的操作变量(Downs和Doss,1991)。 SIC监控方法应该应用在过程及其自动控制系统之上,以便检测指示特殊事件发生的过程行为。 通过诊断事件的原因并移除它们(而不是简单地继续补偿),该过程得以改进。
不幸的是,大多数SPC方法基于仅绘制少量变量,通常是最终产品质量变量(Y),并且一次检查一个变量。这些方法对于大多数现代过程工业是完全不适当的。他们忽略了这样的事实,即使用几乎每个工业过程的计算机,大量的数据被连续地收集在可能几百个过程变量(X)上。对温度,压力,流量等变量的测量每秒都可用。最终产品质量变量(Y),如聚合物分子量或熔体指数,馏分馏分等,可以较少的频率获得。所有这些数据应用于提取监测和诊断操作性能的任何有效方案中的信息。但是,所有这些变量是不是独立的。只有相关事件在任何时间驱动一个过程,所有这些测量仅仅是这些相同基础事件的不同反射。因此,一次检查一个变量,如同它们是独立的,使得解释和诊断非常困难。这样的方法仅仅考虑偏差的大小独立于其他变量。只有处理所有数据的多变量方法同时还可以提取关于过程变化的方向性的信息,即所有变量如何相对于彼此行为。 此外,当重要事件发生在过程中时,它们通常难以检测,因为每个变量中的信噪比非常低。 但是多变量方法可以从许多变量的观测值中提取确认信息,并且可以通过平均来降低噪声水平。
本文概述了用于监测和诊断过程操作性能的传统和新的多变量SPC方法。多变量统计投影方法(主成分分析(PCA)和偏最小二乘法(PLS))作为多变量新方法的基础,用于多变量质量控制的传统方法(仅基于产品质量测量) SPC(其使用所有过程数据X以及质量数据Y),并且其与传统方法的相似性和差异在第3节中讨论。使用这些多变量统计投影方法来分析和解释历史工厂操作记录也在计算机数据库中讨论。新的多变量SPC方法用于在线监测和诊断连续和批处理过程中的过程操作性能,并在第4节中进行了说明。第5节讨论了有关这些方法的正确应用的一些实际问题。
- 统计质量控制的多元化表格
在大多数行业中,传统的单变量控制图如Shewhart(Shewhart,1931),CUSUM(Woodward和Goldsmith,1964)和EWMA(Roberts,1959; Hunter,1986)用于分别监测最终产品的关键测量, 定义该产品的质量。 这种方法的困难在于这些质量变量不是彼此独立的,也没有任何一个自身足够地定义产品质量。 产品质量仅由所有测量属性的正确同时值来定义,也就是说,它是多元属性的。
使用独立的单变量控制图的困难可以参考图1来说明。为了便于说明,这里仅考虑两个质量变量(y 1,y 2)。假设当过程处于仅存在共同原因变化的统计控制状态时,y1和y2遵循多元正态分布和相关(Pyly2 = -0.94)。如图1中的yz和Y2的联合图中所示。椭圆表示控制过程的轮廓,具有99%的置信限,并且星号表示来自该分布的一组观察值。在图1中也将相同的观察结果绘制为y〜和Y2上的单独Shewhart图表与具有其相应的上限(UCL)和下限(LCL)控制限(99%置信限)的样品编号(时间)。注意,通过检查每个单独的Shewhart图表,该过程看起来显然处于统计控制的状态,并且没有任何个体观察给出任何标记的指示。在这种情况下,所有的困难之处的共同特点在于,客户已经抱怨对应于图1中的reg;的产品的性能。如果仅使用单变量图显然是会让人困惑的。 同一个客户显然喜欢发送给他的所有其他批次的产品,其中许多与YI和Y2的值更远离目标。 真实情况仅在多变量yx vs Y2plot中显示,其中可以看出,由reg;表示的产品的批次明显在联合置信区域之外,并且与正常的“控制中”产品群体明显不同。
图1.两个变量的质量控制,说明了单变量图的误导性。
尽管单变量质量控制图具有误导性,但它们仍然几乎是工业使用的唯一监测形式。 然而,文献中提出了基于Hotelling的T2统计量的Shewhart,CUSUM和EWMA的几个多变量扩展(参见Wierda(1994)和Sparks(1992)的综述文章)。
- 多元化的斯图尔特式表格
在每个时间段观察q个变量Y q的向量的情况下,使用多元X 2和T 2图。Hotelling(1947),几个参考文献更详细地讨论了图表(Alt1977,1985; Alt和Smith,1988; Ryan,1989; 和Jackson,1991)。
给定q上的(qx 1)测量矢量y,具有控制中协方差的正态分布变量矩阵E,可以通过计算统计量来测试这些变量的平均值的向量是否在其期望的目标x:
g2=(y-~)r:c-~(y-x) (1)
如果〜t = x,则该统计将作为具有q自由度的中心卡方分布来分布。 多变量卡方控制图可以通过用上控制绘制gzversus时间来构造极限(UCL)由X〜(q)给出,其中tx是适当的执行测试的重要性水平(例如a = 0.01)。
注意,该多变量测试克服了图1的示例中所示的困难,其中单变量图不能检测特殊事件表示为reg;。方程(1)中的Z2统计量表示方向或加权距离。
上述图表针对每个时间的单个新的多变量观察向量。 如果在每个时间使用m个新的多变量观测值的平均值,或者如果方差S的估计是基于来自合理子组的合并估计值,必须相应地重新定义Z2和T2chart的初始化及其UCL(Wierda,1994)。此外,如果利用图表来检查也用于计算S的过去数据,
T的性质不同于上述(Tracy等人,1992; Wierda,1994)。
一旦检测到失控制信号,则挑战是确定哪些变量负责它(即,识别其装置已经移动的变量)。 已经为这个任务建议了几种方法(Wierda,1994; Kourti和MacGregor,1994; Fuchs和Benjamini,1994)。
- 多元化的CUSUM图标
- 多元化的EWMA图表
3.多元化统计数据项目的执行方式
3.1基本要素分析
当测量的质量变量(q)的数量大时,经常发现它们彼此高度相关,并且它们的协方差矩阵Z几乎是奇异的。减少质量可变空间的维度的常见过程是主成分分析(PCA)。 (Wold等人,1987; Mardia等人,1989; Jackson,1991)。 y的第一主分量(PC)被定义为具有受Iptl = 1影响的最大方差的线性组合q = pry。
第二个PC是由t2 = pry定义的线性组合,其具有受Ip:1影响的次最大方差
-1,并且受到与第一PC(tt)不相关(正交)的条件。附加的PC到q类似地定义。容易地示出主分量加载向量P i是Y的协方差矩阵(g)的特征向量,并且对应的特征值0 q)是PC的方差(即,Var(t))= )。实际上Z不是已知的
(n-1)-YrY其中是(nxq)平均中心和缩放测量的矩阵。因此,样本主分量负载被计算为(qtimes;q)矩阵(yr y)的特征向量。主分量分数被定义为n个观察向量中的每一个的主分量的观测值(即,ti = Y piT,i-1,2 ... q)。实际上,PCA将观测矩阵Y分解为:Y = Tpr= ~ tlP/r
PCA是依赖于尺度的,因此Y矩阵必须以某种有意义的方式缩放。 最常见的缩放形式是将所有变量缩放为单位方差,然后对相关矩阵执行PCA。 或者,在质量控制情况下,缩放Y与其规格限值或其他相对重要性的量度成反比通常更有意义。
在实践中,很少需要计算所有q个特征向量,因为数据中的大多数可变性在前几个PC中被捕获; 2或3个PC通常足以解释产品中大多数可预测的变化。 当变量数量很大时,NIPALS算法(Geladi和Kowalski,1986)对于以顺序方式计算主成分是理想的。 可以使用多种方法(Jackson,1991)来评估提供足够的数据描述的PC的数量,其中交叉验证(Wold,1978)可能是最可靠的。 通过仅保留第一个A PC,Y矩阵近似为:Y= ~ t~p~r.
3.2基于这些基本要素的统计质量控制
基于在仅存在共同原因变化时收集的历史数据建立了PCA模型,可以针对该“控制中”模型参考未来行为。 新的多变量观测可以投影到由PCA加载定义的平面上
其中PC项在T2的计算中起着相等的作用,而与其在Y矩阵中解释的方差量无关。 这说明当变量高度相关并且E非常病态时使用T的一些问题。 当变量(q)的数量大时,E通常是奇异的并且不能被反转,也不能获得所有的特征向量。 即使可以,等式(16)中的最后一个PC(i = A 1 ... q)解释了很少的Y方差,并且通常表示随机噪声。 通过用它们的非常小的方差来划分这些t,在这些ti中的略微偏差具有几乎没有效应将导致在T〜的控制信号之外。 因此,基于第一个A(交叉验证)PC的TJ提供了对于对Y的方差最重要的产品质量变量的偏差的测试。
然而,通过TA2监测产品质量是基于第一个APC是不够的。 这将仅检测第一A PC的平面中的质量变量的变化是否大于可以由共同原因解释的质量变量的变化。 如果出现了一种全新类型的特殊事件,这些事件在用于开发控制中PCA模型的参考数据中不存在,那么将出现新的PC,新的观测值将离开平面bull;这样的新事件可以 通过计算新观测值的残差的平方预测误差(SPEy)来检测(Kresta等人,1991)。
该统计量也被称为Q统计量
(Jackson,1991)或距模型的距离。 它表示新的多变量观测值与平面的平方垂直距离。 当过程是“控制中”时,SPE的这个值。 或Q应小于计算该统计数据之和的上限控制,从历史数据,使用二次形式分布的近似结果(Jackson,1991; Nomico和MacGregor,1995)。 在建模阶段,当过程处于“控制中”时,SPEy表示模型无法解释的非结构化波动(噪声)。 当发生导致Y的协方差结构改变的异常事件时,它将被SPE的高值检测到。 ; SPEy的高值意味着投影模型不是对该观察有效。 因此,一组非常有效的多元控制图是一个关于主成分正交PC(t〜tA)加上SPEychart的T2图。
3.3部分最小二乘法分析
(这部分的介绍和高等数学书上差不多,不做翻译)
3.4历史流程数据分析
虽然大多数工艺数据被收集并存储在大多数工业过程的数据库中,但对这些数据的分析和解释很少。这是因为数据库的规模过大,以及正在收集的日常操作数据的非常条件性质。此外,信噪比通常在这些数据中较差,并且经常存在大量的数据。然而,通过PCA和PLS的多变量统计投影方法很好地解决了所有问题。通过检查由少量潜变量(t1,t2,...,tn)定义的投影空间中的过程数据的行为,并且通过检查由负载限定的相应空间来解释该减少的空间中的过程运动在PLS的情况下,向量(P1,P2 ... PA)或(w〜,w2,...,WA),通常可以从这些数据库中提取非常有用的信息,从而改进过程。
有几个有趣的例子使用这些方法来分析过程数据。 Denney et al。 (1985)将该方法应用于工业硫回收单元的分析。 Moteki和Arai(1986)使用它们来分析低密度聚
全文共6225字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[143690],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。