统计,概率和噪声外文翻译资料

 2022-08-15 17:10:03

英语原文共 666 页,剩余内容已隐藏,支付完成后下载完整资料


统计,概率和噪声

在数字信号处理中,统计和概率被用来描述信号和产生信号的过程。例如,DSP的主要用途是减少采集数据中的干扰、噪声和其他不良成分。这些可能是被测信号的固有部分,源于数据采集系统的缺陷,或者是某些DSP操作不可避免的副产品。统计数据和概率允许对这些破坏性特征进行测量和分类,这是制定战略以消除有害成分的第一步。这一章介绍了统计学和概率论中最重要的概念,着重介绍了它们如何应用于获得的信号。

信号与图形术语

信号是一个参数如何与另一个参数相关联的描述。例如,模拟电子中最常见的信号类型是随时间变化的电压。由于这两个参数都可以假定值的连续范围,因此我们将其称为连续信号。相比之下,通过模数转换器传递这个信号会迫使两个参数中的每一个都被量子化。例如,假设以每秒1000个样本的采样率使用12位元进行转换。电压被缩减到4096(212)可能的二进制级别,并且时间只以一毫秒的增量定义。以这种方式量子化的参数形成的信号称为离散信号或数字化信号。在大多数情况下,连续信号存在于自然界中,而离散信号存在于计算机中(尽管您可以发现这两种情况的例外)。当一个参数是连续的,而另一个参数是离散的时,也有可能产生信号。由于这些混合信号非常少见,所以它们没有特殊的名称,必须明确说明这两个参数的性质。

图2-1显示了两个离散的信号,例如可以通过数字数据采集系统获得的信号。纵轴表示电压、光强度,声压,或无数其他参数。因为我们不知道它在这个特殊情况下代表什么,我们将给它一个通用的标签:振幅。此参数也被称为其他几个名称:y轴、因变量、范围和纵坐标。

横轴表示信号的另一个参数,其名称为:x轴、自变量、定义域和横坐标。时间是采集信号横轴上最常见的参数;但是,在特定的应用程序中使用其他参数。例如,地球物理学家可能获得沿地球表面等间隔距离的岩石密度的测量值。为了保持一般性,我们将简单地标记横轴:sample number。如果这是一个连续信号,则必须使用另一个标签,如:时间、距离、x等。

构成信号的两个参数通常是不可互换的。y轴上的参数(因变量)是x轴上的参数(自变量)的函数。换句话说,自变量描述了如何或何时取样,而因变量是实际测量值。给定x轴上的一个特定值,我们总能找到y轴上的对应值,但通常不会找到y轴上的对应值。

特别要注意词域,这是DSP中一个非常广泛使用的术语。例如,一个用时间作为自变量的信号(Le)。,水平轴上的参数),即为在时域内。DSP中另一个常用的信号是频率作为自变量,从而产生了频域这一术语。同样地,使用距离作为独立参数的信号被称为在空间域中(距离是空间的度量)。横轴上的参数类型为信号域;就是这么简单。如果x轴使用非常通用的标记,比如采样数,会怎么样?作者通常称这些信号为时域信号。这是因为以相同的时间间隔进行采样是获得信号的最常见方式,而他们没有更具体的称呼。

虽然图2-1中的信号是离散的,但在图中它们是连续的线。这是因为有太多的样本,如果它们作为单独的标记显示,就很难区分。在描绘较短信号的图形中,例如少于100个样本,通常显示单个标记。根据作者希望您如何查看数据,可以绘制连续的线来连接标记,也可以不绘制连续的线来连接标记。例如,一条连续的线可以暗示样本之间发生了什么,或者只是帮助读者的眼睛跟随嘈杂数据中的趋势。重点是,检查水平轴的标记,看看您是在处理离散信号还是连续信号。不要依赖插画师画点的能力。

变量N在DSP中广泛用于表示信号中样本总数。例如,图2-1中的信号N = 512。来

保持数据的组织,每个样本被分配一个样本编号或索引。这些数字出现在横轴上。通常使用两种表示法来分配样本号。在第一种表示法中,示例索引的范围是从1到N(例如,从1到512)。在第二种表示法中,样本索引的范围是从0到N- 1(例如,从0到5 11)。数学家通常使用第一种方法(1到N),而DSP的数学家通常使用第二种方法(0到N- 1)。在本书中,我们将使用第二种符号。不要认为这是一个微不足道的问题。在你的职业生涯中,它会让你感到困惑。小心!

平均值由p(小写的希腊字母mu)表示,是统计学家对信号平均值的术语。正如你所期望的那样:把所有的样本加在一起,然后除以n。它的数学形式如下:

公式2-1计算信号的平均值。信号包含在x中,通过xN- i是通过这些值的索引,是均值。

换句话说,对信号中的va和des求和,通过改变指数i,从0到N- 1。然后将总和除以n完成计算,这与公式相同:p = (xo xl x2 hellip;) X, ~ -) / N。如果你还不熟悉Z(大写希腊字母sigma)是用来表示求和的,请仔细研究这些方程,并将它们与表2- 1中的计算机程序进行比较。这种类型的求和在DSP中非常丰富,您需要充分理解这种表示法。

在电子学中,平均值通常称为直流(直流电)值。同样,AC(交流电)指的是信号如何在平均值附近波动。如果信号是一个简单的重复波形,例如正弦或方波,它的波动可以用它的峰间振幅来描述。遗憾的是,大多数获得的信号并没有明确的峰峰值,而是具有随机性,如图2-1所示。在这些情况下,必须使用一种更通用的方法,称为标准偏差,用o(小写的希腊西格玛)表示。

作为一个起点,表达式Ixi - p1描述了i rh样本与平均值的偏离程度。一个信号的平均偏差是通过对所有样本的偏差求和,然后除以样本的数量n得到的。注意,我们在求和之前取每个偏差的绝对值;否则正负项的平均值将为零。平均偏差提供了一个表示样本与均值之间的典型距离的数字。虽然方便和直接,平均偏差几乎从未在统计中使用。这是因为它不符合信号运作的物理规律。在大多数情况下,重要的参数不是偏离均值,而是偏离均值所代表的幂。例如,当随机噪声信号在一个电子电路中组合时,产生的噪声等于单个信号的综合功率,而不是它们的综合振幅。

标准偏差与平均偏差相似,不同的是平均是用功率而不是振幅来完成的。这是通过在取平均值(记住,功率-电压)之前的每一个偏差的squarin来实现的。最后,取平方根来补偿初始的平方。以方程形式计算标准差:

一个信号的标准偏差的计算。信号存储在xi中,p为Eq. 2-1的平均值,N为样本数,u为标准差。

注意,一般是由除以N - 1代替N .这是一个微妙的特征方程,将在下一节中讨论。术语a在统计中经常出现,并被赋予名称方差。标准差是测量信号与均值波动的距离。方差代表了波动的力量。您应该熟悉的另一个术语是均方根值,经常用于电子产品。根据定义,标准偏差只测量信号的交流部分,而均方根值同时测量交流和直流分量。如果一个信号没有直流分量,它的均方根值就等于它的标准偏差。图2-2显示了几种常见波形的标准差与峰峰值之间的关系。

图2-2几种常见波形的峰值-峰值振幅与标准偏差之比。对于方波,这个比例是2;对于三角波,fl= 3.46;正弦波是2@ = 2.83。虽然随机噪声没有确切的峰峰值,但它大约是标准偏差的6到8倍。

表2-1列出了使用公式2-1和2-2计算平均值和标准偏差的计算机例程。本书中的程序旨在以最直接的方式表达算法;所有其他因素都是次要的。好的编程技术如果能使程序逻辑更清晰,就会被忽略。例如:使用BASIC的简化版本,包括行号,唯一允许的控制结构是For - next循环,没有I/O语句,等等。请将这些程序视为理解DSP中使用的方程式的另一种方式。如果你不能抓住一个,也许另一个会有帮助。在BASIC语言中,变量名末尾的%字符表示它是一个整数。所有其他变量都是浮点数。第四章详细讨论了这些变量类型。

这种计算均值和标准差的方法适用于许多情况;然而,它有两个局限性。首先,如果平均值远远大于标准差,则Eq. 2-2涉及到减去两个数值非常接近的数。这可能导致计算中出现过多的舍入误差,这个主题将在第4章中详细讨论。其次,在获得新样本并将其加入信号时,通常需要重新计算平均值和标准差。我们将这种类型的计算称为:运行统计。虽然Eqs. 2-1和2-2的方法可以用于运行统计,但它要求每个新的计算都涉及所有的样本。这是对计算能力和内存的一种非常低效的使用。

通过对方程2-1和2-2的处理,可以找到这些问题的一个解决方案,从而提供另一个计算标准差的方程:

使用运行统计数据计算标准偏差。该方程的计算结果与公式2-2相同,但四舍五入噪声较小,计算效率较高。信号表示为三个累积参数:N,即样本总数;和,这些样本的和;平方和,样本的平方和。然后根据这三个累积参数计算平均值和标准差。

通过信号移动时,三个参数的运行记录保存:(1)的数量已经处理过的样品,这些样品(2)的总和,(3)的平方和的样品(也就是说,平方每个样本的值,并将结果添加到累积值)。任意数量的样本经过处理后,仅用这三个参数的当前值就可以有效地计算出均值和标准差。表2-2显示了一个程序,当考虑每个新样本时,它以这种方式报告平均值和标准偏差。这是一种在手动计算器中用来计算数字序列的统计数字的方法。每当您输入一个数字并按I:(求和)键时,这三个参数都会更新。然后可以随时找到平均值和标准偏差,而不需要重新计算整个序列。

在结束关于均值和标准差的讨论之前,需要提到另外两个术语。在某些情况下,平均值表示被测量的内容,而标准偏差表示噪声和其他干扰。在这些情况下,标准差本身并不重要,而只是与平均值相比。这就产生了一个术语:信噪比(SNR),它等于均值除以标准差。另一项也被使用,变异系数(CV)。定义为标准差除以均值,乘以100%例如,CV为2%的信号(或其他一组测量值)的信噪比为50。更好的数据意味着更高的信噪比和更低的CV值。

统计学是一门解释数值数据的科学,例如获得的信号。相比之下,在DSP中使用概率来理解信号的产生过程。虽然它们之间有密切的联系,但获得的信号和底层过程之间的区别是许多DSP技术的关键。

例如,假设通过将一枚硬币投掷1000次来创建一个1000点的信号。如果抛硬币是正面,相应的样本值为1。在反面,样本被设为0。产生这个信号的过程的平均值正好是0.5,这是由每种可能结果的相对概率决定的:50%是正面,50%是反面。然而,实际的1000点信号的平均值不太可能正好是0.5。随机机会将使数字的1和0略有不同,每次信号产生。潜在过程的概率是恒定的,但是每次重复实验时所获得的信号的统计值都会发生变化。在实际数据中发现的这种随机的不规则现象被称为:统计变异、统计波动和统计噪声。

这就有点进退两难了。当您看到术语:均值和标准偏差时,您如何知道作者指的是实际信号的统计数据,还是创建信号的底层过程的概率?不幸的是,你只能通过上下文来判断。统计和概率中的所有术语并非如此。例如,柱状图和概率质量函数(在下一节中讨论)是匹配不同名称的概念。

回到公式2-2,计算标准差。如前所述,这个方程在计算平方偏差的平均值时除以N-1,而不是简单地除以n。为了理解为什么会这样,假设你想找出某个产生信号的过程的均值和标准差。为此,从过程中获得N个样本的信号,通过公式2.1计算信号的均值。然后,您可以使用此值作为底层流程的平均值的估计值;但是,您知道由于统计噪声会产生错误。特别是对于随机信号,N个点的均值与底层过程均值之间的典型误差为:

式2-4利用有限数量的样本计算基础过程均值的典型误差,N.参数c为标准差。

如果N很小,则计算均值中的统计噪声会很大。换句话说,您没有足够的数据来正确地描述流程。N的值越大,期望误差就越小。概率论的一个里程碑,强大的大数定律,保证了误差在N趋近于无穷时变为零。

在下一步中,我们将计算获得的信号的标准差,并将其用作基础流程标准差的估计值。这就是问题所在。在使用Eq. 2-2计算标准差之前,你需要知道均值p。但是,你不知道底层过程的均值,只知道N点信号的均值,其中包含一个统计噪声引起的误差。这个误差会降低标准差的计算值。为了补偿这个,N被N-1代替了。如果N很大,这个差就无关紧要了。如果N很小,则此替换提供了对基础流程的标准偏差的更准确的估计。换句话说,公式2-2是对基础过程的标准差的估计。如果我们在方程中除以N,它将提供得到的信号的标准差。

为了说明这些观点,请看图2-3中的信号,然后问:这些信号的变化是统计噪音的结果,还是潜在的过程在改变?要说服自己这些变化太大而不是随机的,并且一定与底层的过程有关,这可能并不难。以这种方式改变其特性的过程称为非平稳过程。相比之下,图2-1所示的信号是由平稳过程产生的,其变化完全是由统计噪声引起的。图2-3b说明了非平稳信号的一个常见问题:缓慢变化的平均值干扰了标准偏差的计算。在这个例子中,信号在短时间间隔内的标准差是1。但是,整个信号的标准差是1.16。通过将信号分解成短节,并分别计算每个节的统计数据,可以几乎消除这个错误。如果需要,可以对每个部分的标准偏差求平均值,以产生一个单独的值。

假设我们把一个8位的模数转换器连接到计算机上,获得256,000个信号样本。例如,图2-4a所示的128个样本可能是这个数据集的一部分。每个样本的值将是256种可能性中的一种,从0到255。直方图显示了信号中包含每个可能值的样本的数量。图(b)显示了(a)中128个样本的直方图,例如,2个样本值为110,7个样本值为131,0个样本值为170,等等。我们将通过Hi来表示直方图,其中i是一个从0到M-1的索引,M是每个样本可以取的可能值的数量。例如,H,是值为50的样本的数量。图(c)显示了使用完整数据集,所有256k点的信号的直方图。可以看出,样本量越大,外观越光滑。与平均值一样,直方图的统计噪声(粗糙度)与所用样本数量的平方根成反比。

从定义的方式上看,直方图中所有值的总和必须等于信号中的点数:

公式2-5直方图中所有值的和等于信号中点的个数。式中,Hi为直方图,N为信号中的点数,M为直方图中的点数。

直方图可以用来有效地计算非常大的数据集的均值和标准差。这对于包含数百万个样本的图像尤其重要。直方图将具有相同值的样本分组在一起。这使得统计数据可以通过几个组来计算,而不是通过大量的单个样本来

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[411581],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。